Mcp Getweb

Mcp Getweb

🚀 MCP-GetWeb

MCP-GetWeb 是一个基于模型上下文协议(MCP)的服务器,它具备网页搜索和内容提取的强大能力,能为用户提供便捷的网络信息获取体验。

npm version npm downloads License: MIT GitHub issues

🚀 快速开始

在开始使用前,你需要准备以下信息:

以下是配置示例:

{
"mcpServers": {
"getweb": {
"command": "npx",
"args": [
"mcp-getweb"
],
"type": "stdio",
"env": {
"GOOGLE_API_KEY": "XXXXXXXXX",
"GOOGLE_SEARCH_ENGINE_ID": "XXXXXXXXX",
"JINA_API_KEY": "jina_XXXXXXXXX"
}
}
}
}

✨ 主要特性

1) DuckDuckGo 搜索 (duckduckgo-search)

借助 DuckDuckGo 进行网页搜索,并支持 HTML 内容抓取。

参数说明

  • query(字符串,必填):搜索查询词
  • page(整数,可选):页码(默认值:1,最小值:1)
  • numResults(整数,可选):返回结果数量(默认值:10,最小值:1,最大值:20)

2) Google 搜索 (google-search)

利用可编程搜索引擎进行 Google 搜索,并返回相关结果。

参数说明

  • query(字符串,必填):搜索查询词;使用引号可进行精确匹配
  • num_results(整数,可选):返回结果总数(默认值:5,最大值:10)
  • site(字符串,可选):限定搜索特定网站/域名(例如:wikipedia.org
  • language(字符串,可选):ISO 639 - 1 语言代码(例如:en, es
  • dateRestrict(字符串,可选):日期过滤器,例如:d7, w4, m6, y1
  • exactTerms(字符串,可选):必须出现的精确短语
  • resultType(字符串,可选):结果类型:image|images|news|video|videos
  • page(整数,可选):分页页码(默认值:1,最小值:1)
  • resultsPerPage(整数,可选):每页结果数量(默认值:5,最大值:10)
  • sort(字符串,可选):排序顺序,relevance(默认)或 date

注意:需要设置 GOOGLE_API_KEYGOOGLE_SEARCH_ENGINE_ID

3) Felo AI 搜索 (felo-search)

基于人工智能的搜索功能,可提供上下文相关的响应,获取最新的技术信息(版本发布、公告、迁移、基准测试、社区见解等)。

参数说明

  • query(字符串,必填):搜索查询词或提示
  • stream(布尔值,可选):是否流式返回响应(默认值:false)

4) URL 内容抓取 (fetch-url)

抓取指定 URL 的内容,并以文本形式返回,支持提取控制。

参数说明

  • url(字符串,必填):要抓取的 URL
  • maxLength(整数,可选):最大内容长度(默认值:10000,最小值:1000,最大值:50000)
  • extractMainContent(布尔值,可选):尝试提取主要内容(默认值:true)
  • includeLinks(布尔值,可选):包含链接文本(默认值:true)
  • includeImages(布尔值,可选):包含图片 alt 文本(默认值:true)
  • excludeTags(字符串数组,可选):要排除的标签(默认包含 script, style, noscript, iframe, svg, nav, footer, header, aside

5) URL 元数据提取 (url-metadata)

从指定 URL 提取元数据(标题、描述、图片、图标)。

参数说明

  • url(字符串,必填):要提取元数据的 URL

6) URL 抓取并转换为 Markdown (url-fetch)

抓取网页内容并转换为 Markdown 格式。支持处理 HTML、纯文本和 JSON(以代码块形式格式化输出)。

参数说明

  • url(字符串,必填):要抓取并转换为 Markdown 的 URL

7) Jina 阅读器 (jina-reader)

使用 Jina r.reader 从指定 URL 检索适合大语言模型(LLM)的内容,支持可选的摘要和格式设置。

参数说明

  • url(字符串,必填):要抓取和解析的 URL
  • maxLength(整数,可选):最大输出长度(默认值:10000,最小值:1000,最大值:50000)
  • withLinksummary(布尔值,可选):包含链接摘要(默认值:false)
  • withImagesSummary(布尔值,可选):包含图片摘要(默认值:false)
  • withGeneratedAlt(布尔值,可选):为图片生成 alt 文本(默认值:false)
  • returnFormat(字符串,可选):markdown(默认) | html | text | screenshot | pageshot
  • noCache(布尔值,可选):绕过缓存(默认值:false)
  • timeout(整数,可选):最大等待秒数(默认值:10,最小值:5,最大值:30)

注意:需要设置 JINA_API_KEY

🙏 致谢

  • Anthropic 提供的模型上下文协议规范
  • DuckDuckGo 提供的注重隐私的网页搜索体验
  • Google 可编程搜索引擎和自定义搜索 JSON API
  • Jina AI r.reader API 实现高质量的内容提取
  • Felo AI 提供的最新的、面向开发者的搜索见解
  • 支撑本服务器的 Rust 生态系统和相关库:
    • tokio、reqwest、serde、serde_json、tracing、tracing - subscriber、clap
    • scraper、html5ever、markup5ever_rcdom、regex、once_cell、futures、async - stream
    • url、uuid、thiserror、tokio - util、rand、urlencoding
  • 更广泛的 MCP 社区提供的指导、示例和讨论

🛠️ 支持

如果您遇到任何问题或有疑问,请在 GitHub 上提交问题。

  • 0 关注
  • 0 收藏,8 浏览
  • system 提出于 2025-09-21 18:15

相似服务问题