Spider MCP 是一个基于纯爬虫技术构建的网页搜索 MCP 服务,采用 Node.js 开发,能够在不依赖第三方官方 API 的情况下,实现网页和新闻的智能搜索。
npm install
或者使用 pnpm
:
pnpm install
npx puppeteer browsers install chrome
复制并配置环境变量文件:
cp .env.example .env
根据需要编辑 .env
文件。
开发模式:
npm run dev
生产模式:
npm start
服务将在 http://localhost:3000
启动。
统一搜索工具,支持网页和新闻搜索:
searchType: "web"
searchType: "news"
,支持时间过滤searchType
是必需参数,必须明确指定# 网页搜索
使用 web_search 工具以 searchType 为 web 搜索 "Node.js 教程",返回 10 条结果
# 新闻搜索
使用 web_search 工具以 searchType 为 news 搜索 "科技新闻",返回过去 24 小时内的 5 条结果
get_webpage_content
:获取网页内容并转换为指定格式get_webpage_source
:获取网页的原始 HTML 源代码batch_webpage_scrape
:批量抓取多个网页在 Chatbox 中创建 mcp-config.json
文件:
{
"mcpServers": {
"spider-mcp": {
"command": "node",
"args": ["src/mcp/server.js"],
"env": {
"NODE_ENV": "production"
},
"description": "Spider MCP - 网页搜索和网页抓取工具",
"capabilities": {
"tools": {}
}
}
}
}
{
"mcpServers": {
"spider-mcp": {
"command": "node",
"args": ["path/to/spider-mcp/src/mcp/server.js"]
}
}
}
spider-mcp/
├── src/
│ ├── index.js # 主入口文件
│ ├── mcp/
│ │ └── server.js # MCP 服务器
│ ├── routes/ # 路由定义
│ │ ├── search.js # 搜索路由
│ │ └── health.js # 健康检查路由
│ ├── services/ # 业务逻辑
│ │ └── searchService.js # 搜索服务
│ └── utils/ # 工具函数
│ └── logger.js # 日志工具
├── logs/ # 日志文件目录
├── tests/ # 测试文件
├── package.json # 项目配置
├── .env.example # 环境变量示例
├── mcp-config.json # MCP 配置示例
└── README.md # 项目文档
属性 | 详情 |
---|---|
模型类型 | Node.js (>= 18.0.0) |
训练数据 | Express.js - Web 框架 Puppeteer - 浏览器自动化工具 Cheerio - HTML 解析器 Axios - HTTP 客户端 Winston - 日志记录工具 @modelcontextprotocol/sdk - MCP 协议支持 |
本项目采用 MIT 许可证。
欢迎提交问题和拉取请求!