jcrawl 是一个基于 Java 的爬虫项目,借助 Spring AI MCP Server 和 Hutool 等依赖构建。它提供了 crawl
和 task
两个主要接口,可高效完成网页爬取与任务管理。
使用 Maven 安装项目:
mvn clean install
运行 Jar 包:
java -jar target/jcrawl-1.0.0.jar
注意:下载 JAR 文件的链接请见 官方文档。
项目依赖以下组件:
请确保在运行项目前安装好这些依赖。
urls
:目标网站地址列表。strategy
:爬取策略(如广度优先、深度优先)。max_depth
:最大爬取深度。output_format
:输出格式(如 JSON、XML)。taskId
:任务唯一标识符。{
"mcpServers": {
"jcrawl": {
"autoApprove": ["crawl", "task"],
"disabled": false,
"timeout": 60,
"command": "java",
"args": [
"-jar",
"/path/to/jcrawl.jar"
],
"transportType": "stdio"
}
}
}
项目的配置文件位于 application.properties
中:
cawl4ai.base-url=
cawl4ai.api-token=
如需反馈或技术支持,请联系 Ken Ye。