RAG 文档 MCP 服务器是一个实现的 MCP 服务器,它能用于检索和处理文档,并通过向量搜索提供工具支持。借助该服务器,AI 助手可以利用相关文档上下文来增强其响应内容,为用户提供更准确、全面的信息。
通过自然语言查询在存储的文档中进行搜索,返回匹配的摘录及其上下文,并按相关性排序。 输入参数:
query
(字符串):要在文档中搜索的文本,可以是自然语言查询、特定术语或代码片段。limit
(数字,可选):要返回的结果的最大数量(范围为 1 - 20,默认值为 5)。较大的限制会提供更全面的结果,但可能会增加处理时间。列出当前存储在系统中的所有文档来源,返回一个详尽的列表,包含所有索引的文档源 URL、标题和最后更新时间。使用此工具可了解可用于搜索的文档内容,或验证是否已索引特定来源。
从指定网页中提取并分析所有 URL。该工具会爬取指定网页、识别所有超链接,并可选择将它们添加到处理队列中进行后续处理。 输入参数:
url
(字符串):要分析的网页完整 URL(必须包含协议,例如 https://),该页面必须公开可访问。add_to_queue
(布尔值,可选):如果为 true,则自动将提取的 URL 添加到处理队列中进行后续索引。在大型网站上使用时请谨慎,以免队列过多。通过其 URL 从系统中永久删除特定文档来源,此操作会影响未来的搜索结果。 输入参数:
urls
(字符串数组):要从数据库中移除的 URL 列表,每个 URL 必须与添加时使用的 URL 完全匹配。列出当前在文档处理队列中等待的所有 URL,显示待处理文档来源,这些将在调用 run_queue 时进行处理。使用此工具可监控队列状态、验证 URL 是否正确添加,或检查处理积压情况。
处理并索引所有当前位于文档处理队列中的 URL。每个 URL 将按顺序处理,并提供适当的错误处理和重试逻辑,在处理过程中会提供进度更新。长时间运行的操作将在队列清空或发生不可恢复的错误之前继续进行。
从文档处理队列中移除所有待处理 URL。使用此工具可开始清空队列、移除不需要的 URL,或取消待处理任务。此操作是立即且永久的,如果需要再次处理这些 URL,则需要重新添加它们。
RAG 文档工具适用于以下场景:
在 claude_desktop_config.json
文件中添加以下内容:
{
"MCP server": {
"enabled": true,
"configuration": {
"type": "RAGDocumentation"
}
}
}
输入:
输出:
[
{"content": "步骤 1:安装所需的依赖项。", "source": "documentation/installation.md"},
{"content": "步骤 2:配置环境变量。", "source": "documentation/configuration.md"},
{"content": "步骤 3:启动服务。", "source": "documentation/getting-started.md"}
]
输入:
输出:
[
{"url": "documentation/installation.md", "title": "安装指南", "last_updated": "2024-01-01"},
{"url": "documentation/configuration.md", "title": "配置指南", "last_updated": "2024-01-02"}
]
输入:
输出:
{
"status": "success",
"message": "URL 已添加到队列中。"
}
属性 | 详情 |
---|---|
OPENAI_API_KEY |
OpenAI API 的密钥(必需) |
QDRANT_URL |
Qdrant 服务的 URL(必需) |
VECTOR_DB_PATH |
向量数据库的路径(可选,默认为 ./vector_db) |
此文档详细描述了 RAG 文档 MCP 服务器的功能、工具和配置。通过结合这些功能,您可以有效地管理和检索文档内容,为 AI 应用程序提供有力支持。