Mcp Image Recognition

Mcp Image Recognition

🚀 MCP 图像识别服务器

MCP 图像识别服务器借助 Anthropic 和 OpenAI 视觉 API,为用户提供强大的图像识别功能。当前版本为 0.1.2,能有效解决图像描述、文本提取等需求,为开发者和使用者带来便利。

🚀 快速开始

MCP 图像识别服务器可快速搭建并投入使用。以下是详细的启动步骤:

运行服务器

  • 使用 Python 启动
python -m image_recognition_server.server
  • 通过批处理脚本启动
run.bat server
  • 以开发模式运行(附带 MCP inspector)
run.bat debug

✨ 主要特性

  • 多 API 支持:可使用 Anthropic Claude Vision 或 OpenAI GPT - 4 Vision 进行图像描述。
  • 多格式兼容:支持 JPEG、PNG、GIF、WebP 等多种图像格式。
  • 可配置性强:具备可配置的主要和备用提供程序。
  • 灵活输入方式:支持 Base64 和文件格式的图像输入。
  • 可选 OCR 功能:提供可选的 Tesseract OCR 文本提取功能。

📦 安装指南

依赖项

  • Python:需 Python 3.8 或更高版本。
  • Tesseract OCR(可选):用于文本提取功能。
    • Windows:从 UB - Mannheim/tesseract 下载并安装。
    • Linux:使用命令 sudo apt-get install tesseract-ocr 进行安装。
    • macOS:使用命令 brew install tesseract 进行安装。

安装步骤

  1. 克隆仓库
git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition
  1. 创建并配置环境文件
cp .env.example .env
# 编辑 .env 文件以设置 API 密钥和偏好设置
  1. 构建项目
build.bat

💻 使用示例

可用工具

describe_image

  • 输入:Base64 编码的图像数据和 MIME 类型。
  • 输出:图像的详细描述。

describe_image_from_file

  • 输入:图像文件路径。
  • 输出:图像的详细描述。

📚 详细文档

环境配置

属性 详情
ANTHROPIC_API_KEY Anthropic API 密钥
OPENAI_API_KEY OpenAI API 密钥
IMAGE_SIZE 处理图像的大小(默认为 "256x256")
MAX_ITERATIONS 最大迭代次数(默认为 100)

OpenRouter 说明

  • 如果使用 OpenRouter,请参考其文档以获取详细配置信息。
  • 确保设置正确的 API 密钥和模型端点。

默认模型

  • Anthropic 的 Claude 视觉模型。
  • OpenAI 的 GPT - 4 Vision 模型。

🔧 技术细节

测试

运行所有测试可使用以下命令:

run.bat test

调试

使用调试模式运行服务器可使用以下命令:

run.bat debug

📄 许可证

文档中未提及许可证相关信息。

📈 发布历史

  • 版本 0.1.2
    • 修复了已知的兼容性问题。
    • 改进了 OCR 错误处理并添加了对 OCR 功能的全面测试覆盖。
  • 版本 0.1.1
    • 初始发布,包含基本功能和文档支持。
  • 0 关注
  • 0 收藏,11 浏览
  • system 提出于 2025-09-30 19:45

相似服务问题