通过 Google 的 Gemini 模型,使用 MCP 协议从文本提示生成高质量图像,为图像生成提供了高效且优质的解决方案。
本 MCP 服务器借助 Google 的 Gemini AI 模型,让任何 AI 助手都能轻松生成图像。服务器会处理提示工程、文生图转换、智能文件名生成以及本地图像存储等任务,通过任意 MCP 客户端即可简单地创建和管理 AI 生成的图像。
克隆仓库:
git clone https://github.com/your-username/gemini-image-generator.git
cd gemini-image-generator
创建虚拟环境并安装依赖项:
# 使用普通 venv
python -m venv .venv
source .venv/bin/activate
pip install -e .
# 或使用 uv
uv venv
source .venv/bin/activate
uv pip install -e .
复制示例环境文件并添加 API 密钥:
cp .env.example .env
编辑 .env
文件,输入 Gemini API 密钥和目标输出路径:
GEMINI_API_KEY="your-gemini-api-key-here"
OUTPUT_IMAGE_PATH="/path/to/save/images"
在 claude_desktop_config.json
中添加以下内容(以 macOS 为例):
{
"mcpServers": {
"gemini-image-generator": {
"command": "uv",
"args": [
"--directory",
"/absolute/path/to/gemini-image-generator",
"run",
"server.py"
],
"env": {
"GEMINI_API_KEY": "GEMINI_API_KEY",
"OUTPUT_IMAGE_PATH": "OUTPUT_IMAGE_PATH"
}
}
}
}
安装完成后,可以通过以下命令启动服务:
fastmcp dev server.py
这将启动一个本地开发服务器,并在 http://localhost:5173/
提供 MCP 检查界面,方便用户直接测试图像生成工具。
generate_image_from_text
根据文本描述生成新图像。
# 参数说明
# prompt: 文本提示,例如 "一只飞翔的猫头鹰在魔法森林中"。
# width: 图像宽度,默认为 512 像素。
# height: 图像高度,默认为 512 像素。
# quality: 图像质量,范围 [1, 100]。
# 返回值说明
# image_data: Base64 编码的图像数据。
# filename: 自动生成的文件名。
transform_image
根据提示对现有图像进行编辑。
# 参数说明
# prompt: 修改提示,例如 "将这张照片变成黑白风格"。
# input_image: 输入图像的路径或 Base64 数据。
# output_format: 输出格式,默认为 JPEG。
# 返回值说明
# modified_image_data: 处理后的图像数据。
# transform_result: 描述处理结果的 JSON 对象。
apply_stylization
将一种风格应用到现有图像上。
# 参数说明
# style_name: 风格名称,例如 "梵高风格"。
# input_image: 输入图像的路径或 Base64 数据。
# 返回值说明
# stylized_image_data: 应用风格后的图像数据。
# applied_style: 记录应用风格信息的日志。
MIT License