Opendia

Opendia

🚀 OpenDia

OpenDia是替代Dia / Perplexity Comet的开源方案,它能将你的浏览器与AI模型相连接,无需切换浏览器,能与Chrome、Firefox及任何基于Chromium的浏览器无缝协作。它注重隐私,以本地优先,聚焦于多模态计算平台(MCP)。

如果你并非技术人员,或者从未使用过多模态计算平台,我们建议你使用 Perplexity Comet

npm version GitHub release License: MIT

🚀 快速开始

1. 安装浏览器扩展程序

对于Chrome/Chromium浏览器:

  1. releases 下载 opendia-chrome-1.0.6.zip 文件。
  2. 将压缩文件解压到一个文件夹中。
  3. 访问 chrome://extensions/(或你浏览器的扩展程序页面)。
  4. 启用“开发者模式”。
  5. 点击“加载已解压的扩展程序”,并选择解压后的文件夹。

对于Firefox浏览器:

  1. releases 下载 opendia-firefox-1.0.6.zip 文件。
  2. 将压缩文件解压到一个文件夹中。
  3. 访问 about:debugging#/runtime/this-firefox
  4. 点击“加载临时附加组件...”。
  5. 从解压后的文件夹中选择 manifest.json 文件。

⚠️ 重要提示

Firefox扩展程序是以临时附加组件的形式加载的,重启Firefox后会被移除,这是Firefox对未签名扩展程序的限制。

2. 连接到你的AI

选项1:双击安装(推荐)

  1. releases 下载 opendia.dxt 文件。
  2. 双击 .dxt 文件进行自动安装。
  3. 多模态计算平台(MCP)将被添加到你的Claude桌面配置中。

选项2:手动配置 将以下内容添加到你的Claude桌面配置中:

{
"mcpServers": {
"opendia": {
"command": "npx",
"args": ["opendia"]
}
}
}

对于Cursor或其他AI工具,使用相同的配置,或遵循它们的特定设置说明。

✨ 主要特性

  • 利用现有数字生活:借助你已登录的账户、保存的密码、Cookie、钱包和浏览历史,无需从头开始或切换上下文。
  • 通用AI支持:可与Claude、ChatGPT、Cursor甚至本地模型协同工作。
  • 反检测功能:针对Twitter/X、LinkedIn、Facebook等平台有专门的绕过机制。
  • 智能自动化:AI能够理解页面内容并找到正确的交互元素。
  • 隐私优先:所有操作都在本地运行,你的数据不会离开本地。
  • 零设置:通过一个命令即可开始使用。

📦 安装指南

本地模式(默认)

npx opendia
  • Chrome扩展程序:ws://localhost:5555(启用自动发现)
  • Claude桌面:stdio(现有配置)
  • 本地服务器发送事件(SSE):http://localhost:5556/sse

端口配置

# 使用自定义端口
npx opendia --port=6000              # 使用6000(WebSocket)+ 6001(HTTP)
npx opendia --ws-port=5555 --http-port=5556  # 分别指定端口

# 处理端口冲突  
# 注意:启动时会自动终止现有的OpenDia进程

自动隧道模式

npx opendia --tunnel
  • 自动创建ngrok隧道。
  • 复制URL用于ChatGPT/在线AI服务。
  • 保留本地功能。

⚠️ 重要提示

要使用自动隧道功能,你需要安装ngrok:

macOS系统:

brew install ngrok

Windows系统:

# 使用Chocolatey安装
choco install ngrok

# 或者从https://ngrok.com/download下载

Linux系统:

# Ubuntu/Debian系统
curl -s https://ngrok-agent.s3.amazonaws.com/ngrok.asc | sudo tee /etc/apt/trusted.gpg.d/ngrok.asc >/dev/null
echo "deb https://ngrok-agent.s3.amazonaws.com buster main" | sudo tee /etc/apt/sources.list.d/ngrok.list
sudo apt update && sudo apt install ngrok

# 或者从https://ngrok.com/download下载

然后从 https://dashboard.ngrok.com/get-started/your-authtoken 获取免费的认证令牌,并运行以下命令:

ngrok config add-authtoken YOUR_TOKEN_HERE

💻 使用示例

基础用法

当你完成所有设置后,可以尝试向你的AI提出以下问题:

内容创作:

"阅读此页面上的文章,并创建一个Twitter线程总结要点。"

研究与分析:

"查看我本周的浏览历史,找出关于机器学习的文章,并总结关键趋势。"

社交媒体管理:

"检查我的Twitter书签,并将它们分类。为每个类别创建一个摘要。"

提高生产力:

"打开我平时早上阅读的网站的标签页,并给我今天头条新闻的简报。"

开发测试:

"用测试数据填写此联系表单,并检查提交是否正常工作。"

个人助理:

"找到我昨天查看的关于React组件的GitHub仓库,并将其标记为稍后查看。"

页面样式与趣味:

"将此页面应用黑暗黑客主题,使其看起来更有趣。" "让这个枯燥的文档页面感觉像一个舒适的咖啡店。" "为这个页面添加30秒的矩阵雨效果,以获得酷炫的截图。" "用高对比度主题转换此页面,以提高可读性。"

📚 详细文档

📺 查看实际操作

🚀 什么是OpenDia?

OpenDia允许AI模型自动控制你的浏览器。其关键优势在于,它能利用你现有的一切,包括已登录的账户、保存的密码、Cookie、钱包和浏览历史,无需从头开始或切换上下文。

🌐 浏览器支持

OpenDia可与 Chrome、Firefox及任何基于Chromium的浏览器 配合使用,包括:

  • Google Chrome
  • Arc
  • Mozilla Firefox
  • Microsoft Edge
  • Brave
  • Opera
  • 任何基于Chromium的浏览器

对于想要自动化本地测试和开发工作流程的 Cursor用户 来说,它也是一个绝佳选择!

🎬 你可以做什么

你今天就可以尝试的实际工作流程:

📰 内容与社交媒体

  • "总结我今天阅读的所有文章,并发布一个Twitter线程,分享关键见解。"
  • "从我的书签中找到与AI相关的有趣文章,并创建一个阅读列表。"
  • "阅读这篇文章,并在LinkedIn版本上发表有深度的评论。"
  • "检查我最近的Twitter书签,并总结主要主题。"

📧 生产力与研究

  • "浏览我最新的电子邮件,告诉我哪些需要紧急关注。"
  • "找到我本周访问过的所有GitHub仓库,并创建一份总结报告。"
  • "提取这篇研究论文的要点,并保存到我的笔记中。"
  • "在我的浏览历史中搜索我上个月阅读的关于AI安全的文章。"

🤖 开发与测试(非常适合Cursor!)

  • "测试我的Web应用的注册流程,并在每个步骤截图。"
  • "用测试数据填写此表单,并检查验证是否有效。"
  • "浏览我的应用,检查所有按钮是否正常工作。"
  • "使用我连接的钱包测试这个DeFi界面。"

🔄 高级自动化

  • "为我所有的每日新闻来源打开标签页,并总结头条新闻。"
  • "根据上下文为我的未读消息起草回复。"
  • "监控这个网页,当内容更改时通知我。"
  • "自动为我正在阅读的有趣文章添加书签。"

🎨 视觉定制与趣味

  • "为这个文档网站应用赛博朋克主题,使其更具吸引力。"
  • "将此页面设置为夜间模式,文字为绿色,方便夜间阅读。"
  • "添加彩虹派对效果,庆祝完成这个项目。"
  • "在我填写这个无聊的表单时,用复古80年代主题进行改造。"
  • "使用高对比度样式,以便我能更好地阅读。"

🛠️ 功能

OpenDia为AI模型提供了 18种强大的浏览器工具

🎯 智能页面理解

  • 分析任何网页:AI自动找到按钮、表单和交互式元素。
  • 智能提取内容:从文章、社交媒体帖子或搜索结果中获取干净的文本。
  • 理解上下文:AI知道它正在查看的页面类型以及如何与之交互。

🖱️ 自然交互

  • 点击任何元素:按钮、链接、菜单 - AI找到并点击正确的元素。
  • 智能填写表单:即使在Twitter、LinkedIn、Facebook等复杂网站上也能正常工作。
  • 无缝导航:前往页面、滚动、等待内容加载。
  • 处理现代Web应用:绕过社交平台的检测机制。

📑 标签页和窗口管理

  • 多标签工作流程:自动打开、关闭和切换标签页。
  • 组织工作空间:让AI高效管理你的浏览器标签页。
  • 协调复杂任务:同时在多个网站上工作。

📊 访问浏览器数据

  • 书签和历史记录:找到你上周阅读的文章。
  • 当前页面内容:获取选定的文本、链接或完整页面内容。
  • 实时信息:处理当前屏幕上的任何内容。

🛡️ 反检测功能

  • 社交媒体发布:绕过Twitter/X、LinkedIn、Facebook等平台的自动化检测。
  • 自然交互:模仿人类行为,避免触发安全措施。
  • 可靠的自动化:即使在阻止典型自动化工具的网站上也能持续工作。

🎨 页面样式与定制

  • 转换任何网站:应用有趣的主题、自定义颜色和视觉效果。
  • 预设主题:黑暗黑客、复古80年代、彩虹派对、简约禅意等等。
  • AI情绪样式:描述一种情绪,获得匹配的视觉设计。
  • 交互式效果:矩阵雨、浮动粒子、霓虹光芒和光标轨迹。
  • 无障碍主题:高对比度和易读的设计,提高可见性。

🏗️ 工作原理

graph LR
A[AI模型] --> B[OpenDia服务器]
B --> C[浏览器扩展程序]
C --> D[你的浏览器]
D --> E[任何网站]
  1. 你向AI提出与浏览器相关的任务。
  2. AI调用OpenDia工具来理解和与页面进行交互。
  3. OpenDia通过扩展程序控制你的浏览器。
  4. 你获得结果:AI可以看到发生了什么,并做出智能响应。

🔧 技术细节

OpenDia为AI模型提供了18种强大的浏览器工具,涵盖智能页面理解、自然交互、标签页和窗口管理、访问浏览器数据、反检测功能以及页面样式与定制等多个方面,使AI能够更好地与浏览器进行交互,实现各种自动化任务。

📄 许可证

本项目采用MIT许可证,详情请参阅 LICENSE。


准备好让AI为你的浏览器赋能了吗?立即使用 npx opendia 开启体验吧!🚀

  • 0 关注
  • 0 收藏,8 浏览
  • system 提出于 2025-09-18 05:51

相似服务问题