Mcp Leetcode Crawler

Mcp Leetcode Crawler

🚀 LeetCode 爬虫工具

本工具是一款综合性的 LeetCode 数据爬取利器,专门用于爬取 LeetCode 讨论论坛里的面试问题,尤其聚焦于谷歌面试相关问题。它能从讨论中精准提取有价值信息,并按月份进行细致整理,还支持将数据导出为 CSV 或 Google 表格等多种格式,为您的面试准备和数据分析提供极大便利。

🚀 快速开始

本工具能高效爬取 LeetCode 讨论区的面试问题,助您轻松获取所需信息。

✨ 主要特性

  • 🕷️ 爬取 LeetCode 讨论区的面试问题。
  • 🔍 根据公司标签筛选(默认:谷歌)。
  • 📋 提取详细信息,包括问题链接。
  • 📅 按月份分组结果。
  • 💾 保存到 CSV 文件以方便分析。
  • 📤 导出到 Google 表格,带有格式化的表格。
  • 💻 命令行界面支持灵活使用。

📦 安装指南

  1. 克隆此仓库:
git clone https://github.com/yourusername/mcp-leetcode-crawler.git
cd mcp-leetcode-crawler
  1. 安装所需的依赖项:
pip install -r requirements.txt

💻 使用示例

基础用法

运行爬虫工具,采用默认设置:

python crawler.py

这将:

  1. 爬取 LeetCode 讨论区中的谷歌面试问题。
  2. 将所有帖子保存到一个 CSV 文件(leetcode_interview_questions.csv)。
  3. 按月份分组结果,并将其保存到 output 目录中的单独 CSV 文件。

高级用法

为了更灵活地控制,使用 CLI:

python cli.py --company google --pages 20 --output results.csv --output-dir monthly_data

可用选项:

  • --company:筛选问题的公司标签(默认:google)。
  • --pages:要爬取的页面数量(默认:10)。
  • --output:输出 CSV 文件路径(默认:leetcode_interview_questions.csv)。
  • --output-dir:按月份输出文件的目录(默认:output)。
  • --verbose:启用详细日志。
  • --category:爬取的类别(默认:interview-question)。

导出到 Google 表格

要将数据导出到 Google 表格:

  1. 设置 Google 表格 API 凭据:
    • 前往 Google Cloud Console
    • 创建新项目。
    • 启用 Google 表格 API。
    • 创建 OAuth 2.0 凭证(桌面应用程序)。
    • 下载凭证文件为 credentials.json 到项目目录中。
  2. 运行导出工具脚本:
# 导出单个 CSV 文件
python google_sheets_exporter.py --csv leetcode_interview_questions.csv --name "Google 面试问题"

# 导出所有按月份的数据
python google_sheets_exporter.py --monthly --name "LeetCode 按月面试问题"

自动化运行

使用提供的 shell 脚本:

# 基本运行(仅 CSV)
./run.sh

# 带 Google 表格导出的运行
./run_with_sheets.sh

📚 详细文档

项目结构

  • crawler.py - 主爬虫实现。
  • cli.py - 命令行界面。
  • google_sheets_exporter.py - 导出数据到 Google 表格的工具。
  • run.sh - 基本执行脚本。
  • run_with_sheets.sh - 包含 Google 表格导出的执行脚本。
  • requirements.txt - Python 依赖项。

自定义

您可以修改脚本来:

  • 更改公司标签(例如,从 "google" 到 "facebook"、"amazon" 等)。
  • 调整要爬取的页面数量。
  • 修改输出格式。
  • 改变数据分组和组织的方式。

未来改进

  • [ ] 添加对多个公司标签同时支持。
  • [ ] 实现定期数据更新的自动化调度。
  • [ ] 添加一个网络界面以方便交互。
  • [ ] 集成其他数据存储解决方案(例如 MongoDB)。
  • [ ] 添加数据可视化功能。
  • [ ] 实现全文本搜索功能。

📄 许可证

请参考项目仓库中的许可证文件。

  • 0 关注
  • 0 收藏,11 浏览
  • system 提出于 2025-09-21 06:03

相似服务问题