# AI Research Tracker **Repository Path**: feixuecode/AI-Research-Tracker ## Basic Information - **Project Name**: AI Research Tracker - **Description**: AI Research Tracker - **Primary Language**: JavaScript - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-12-03 - **Last Updated**: 2025-12-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI Research Tracker 一个基于Node.js的智能爬虫系统,用于爬取AI行业最新研究报告,通过大模型自动解析,并作为Chrome插件提供实时分析和跟踪服务。 ## 功能特性 - 🤖 **智能爬虫**:支持递归爬取AI研究报告,自动发现新内容 - 📊 **大模型解析**:集成OpenAI/Anthropic API,自动分析报告内容 - 💾 **数据存储**:本地存储爬取结果和分析数据 - 🔄 **MCP服务**:模块间通信与协调 - 🖱️ **Chrome插件**:直观的用户界面,实时查看和搜索报告 - ⏰ **定时爬取**:自动定期更新最新报告 - 🔍 **智能搜索**:支持关键词搜索和技术分类 ## 技术架构 ``` ai-research-crawler/ ├── crawler/ # 爬虫模块 ├── parser/ # 文档解析模块 ├── storage/ # 数据存储模块 ├── mcp-service/ # MCP服务 ├── chrome-extension/ # Chrome插件 ├── config/ # 配置文件 ├── utils/ # 工具函数 └── tests/ # 测试文件 ``` ## 安装与使用 ### 1. 安装依赖 ```bash npm install ``` ### 2. 配置环境变量 创建 `.env` 文件,添加大模型API密钥(千问): ``` `.env` 文件: DASHSCOPE_API_KEY=YOUR_KEY `parser/index.js` 文件: this.apiKey = config.apiKey || process.env.DASHSCOPE_API_KEY || '{YOUR_KEY}'; `mcp-service/config.js` 文件: apiKey: '{YOUR_KEY}' ``` ### 3. 启动MCP服务 ```bash npm start ``` 服务将在 `http://localhost:3000` 上运行。 ### 4. 安装Chrome插件 1. 打开Chrome浏览器 2. 进入 `chrome://extensions/` 3. 开启"开发者模式" 4. 点击"加载已解压的扩展程序" 5. 选择 `chrome-extension` 目录 6. 插件将添加到浏览器工具栏 ## 使用说明 ### 1. 开始爬取 1. 点击Chrome插件图标 2. 点击"Start Crawling"按钮 3. 等待爬取完成,查看统计信息 ### 2. 查看报告 - **Chat**:对话框 - **Latest**:最新爬取结果 - **Total**:总爬取结果 ### 3. 配置爬虫 修改 `mcp-service/config.js` 文件,调整爬虫参数: - `seedUrls`:种子网站列表 - `maxDepth`:爬取深度 - `reportLinkSelector`:报告链接选择器 - `reportUrlPattern`:报告URL正则 - 其他爬取规则 ## API接口 ### 健康检查 ``` GET /api/health ``` ### 获取统计信息 ``` GET /api/stats ``` ### 获取最新报告 ``` GET /api/reports/latest?limit=10 ``` ### 搜索报告 ``` GET /api/reports/search?keyword=transformer ``` ### 根据技术过滤报告 ``` GET /api/reports/technology/transformer ``` ### 开始爬取 ``` POST /api/crawl/start ``` ## 技术栈 - Node.js - Express.js - Puppeteer/Cheerio - OpenAI/Anthropic API - LowDB - Chrome Extension API ## 注意事项 1. 首次使用需要配置API密钥 2. 爬取过程可能需要较长时间,取决于目标网站和网络情况 3. 请遵守目标网站的robots.txt规则 4. 大模型API调用会产生费用,请合理使用