# AI Research Tracker

**Repository Path**: feixuecode/AI-Research-Tracker

## Basic Information

- **Project Name**: AI Research Tracker
- **Description**: AI Research Tracker
- **Primary Language**: JavaScript
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-12-03
- **Last Updated**: 2025-12-03

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# AI Research Tracker

一个基于Node.js的智能爬虫系统，用于爬取AI行业最新研究报告，通过大模型自动解析，并作为Chrome插件提供实时分析和跟踪服务。

## 功能特性

- 🤖 **智能爬虫**：支持递归爬取AI研究报告，自动发现新内容
- 📊 **大模型解析**：集成OpenAI/Anthropic API，自动分析报告内容
- 💾 **数据存储**：本地存储爬取结果和分析数据
- 🔄 **MCP服务**：模块间通信与协调
- 🖱️ **Chrome插件**：直观的用户界面，实时查看和搜索报告
- ⏰ **定时爬取**：自动定期更新最新报告
- 🔍 **智能搜索**：支持关键词搜索和技术分类

## 技术架构

```
ai-research-crawler/
├── crawler/          # 爬虫模块
├── parser/           # 文档解析模块
├── storage/          # 数据存储模块
├── mcp-service/      # MCP服务
├── chrome-extension/ # Chrome插件
├── config/           # 配置文件
├── utils/            # 工具函数
└── tests/            # 测试文件
```

## 安装与使用

### 1. 安装依赖

```bash
npm install
```

### 2. 配置环境变量

创建 `.env` 文件，添加大模型API密钥（千问）：

```
`.env` 文件: DASHSCOPE_API_KEY=YOUR_KEY
`parser/index.js` 文件: this.apiKey = config.apiKey || process.env.DASHSCOPE_API_KEY || '{YOUR_KEY}';
`mcp-service/config.js` 文件: apiKey: '{YOUR_KEY}'
```

### 3. 启动MCP服务

```bash
npm start
```

服务将在 `http://localhost:3000` 上运行。

### 4. 安装Chrome插件

1. 打开Chrome浏览器
2. 进入 `chrome://extensions/`
3. 开启"开发者模式"
4. 点击"加载已解压的扩展程序"
5. 选择 `chrome-extension` 目录
6. 插件将添加到浏览器工具栏

## 使用说明

### 1. 开始爬取

1. 点击Chrome插件图标
2. 点击"Start Crawling"按钮
3. 等待爬取完成，查看统计信息

### 2. 查看报告

- **Chat**：对话框
- **Latest**：最新爬取结果
- **Total**：总爬取结果

### 3. 配置爬虫

修改 `mcp-service/config.js` 文件，调整爬虫参数：

- `seedUrls`：种子网站列表
- `maxDepth`：爬取深度
- `reportLinkSelector`：报告链接选择器
- `reportUrlPattern`：报告URL正则
- 其他爬取规则

## API接口

### 健康检查
```
GET /api/health
```

### 获取统计信息
```
GET /api/stats
```

### 获取最新报告
```
GET /api/reports/latest?limit=10
```

### 搜索报告
```
GET /api/reports/search?keyword=transformer
```

### 根据技术过滤报告
```
GET /api/reports/technology/transformer
```

### 开始爬取
```
POST /api/crawl/start
```

## 技术栈

- Node.js
- Express.js
- Puppeteer/Cheerio
- OpenAI/Anthropic API
- LowDB
- Chrome Extension API

## 注意事项

1. 首次使用需要配置API密钥
2. 爬取过程可能需要较长时间，取决于目标网站和网络情况
3. 请遵守目标网站的robots.txt规则
4. 大模型API调用会产生费用，请合理使用