# ZofX.HtmlCollector
**Repository Path**: yangdejiu/ZofX.HtmlCollector
## Basic Information
- **Project Name**: ZofX.HtmlCollector
- **Description**: 一个将基于HTTP的HTML/Text等格式的文本通过正则表达式抓取结构化数据并存入Excel、Access、SQLite、MySQL、SQL Server等数据库的工具。
- **Primary Language**: C#
- **License**: GPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 1
- **Forks**: 0
- **Created**: 2018-03-21
- **Last Updated**: 2022-05-21
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# 项目概述
一个将基于HTTP的HTML/Text等格式的文本通过正则表达式抓取结构化数据并存入Excel、Access、SQLite、MySQL、SQL Server等数据库的工具。

# 数据库设置
* 数据库类型:OleDb(Excel或Access)、MsSql、MySql、PgSql、SQLite;
* 连接字符串:各类数据库在C#中的连接字符串;
* 表名:自动创建的数据表名。
# 采集设置
* 网址:程序从该网址抓取数据;
* 详情基网址:不带动态参数的、含有详细信息的网址;
* 页码参数:URL中表示页码的参数名;
* 页码参数位置:页码参数位置是在URL中(GET)还是在请求体(POST)中;
* 首页索引:数据从第几行开始(从0开始);
* GET:URL中的固定参数;
* POST:请求体中的固定参数;
* 主键:网页中可用于标识数据唯一性的列名;
* 表头正则:通过该正则表达式获取数据所有的列名;
* 附加表头:详情页中的其它列名,格式:来源列序号(从0开始)-列名(英文逗号隔开);
* 页码正则:通过该正则表达式获取总页数;
* 数据正则:通过该正则表达式获取数据列表;
* 附加正则:通过该正则表达式获取详情页的数据。