# ZofX.HtmlCollector

**Repository Path**: yangdejiu/ZofX.HtmlCollector

## Basic Information

- **Project Name**: ZofX.HtmlCollector
- **Description**: 一个将基于HTTP的HTML/Text等格式的文本通过正则表达式抓取结构化数据并存入Excel、Access、SQLite、MySQL、SQL Server等数据库的工具。
- **Primary Language**: C#
- **License**: GPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2018-03-21
- **Last Updated**: 2022-05-21

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 项目概述
一个将基于HTTP的HTML/Text等格式的文本通过正则表达式抓取结构化数据并存入Excel、Access、SQLite、MySQL、SQL Server等数据库的工具。

![软件界面截图](https://images.gitee.com/uploads/images/2019/0621/170427_c9d9fa01_27856.png "20190621170416.png")

# 数据库设置
* 数据库类型：OleDb（Excel或Access）、MsSql、MySql、PgSql、SQLite；
* 连接字符串：各类数据库在C#中的连接字符串；
* 表名：自动创建的数据表名。

# 采集设置
* 网址：程序从该网址抓取数据；
* 详情基网址：不带动态参数的、含有详细信息的网址；
* 页码参数：URL中表示页码的参数名；
* 页码参数位置：页码参数位置是在URL中（GET）还是在请求体（POST）中；
* 首页索引：数据从第几行开始（从0开始）；
* GET：URL中的固定参数；
* POST：请求体中的固定参数；
* 主键：网页中可用于标识数据唯一性的列名；
* 表头正则：通过该正则表达式获取数据所有的列名；
* 附加表头：详情页中的其它列名，格式：来源列序号（从0开始）-列名（英文逗号隔开）；
* 页码正则：通过该正则表达式获取总页数；
* 数据正则：通过该正则表达式获取数据列表；
* 附加正则：通过该正则表达式获取详情页的数据。