# ZofX.HtmlCollector **Repository Path**: yangdejiu/ZofX.HtmlCollector ## Basic Information - **Project Name**: ZofX.HtmlCollector - **Description**: 一个将基于HTTP的HTML/Text等格式的文本通过正则表达式抓取结构化数据并存入Excel、Access、SQLite、MySQL、SQL Server等数据库的工具。 - **Primary Language**: C# - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2018-03-21 - **Last Updated**: 2022-05-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 项目概述 一个将基于HTTP的HTML/Text等格式的文本通过正则表达式抓取结构化数据并存入Excel、Access、SQLite、MySQL、SQL Server等数据库的工具。 ![软件界面截图](https://images.gitee.com/uploads/images/2019/0621/170427_c9d9fa01_27856.png "20190621170416.png") # 数据库设置 * 数据库类型:OleDb(Excel或Access)、MsSql、MySql、PgSql、SQLite; * 连接字符串:各类数据库在C#中的连接字符串; * 表名:自动创建的数据表名。 # 采集设置 * 网址:程序从该网址抓取数据; * 详情基网址:不带动态参数的、含有详细信息的网址; * 页码参数:URL中表示页码的参数名; * 页码参数位置:页码参数位置是在URL中(GET)还是在请求体(POST)中; * 首页索引:数据从第几行开始(从0开始); * GET:URL中的固定参数; * POST:请求体中的固定参数; * 主键:网页中可用于标识数据唯一性的列名; * 表头正则:通过该正则表达式获取数据所有的列名; * 附加表头:详情页中的其它列名,格式:来源列序号(从0开始)-列名(英文逗号隔开); * 页码正则:通过该正则表达式获取总页数; * 数据正则:通过该正则表达式获取数据列表; * 附加正则:通过该正则表达式获取详情页的数据。