# github-Data_Analysis **Repository Path**: zhiai389/github-Data_Analysis ## Basic Information - **Project Name**: github-Data_Analysis - **Description**: 数据分析项目学习指南 - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-06-13 - **Last Updated**: 2025-07-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: 数据分析 ## README ### 电子商务平台数据分析项目学习指南 #### 项目概述 本项目适合作为数据分析的入门学习,通过爬取淘宝、京东、拼多多的华为Pura X产品数据,进行可视化分析并存储至MySQL数据库。 #### 运行环境准备 ##### 基础环境 - **Python环境**:需预先安装Python(推荐3.7版本) - **MySQL数据库**:安装在本地计算机 - 默认登录用户名:'root' - 默认登录密码:'123456' ##### 浏览器及驱动 - **Chrome**:需使用最新版本 - **ChromeDriver插件**:版本必须与Chrome浏览器匹配 ##### Python依赖库 运行脚本前需安装以下Python模块: ```bash pip install pandas matplotlib pymysql beautifulsoup4 selenium numpy ``` #### 项目功能模块 - **数据采集**:通过Selenium模拟浏览器操作,从三大电商平台获取产品数据 - **数据处理**:使用pandas进行数据清洗和转换 - **可视化分析**:通过matplotlib绘制柱状图和折线图实现数据可视化 - **数据存储**:将分析结果保存至MySQL数据库 #### 学习重点 1. 网络爬虫基础 2. 数据处理与分析流程 3. 数据可视化方法 4. 数据库操作入门 #### 项目结构 - **主程序文件**:包含完整的爬虫与分析逻辑 - **数据文件**:存储爬取的原始数据 - **可视化文件**:生成的分析图表将本地保存 #### 注意事项 - 运行程序时,需手动扫码登录淘宝、京东及拼多多 - 爬取过程中请勿关闭自动打开的浏览器窗口 - 数据库配置支持在代码中修改连接参数 - 首次运行会自动创建数据库和数据表 ### V1.1 新增功能说明: 1. **自定义产品名称** - 程序运行时将提示输入关键词(默认值为'huaweipurax')。 2. **自定义数据库连接参数** - 启动时提示输入主机、用户名、密码及数据库名称(均有默认值)。 ### V1.2 新功能说明: **命令行参数解析** V1.2 版本引入了 `argparse` 模块,用户运行脚本时可直接通过命令行指定相关参数,无需在程序运行期间手动输入。 *功能描述* - 用户可使用 `--host`、`--user`、`--password`、`--database` 等参数指定数据库配置。 - 使用 `--keyword` 参数指定要爬取的商品关键词。 - 使用 `--max_items` 参数指定每个平台最多采集的商品数量。 **保留原有核心功能** 除新增的命令行参数解析功能外,V1.2 版本保留了 V1.1 版本的核心功能,包括: - **数据爬取**:从淘宝、京东、拼多多等电商平台爬取商品价格与销量数据。 - **数据可视化**:对爬取的数据进行可视化分析,生成柱状图和双 Y 轴折线图。 - **数据存储**:将爬取的数据保存到 MySQL 数据库中。 ### V1.3 新功能说明: **在run方法中新增导出 CSV 文件的逻辑** 通过本项目,你将学习从数据获取、清洗、分析到可视化与存储的完整数据分析流程,是一个优秀的入门实践项目。