# 2022年(第5届)泰迪杯 数据分析技能赛 A题 **Repository Path**: shuiliumu/tipdm_2022_DataAnalysis_QuestionA ## Basic Information - **Project Name**: 2022年(第5届)泰迪杯 数据分析技能赛 A题 - **Description**: 2022年(第5届)泰迪杯 数据分析技能赛 A题 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 7 - **Forks**: 0 - **Created**: 2024-03-08 - **Last Updated**: 2024-10-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: Python, Jupyter-notebook, 数据分析, 泰迪杯 ## README # 2022年(第5届)“泰迪杯” 数据分析技能赛 A题 ## 1. 介绍 - 数据分析:竞赛作品自动评判 - 泰迪杯技能赛A题(全解):个人复盘,重新编写数据分析代码后所得 (270M) (注意:其中有ipynb文件为解题代码文件,html目录下文件为ipynb文件的html格式,可以直接打开看) | 泰迪杯技能赛A题(全解)文件说明 | 文件名 | | ------------------------------------------------------------ | ------------------------------------------------------------ | | 赛事举办方提供的原始文件 | A题:竞赛作品的自动评判.pdf
criteria2_1.xlsx
criteria2_2.xlsx
criteria3.xlsx
DataA.rar
DataB.rar
UnRAR.exe | | Jupyter文件(数据处理程序编写于该文件) | 任务1 基本处理.ipynb
任务2 数据分析.ipynb
任务3 和 任务4.ipynb
任务5 嵌套压缩文件处理.ipynb | | html目录 | 存ipynb文件转html格式的文件 | | 程序执行生成的文件 | DataA目录及其内文件
DataB目录及其内文件
summary目录及其内文件
mission1_3Df.xlsx
mission2Df.xlsx | ## 2. 程序运行 程序运行前提:程序运行前要删除  程序执行生成的文件。否则可能报错  原因:比如其中有解压压缩文件的操作,但该目录下已经有相同名的压缩文件了,那么运行解压程序时就会报错 ![fc](https://gitee.com/shuiliumu/PersonalOnlineSource/raw/master/Picture/2022%E6%B3%B0%E8%BF%AA%E6%9D%AFgitee%E5%BA%93.gif) ### (1)环境配置 - 完成 下边所说的 环境要求 ### (2)删除程序执行生成的文件 ```shell # 删除这些文件 - DataA目录及其内文件 - DataB目录及其内文件 - summary目录及其内文件 - mission1_3Df.xlsx - mission2Df.xlsx ``` ### (3)启动jupyter运行程序 ```shell # cmd 命令窗口 jupyter-notebook # 或 jupyter_notebook 根据jupyter版本而定 ``` ## 3. 技术要求 1. jupyter-notebook基本使用(即会用jupyter提供的notebook运行代码便可) 2. pandas熟练掌握(关键是DataFrame数据结构的属性,函数,方法要熟悉) pandas教程地址: https://shuiliumu.flowus.cn/share/ad222f04-f8bb-48bc-87d5-a650b5dbaa72 (注意:个人为参加该比赛自学pandas的笔记) 3. numpy基本使用(会对numpy类型二维数组创建,修改等基本操作便可) 4. matplotlib,opencv-python,pillow,pypdf2等会上网查程序并修改便可 ## 4. 环境要求 注意:包的版本非硬性要求,但这些包都要有 ```shell # 1. python环境 (环境搭建略) 版本 3.9.4 python --version #(检验python版本) # 2. pip (python包管理工具) 版本 20.2.3 pip -version #(检验pip版本) # 3. 安装依赖库 (在该项目的根目录下执行该命令) pip install -r requirements.txt # 4. 一个个库自己安装(如果 第三步方法不行,则可使用该方式安装) pip install 库名 ``` ### 依赖库 注意:同requirements.txt文件。 包的版本非硬性要求,但这些包都要有 ``` # 交互式笔记本库 jupyter==1.0 # rar压缩包操作库 rarfile==4.1 # 7z压缩包操作库 py7zr==0.20.8 # 数据分析库 pandas==2.1.2 # 科学计算工具 numpy==1.26.1 # pdf文件操作库 pypdf2==3.0.1 # 图像处理python库 pillow==10.1.0 # 数据图像化包 matplotlib==3.8.0 # 图像处理和计算机视觉工具 opencv-python==4.5.5.62 ```