# Machine-Learning-Case-Studies **Repository Path**: shupei_ustc/Machine-Learning-Case-Studies ## Basic Information - **Project Name**: Machine-Learning-Case-Studies - **Description**: 机器学习项目 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-03-02 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Machine-Learning-Case ## trip 本项目是数据的EDA探索,针对自行车共享数据集`2015_trip_data`进行探索性数据分析。这个数据集的特征如下表所示: 特征名称 | 说明| | :------------: |:---------------:| trip_id | 为每个行程分配的唯一ID | starttime | 在PST中,行程开始的日期和时间 | stoptime | 在PST中,行程结束的日期和时间 | bikeid | 每辆自行车的ID | tripduration | 以秒为单位的行程时间 | from_station_name | 行程起始站名 | to_station_name | 行程终止站名 | from_station_id | 行程起始站ID | to_station_id | 行程终止站ID | usertype | 数据可以是以下任意一种:短期通行证持有者或会员 | gender | 骑手性别 | birthyear | 骑手出生年份 | 分别观察了数据集的数据分布、时间序列成分、度量测度中心、离群样本、相关性、t-分布、中心极限定理等。 ## Concrete 本项目是数据的回归预测,针对混凝土抗压强度数据集`Concrete_Data`进行样本的混凝土抗压强度预测。这个数据集的特征如下表所示: 特征名称 | 说明| | :------------: |:---------------:| cement_component | 水泥(组分1)(千克/立方米混合物) | furnace_slag | 高炉矿渣(组分2)(千克/立方米混合物) | flay_ash | 粉煤灰(组分3)(千克/立方米混合物) | water_component | 水(组分4)(千克/立方米混合物) | superplasticizer | 减水剂(组分5)(千克/立方米混合物) | coarse_aggregate | 粗骨料(组分6)(千克/立方米混合物) | fine_aggregate | 细骨料(组分7)(千克/立方米混合物) | age | 龄期(天) | concrete_strength | 混凝土抗压强度(MPa,兆帕) | 先对特征之间,特征与label之间的一致性进行观察,然后选取一致性较高的特征进行分析,基于R^2指标,分别用线性回归/岭回归/Lasso回归/ElasticNet/梯度boosting回归/支持向量机对数据集做单变量与多变量的回归预测分析。 ## Yahoo 本项目是针对股票作时间序列分析与预测,针对数据集为雪人2017年全年的数据集。这个数据集的特征如下表所示: 特征名称 | 说明| | :------------: |:---------------:| date | 日期 | open | 开盘价 | high | 最高价 | close | 收盘价 | low | 最低价 | volume | 成交量 | price_change | 价格变动 | p_change | 涨跌幅 | ma5 | 5日均价 | ma10 | 5日均价 | ma5 | 10日均价 | ma20 | 20日均价 | v_ma5 | 5日均量 | v_ma10 | 10日均量 | v_ma20 | 20日均量 | 首先进行特征探索,利用`Dickey-Fuller检验`评估时间序列的平稳性,然后通过对数以及差分运算使时间序列平稳。通过`Durbin Watson统计`计算时间序列的自相关性。最后利用`ARIMA`进行时间序列建模分析,最终的**MSE: 0.2393** ## AAAI 本项目是数据的聚类分析,针对2014年AAAI收到的所有论文数据集`[UCI] AAAI-14 Accepted Papers - Papers`进行样本的聚类分析。这个数据集的特征如下表所示: 特征名称 | 说明| | :------------: |:---------------:| title | 论文标题 | authors | 论文作者 | groups | 作者选定的高级关键词 | keywords | 作者生成的关键词 | topics | 作者选择的低级关键词 | abstracts | 论文摘要 | 首先进行特征转换,将数据集按照作者选定的高级关键词进行展开,然后分别用k-means、高斯混合模型、贝叶斯高斯混合模型对数据集进行聚类分析。并对聚类结果采用词云的方式进行可视化分析。最终得到贝叶斯高斯混合模型的聚类效果最好,将数据集聚为3簇时,轮廓系数最大。 ## noshowappointments 本项目是数据的二分类分析,针对俄亥俄州诊所患者出现与否数据集`No-show-Issue-Comma-300k`进行样本的分类预测。这个数据集的特征如下表所示: 特征名称 | 说明| | :------------: |:---------------:| 年龄(Age) | 患者的年龄 | 性别(Gender) | 患者的性别 | 预约登记(AppointmentRegistration) | 向患者发出预约的日期 | 预约数据(ApointmentData) | 向患者发出的预约就诊日期 | 一周中具体的某日(DayOfTheWeek) | 向患者发出的预约就诊日 | 状态(Status) | 患者就诊与否 | 糖尿病(Diabetes) | 是否患有糖尿病 | 酗酒(Alcoolism) | 患者是否受到酒精的影响 | 高血压(HiperTension) | 患者是否有高血压 | 残疾(Handcap) | 患者是否残疾 | 吸烟(Smokes) | 患者是否吸烟 | 资助(Scholarship) | 患者是否受到福利机构的资助 | 结核(Tuberculosis) | 患者是否患有结核 | 短信提醒(Sms_Reminder) | 是否向患者发送预约短信提醒 | 等待时间(AwaitingTime) | 等待时间=预约登记-预约数据 | 首先进行特征探究,观察里面的连续变量,布尔值变量以及字符串变量,并绘制不同变量的分布图。然后对变量中的离群值以及明显错误数据进行清洗,探究各变量与状态变量之间的关系。最后分别用决策树,SGD,随机森林以及梯度Boosting对数据集做二分类预测,得到梯度Boosting在ROC_AUC指标下效果最好。