很不容易,这个实战项目肝了好几天,借鉴了很多大佬的思路和代码,也从中学习到了很多东西(我喜欢将经典的代码复写一遍,感觉这样学习到的东西比CV大法会高一点点),因为这个项目的内容比较多,所以我将会分为4~5个blog进行梳理。
第1个blog:数据分析第2个blog:数据预处理第3个blog:应用机器学习回归分析算法进行建模和预测第4个blog:应用pytorch设计深度学习模型
相关:
kaggle 比赛:House Prices – Advanced Regression Techniques
数据下载地址:百度网盘 提取码: w2t6
加载原始数据
1.1 训练数据分析
(1)训练数据前5条数据
5 rows × 81 columns
(2)训练数据大小
(1460, 81)
(3)训练数据统计信息
(4)训练数据类型
(5)训练数据缺失数据统计
(6)训练数据缺失值可视化
(7)训练数据缺失值相关性分析
(8)训练数据标签分布柱状图
(9)部分属性与房价关系分析(箱状图和散点图)
查看对房屋的整体评价和价格之箱状图:箱状图不受异常值的影响,可以相对稳定地描述数据的离散分布情况
wps的电脑版的下载的入口是多少(wps官网下载2023)
1.2 测试数据分析
(1) 测试数据前5条数据
5 rows × 80 columns
(2) 测试数据类型统计
(3) 测试数据大小
(4) 测试数据缺失值统计官网WPS office的下载地址
(5) 测试数据缺失值可视化
(6) 测试数据缺失值相关性分析
wps的官网最新下载的网站是什么
1.3 训练数据和测试数据对比
(1) 数据类型对比
主要发现一些数据类型是intwps 的官网最新下载的入口怎么找64和float64的区别,对于我们的影响不是很大
(2) wps电脑版下载地方在哪里 缺失数据对比
(3)数据分布统计与对比
统计数据类别数量:
1)数值型特征数量
离散特征数量(如果非独立数值少于25个认为该特征为离散特征)连续特征数量
2)非数值型数据数量
插入一个名为标识训练数据和测试数据的特征
1) 对比离散数据
上面离散分布的数据说明:
很多数据可以重新分类为分类数据(非数值型数据),例如很多特征以0和null值为主(例如,,,),因此也以考虑将这些特征删除
2)对比连续数据
上述连续数据对比说明:
对于连续数据:训练和测试数据的分布都基本相同
3) 检查数值型特征的线性程度
从上面可以发现很多特征关于价格标签并非是线性的:官网WPS office的最新的下载的地址怎么找
‘SalePrice’ VS.‘BsmtUnfSF’,‘SalePrice’ VS.‘TotalBsmtSF’,‘SalePrice’ VS.‘GarageArea’,‘SalePrice’ VS.‘LotArea’,‘SalePrice’ VS.‘LotFrontage’,‘SalePrice’ VS.‘GrLivArea’,‘SalePrice’ VS.‘1stFlrSF’,
4) 非数值型数据对比分析
统计非数值型数据的对比统计结果:
对于大多数特征而言,训练和测试数据的分布是类似的一些特征存在主要的项目,可以考虑将一些次要项目合并在一起或者将这些列给删掉‘RoofMatl’,‘Street’,‘Condition2’,‘Utilities’,‘Heating’ (这些列应该删掉)‘Fa’ & ‘Po’ 在 ‘HeatingQC’, ‘FireplaceQu’, ‘GarageQual’ and 'GarageCond’这些特征中或许可以考虑将其合并
1.4 数值型数据缺失分析
1.5 时序特征分析(包含年月日信息的特征)
wps office免费版的下载的网址在哪里
WPS office的电脑版下载的网址是什么
1.6 数据相关性分析