目录
1.加载包和读取数据
2.数据预处理
3.生成假设
4.假设检验
5.决策树
6.开始建模
kaggle网站(Bike Sharing Demand | Kaggle)提供了某城市的共享单车2011年到2012年的数据集。该数据集包括了租车日期,租车季节,租车天气,租车气温,租车空气湿度等数据。本次将使用r对这一数据集进行探索性分析,我觉得这个目标就是——季节、天气、温度等这些因素是如何影响共享单车使用率的?。
首先加载包:
然后读取数据:
2.1观察数据并填充
观测数据,发现测试数据比训练数据少了后面3个观测分别是casual,registered,count。
wps office的免费版的下载的网站怎么找
怎么办呢?那就在测试数据里加上这3列数值:
用str()看看这里面都包含什么数据
可以看出共有观测17379条,12个变量,数据字典如下:
日期时间(datetime):日期和时间以“mm-dd- yyyy hh:mm:ss”格式
季节(season):1为春,2为夏,3为秋,4为冬
假期(holiday):1/0
工作日(workingday):1/0
天气(weather):四类天气
清除,几朵云,部分多云,部分多云迷雾+多云,雾+破碎的云雾,雾+少云,雾轻雪和雨+雷暴+分散的云彩,小雨+分散的云彩大雨+冰托盘+雷雨+雾,雪+雾
温度(temp):每小时摄氏温度
温度(atemp):像是一种加过权重之后的温度,反正跟temp是强正相关
湿度(humidity):湿度
风速(windspeed):风速
casual :休闲用户
registered:注册用户
count:共计数
2.2找出缺失值
意思就是说没有缺失值!
2.3绘制频率表
了解数值变量的分布,然后生成数值变量的频率表。绘制每个数值变量的直方图,并分析官网WPS office的最新的下载的方法。
通过观察上图可以看出一些影响:
四季的影响不大天气的影响比较大,从好到不好,自行车的使用量越来越低当假期为0,工作日为1时自行车的使用量就比较大温度太高或者太低了都会影响使用量风速从5到20这个时候自行车使用量比较大,可以推测在这个风速里骑车是比价愉悦的
2.4将离散型转换为因子型的(季节,天气,假期,工作日),否则无法画图
现在你对数据已经有了一个大致的了解,下面让我们来根据一些基本的经验来对自行车的使用量进行假设:
24小时趋势:上下班高峰期使用量就很高。晚上10点到凌晨4点需求低一周趋势:平日用车比节假日高有雨有雪:与晴天相比,下雨(雪)天的自行车需求将会下降电脑版的WPS office下载地方在哪里。同样,较高的湿度会降低需求,反之亦然。温度影响:温度适宜的情况下使用量必加大注册用户与时间:由于注册用户数量随着时间的推移得增多,总需求应该趋向于升高
下面来逐一分析上面的假设检验
4.1每日趋势:
画图,判断假设是否正确
可以看出和我们的假设wps的官网的下载的网址是多少差不多:
上下班时间是用车高峰,而低谷期是在晚上10点到次日凌晨6点。其他时间为平均用车量。
官网wps下载网址在哪
4.2注册用户和临时用户
(1)临时用户
可以看出:临时用户倾向于在白天的时候随便用用,用户粘性不高,基本上都是平均值。
(2)注册用户:
注册用户更倾向于上下班高峰期用。
仔细观察这2个图,你可能会发wps的官网最新下载的地方(wps官网最新电脑版下载)现,这2图有一些异常值,应该不是由错误导致的。我猜测他们可能是同一群人骑自行车但是未注册的结果,为了处理这些离群值,将使用对数变换:
4.3一周趋势
注册用户画图:
官网wps 的最新下载的入口在哪
临时用户画图
可以看出星期六星期天的临时用户是增加的。
4.4雨(雪)的影响
在变量中虽然没有专门的雨量数据,但是在天气(weather)这里面有响应的因素,3里有小雨(雪),4里有大雨(雪)。
(1)画图,天气和注册用户的关系
(2)画图,天气和休闲用户的关系
从图中可以看出非常符合我们的预期(常识嘛,呵呵wps官网最新下载的地方!)
4.5温度,风速和湿度影响
由于温度,风速和温度这些数据不是离散型的,是连续的,所以我们用相关来验证假设。
温度,风速和湿度的相关关系:
如下表:
wps office免费版下载网站是多少
从表中可以看出,温度和注册,休闲,总计这三个变量差不多都是正相关关系,而湿度和风速跟这三兄弟的关系就不是很大了。温度和atemp是高度相关。
4.6 时间影响
看看时间对于用户数的影响。
随着时间的推移,用户数的变化:
结论是用户数增加。
让我们用决策树来增加模型的预测能力。
画图:关于小时的决策树的图
查看节点,手动添加仓位(注册用户)
添加仓位(休闲用户)
温度(注册用户)
温度(休闲用户)
添加年份:在这里先把月份提取出来,然后按照每个季度一个仓位,建8个仓位
日期:创建一个变量,有“平日”、“周末”和“假日”
周末:为周末创建一个独立的变量
首先把character的数据类型都转换成factor,否则随机森林不支持。
我们之前分析过由于注册,休闲ÿwps官网最新下载网址在哪里0c;计数。这三个向量有很多自然离群值,所以这里就把他们都转换成对数。
加1是为了处理注册和休闲这俩观测的0值。
预测
我的电脑运行速度较慢,这里运算了40分钟……
半个小时又过去了…….
写入文件并上传到kaggle网站:
由于没有排名系统所以只有得分……
得了0.411111分