经典网红数分项目,本文利用pandas处理数据,不实现数据可视化图表,读者可自行根据数据分析出来的结果或自身分析思路做一个数据分析总结
原文摘要:
本数据集包含了 2017 年 11 月 25 日至 2017 年 12 月 3 日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。
数据集的每一行表示一条用户行为,由用户 ID、商品 ID、商品类目 ID、行为类型和时间戳组成,并以逗号分隔。
关于数据集的详细描述如下:
数据源链接:数据集-阿里云天池
数据特征:
User_id(用户ID):整数类型
wps office免费版的下载网址是什么(wps官网最新打不开)
item_id(商品ID):整数类型
cate_id(类目ID):整数类型
act_id(行为类型):字符串,枚举类型
包含‘pv’(点击)、‘buy’(购买),‘cart’(加购),‘fav’(收藏)
time(时间戳):行为发生的时间戳
基础设置(导入模块、格式设置、数据整体预览)数据清洗(查重、缺失值、异常值)数据整体情况分析(UV、PV、人均浏览、成交量)用户行为(时间、产品、转化链路维度)用户分层(只有R和F)用户复购(复购率、复购类目和商品)用户收藏与购买的相关性
导入数据
观察数据规模,展现形式
对特定字段进行格式转化
转化时间戳格式,并增加日期、星期、小时字段WPS office官网的下载的入口是什么
wps的的官网下载网站在哪里
查重、缺失值处理
可以看到,没有缺失或重复的数据
异常值处理
因为数据仅处于2017年11月25日至2017年12月3日之间,数据范围外均为异常数据,按异常数据丢弃处理
各指标去重数量:
user_id: 共 987984 个
product_id: 共 4142583 个
tag: 共 9435 个
act_id: 共 4 个
其中,行为的指标分别为:['pv' 'buy' 'fav' 'cart']
访问人数 = 987984
访问频次 = 88596903
平均访问量 = 89.67%
购买次数 = 1998976
购买人数 = 670370
购买人数占比 = 68%
人均购买次数 = 2.98
转化率
商品点加率:6%
商品点藏率:3%
商品点购率:2%
TOP
时间维度
按日期统计访问次数
按WPS office的电脑版的下载的地方在哪里星期统计购买次数
按wps的电脑版的下载的地方的方法小时统计访问次数和购买次数
产品维度
热门类目和热卖类目
热门商品和热卖商品
转化链路
用户行为路径我分为了两种:
用户行为路径一:pv-cart-buy
用户行为路径p-c-b的转化率为: p-c:16.21%, c-b:2.73%
用户行为路径二:pv-fav-cart-buy
用户行为路径p-f-c-b的转化率为: p-f:31.06%, f-c:0.52%, c-b:2.73%wps的的官网最新下载地址(wps官网最新登录入口网页版)
wps 的官网最新下载的地址是多少
十分明显可以看到,点击数与其他行为数量差距过大
RFM用户价值模型,主要有三个核心指标,用户唯一ID,最近一次购买时间,购买金额
因为数据不涉及到金额方面,默认都为金额高的用户,因此,仅分析R和F两个层面,并对用户进行四个层次的分级
可以可视化观察对比下每个层级的用户数和占比或者细化商品类目观察其分层情况
复购率 = 66%
复购率 = 购买2次及以上的用户数 / 购买过的总用户数
最热卖复购类目(对比热WPS office官网最新的下载的地方卖类目)
最热卖复购商品(对比热卖商品)
皮尔逊相关系数 = 0.18
方便读者完善代码思路,奉上完整的代码,以供参考,建议以自己的分析思路用pandas实现数据处理
运行该代码时,请注意修改文件地址
本文仅对数据作简单的整体分析,没对数据深度分析,感兴趣的读者可根据自身条件针对某个方面进一步分析,例如:
挖掘用户收藏与购买的黄金时间差,并在黄金时间内提供相关促进消费决策。如:发放限时优惠券、增加收藏商品的曝光度…
对比TOP类目或商品在高峰时段(星期、小时)的购买频率是否高于日常
读者也可以针对分析处理后的数据以可视化的形式展现,例如:matplotlib、seaborn
淘宝用户行为数据分析_valkyrja110的博客-CSDN博客
基于客观事实的 RFM 模型(Python 代码)_Python_xiaowu的博客-CSDN博客_rfm模型python代码
【matplotlib】浅谈python图形可视化练习经验分享_inganxu的博客-CSDN博客
【数据分析案例】pandas + matplotlib 人货场+RFM+用户复购分析 电商水果销售_inganxu的博客-CSDN博客