wps的免费版的下载入口在哪里

  这里涉及到的数据集是京东最新的数据集:JData_User.csv 用户数据集 105,321个用户JData_Comment.csv 商品评论 558,552条记录JData_Product.csv 预测商品集合 24,187条记录JData_Action_201602.csv 2月份行为交互记录 11,485,424条记录JData_Action_201603.csvwps免费版的下载方法是什么 3月份行为交互记录 25,916,378条记录JData_Action_201604.csv 4月份行为交互记录 13,199,934条记录

  在这里插入图片描述

  在这里插入图片描述

   wps官网最新的下载方法怎么找在这里插入图片描述

  在这里插入图片描述

  (一).数据清洗

  1. 数据集完整性验证

  2. 数据集中是否存在缺失值
wps的官网最新下载的地方在哪
  3. 数据集中各特征数值应该如何处理

  4. 哪些数据是我们想要的,哪些是可以过滤掉的

  5. 将有价值数据信息做成新的数据源

  6. 去除无行为交互的商品和用wps官网的下载网址的方法户
WPS office电脑版的下载的方法
  7. 去掉浏览量很大而购买量很少的用户(惰性用户或爬虫用户)

  (二).数据理解与分析

  1. 掌握各个特征的含义

  2. 观察数据有哪些特点,是否可利用来建模

  3. 可视化展示便于分析

  4. 用户的购买意向是否随着时间等因素变化

  (三).特征提取

  1wps office 的官方下载的网址怎么找. 基于清洗后的数据集哪些特征是有价值

  2. 分别对用户与商品以及其之间构成的行为进行特征提取

  3. 行为因素中哪些是核心?如何提取?
wps的电脑版的下载的入口是多少
  4. 瞬时行为特征or累计行为特征?

  (四).模型建立

  1. 使用机器学习算法进行预测

  2. 参数设置与调节

  3. 数据集切分?

  首先检查JData_User中wps office免费版的下载网址怎么找(wps官网最新下载入口)的用户和JData_Action中的用户是否一致

  保证行为数据中的所产生的行为均由用户数据中的用户产生(但是可能存在用户在行为数据中无行为)
wps官网下载的入口在哪
  Is action of Feb. from User file? True

  Is action of Mar. from User file? True

  Is action of Apr. from User file? True

  结论: User数据集中的用户和交互行为数据集中的用户完全一致

  根据merge前后的数据量比对,能保证Action中的用户ID是User中的ID的子集

  检查是否有重复记录

  除去各个数据文件中完全重复的记录,可能解释是重复数据是有意义的,比如用户同时 wps官网的下载的地方是多少(wps下载电脑版流程图)购买多件商品,同时添加多个数量的商品到购物车等…

  No. of duplicate records for Mar. action is: 7085038

  No. of duplicate records for Feb. action is: 3672710

  No. of duplicate records for Comment is: 0

  no duplicate records in Comment

  No. of duplicate records for Product is: 0

  no duplicate records in Product

  No. of duplicate records for User is: 0

  no duplicate records in User

  在这里插入图片描述

  发现重复数据大多数都是由于浏览(1),或者点击(6)产生

  行为数据中的user_id为浮点型,进行INT类型转换

  年龄区间的处理

  为了能够进行上述清洗,在此首先构造了简单的用户(user)行为特征和商品(item)行为特征,对应于两张表user_table和

  user_table

  user_table特征包括:user_id(用户id),age(年龄),sex(性别),user_lv_cd(用户级别),browse_num(浏览数),addcart_num(加购数),delcart_num(删购数),buy_num(购买数),favor_num(收藏数),click_num(点击数),buy_addcart_ratio(购买加购转化率),buy_browse_ratio(购买浏览转化率),buy_click_ratio(购买点击转化率),buy_favor_ratio(购买收藏转化率)

  item_table特征包括:

  sku_id(商品id),attr1,attr2,attr3,cate,brand,browse_num,addcart_num,delcart_num,buy_num,favor_num,click_num,buy_addcart_ratio,buy_browse_ratio,buy_click_ratio,buy_favor_ratio,comment_num(评论数),has_bad_comment(是否有差评),bad_comment_rate(差评率)

  构建User_table

  由于用户行为数据量较大,一次性读入可能造成内存错误(Memory Error),因而使用pandas的分块(chunk)读取.

  构建Item_table

  用户清洗

  由上述统计信息发现: 第一行中根据User_id统计发现有105321个用户,发现有3个用户没有age,sex字段,而且根据浏览、加购、删购、购买等记录却只有105180条记录,说明存在用户无任何交互记录,因此可以删除上述用户。

  删除没有age,sex字段的用户

  删除无交互记录的用户

  统计并删除无购买记录的用户

  删除爬虫及惰性用户

  由上表所知,浏览购买转换比和点击购买转换比均值为0.018,0.030,因此这里认为浏览购买转换比和点击购买转换比小于0.0005的用户为惰性用户

  最后这29070个用户为最终预测用户数据集