官网wps的下载的地方在哪里

  案例数据及notebook百度网盘链接—提取码:1234 或者可以从我上传的资源里面找,下载不需要积分

  传送门:

  数据挖掘实战—财政收入影响因素分析及预测数据挖掘实战—航空公司客户价值分析数据挖掘实战—商品零售购物篮分析数据挖掘实战—基于水色图像的水质评价数据挖掘实战—家用热水器用户行为分析与事件识别数据挖掘实战—电商产品评论数据情感分析

    企业在面向客户制定运营策略与营销策略时,希望针对不同的客户推行不同的策略,实现精准化运营。通过客户分类,对客户群体进行细分,区分出低价值客户与高价值客户,对不同的客户群体开展不同的个性化服务,将有限的资源合理地分配给不同价值的客户,从而实现效益(利润)最大化。本文将使用航空公司客户数据,结合模型,采用聚类算法,对客户进行分群,比较不同类别客户的价值,从而指定相应的营销策略。定义挖掘目标如下:

  借助航空公司数据对客户进行分类对不同的客户类别进行特征分析,比较不同类别客户的价值针对不同价值的客户制定相应的营销策略,为其提供个性化服务

  本文数据挖掘主要包括以下步骤:

  抽取航空公司2012年4月1日至 wps 的官网的下载的地方2014年3月31日的数据对抽取的数据进行数据探索分析,数据预处理,包括数据缺失值与异常值的探索分析、数据清洗、特征构建、标准化等操作基于RFM模型,使用K-means算法进行客户分群针对模型结果得到不同价值的客户,采用不同的营销手段,提供定制化服务

   wps office 的官方下载的入口在哪(金山wps官网最新下载安装)在这里插入图片描述

    航空公司数据属性说明如下:

  在这里插入图片描述

  在这里插入图片描述

  1.数据质量分析电脑版的WPS office的下载的网站在哪里

  1.1 缺失值分析

    缺失值可视化,图中的白线即为缺失值

  在这里插入图片描述

    利用柱状图进行缺失值可视化,柱状图的高度代表非缺失比例

  在这里插入图片描述

    定量展示每一列缺失值个数并排序

  在这里插入图片描述

    展示每一列的缺失值个数与缺失率以及缺失值的属性

  ![在这里插入图片描述](https://img-blog.csdnimg.cn/202104052120

  1.2 异常值分析

    用箱型图来识别异常值,箱型图识别异常值是以四分位数与四分位距为基础,同时结合业务逻辑,因为异常值并不代表是错误值,需要结合业务来考虑异常值在不在合理的范围内。

  在这里插入图片描述

  以AGE为例,很明显看出该特征有异常值,而且这个异常值对于业务来说属于噪声,应当进行删除异常值或者将异常值取为空,然后在进行补充

  在这里插入图片描述

    对每个图进行分析,分析结果如下,这个是自身对业务的认知水平基础上的分析
官网wps的最新的下载入口在哪里
  FFP_TIER:会员卡级别中数据要么6要么5没有异常值

  AGE:年龄中可以看到有些大于100岁,要对这些数据进行处理

  FLIGHT_COUNT:观测窗口内的飞行次数没有小于0的值,其他不在箱子中的异常值是有价值

  BP_SUM:总基本积分没有小于0的值,其他不在箱子里面的值是有价值

  EP_SUM =EP_SUM_YR_1 &#4WPS office官网最新的下载的方法的方法3;EP_SUM_YR_2 :总精英积分有1个值远高于其他值,这个我认为是有价值的异常值

  SUM_YR = SUM_YR_1 + SUM_YR_2:观测窗口的票价收入,没有低于0的,有特别高的,我认为是有价值的异常值

  SEG_KM_SUM :观测窗口的飞行里程数,没有小于0的值,有特别高,我认为是有价值的异常值

  WEIGHTED_SEG_KM : 含义未知,跟里程数有关

  AVG_FLIGHT_COUNT : 平均里程数 没有小于0的值,有特别高,我认为是有价值的异常值

  AVG_BP_SUM:平均基本积分,没有小于0的,有特别高的,我认为是有价值的异常值

  BEGIN_TO_FIRST:我猜测是第一次乘机时间至观测窗口结束时长,没有小于0的,有特别高的,我认为是有价值的异常值

  LAST_TO_END:最后一次乘机时间至观测窗口结束时长,我猜测是时间间隔类数据,没有小于0的,有特别高的,我认为是有价值的异常值

  AVG_INTERVAL : 平均乘机时间间隔,即(LAST_TO_END – BEGIN_TO_FIRST) / FLIGHT_COUNT,没有负值

  MAX_INTERVAL : 最大乘机时间间隔,没有负值

  EXCHANGE_COUNT : 积分兑换次数,没有负值

  ADD_POINT_SUM : 具体含义未知,累积积分的一种,看着没有负值,之后统计分析的时候再看一下,这个值与ADD_POINT_SUM_YR_1和ADD_POINT_SUM_YR_2有关

  Eli_Add_Point_Sum:具体含义未知,累积积分的一种,看着没有负值,之后统计分析的时候再看一下,

  Ponits_Sum : 总累积积分,看着没有小于0的,有特别高的,我认为是有价值的异常值

  Ponit_NotFlight:非乘机的积分变动次数,看着没有小于0的

  总结:AGE有异常值

  1.3 重复数据分析

  在这里插入图片描述

  2.数据特征分析

  2.1 描述性统计分析

  在这里插入图片描述

  在这里插入图片描述

    从表中可以看出,有3个连续型数据列有缺失值,年龄最大值为110岁,年龄中存在异常值。在三个含缺失值列中有两个是票价(SUM_YR = SUM_YR_1 + SUM_YR_2),票价为空值的数据可能是客户不存在乘机记录造成的。票价列还存在票价为0,折扣率为0,但总飞行里程数大于0的记录。这种数据业务上可以这么理解:客户乘坐了0折机票或者机票是通过非购买的其他途径获得。

  2.2 分布分析

    从三个角度寻找客户信息的分布规律

  2.2.1 客户基本信息分布分析

    针对客户基本信息中的入会时间、性别、会员卡级别和年龄字段进行分析

  入会时间—各年份入会人数变化图

  在这里插入图片描述

  在这里插入图片描述

  可以发现入会人数大致是随着年份的增加而增加,在2012年达到顶峰。2009年与2013年与趋势不符,有可能是采样的问题,有可能是其他类似政策的问题

  性别—入会性别比例图

  在这里插入图片描述

  在这里插入图片描述

  会员卡级别—会员卡级别统计图

  在这里插入图片描述

  在这里插入图片描述

  可以看出绝大多数会员为4级会员,仅有少数5级或者6级会员

  年龄

  在这里插入图片描述

  可以看出绝大多数年龄位于30~50岁之间,还存在一个年龄大于100岁的异常数据

  2.2.2 客户乘机信息分析

    针对客户乘机信息中的观测窗口内的飞行次数,观测窗口内的总飞行公里数,观测窗口内的票价收入,平均乘机时间间隔来分析

  观测窗口内的飞行次数与观测窗口内的总飞行公里数

  在这里插入图片描述

  在这里插入图片描述

    对观测窗口内的飞行次数与观测窗口内的总飞行公里数进行绘图

  在这里插入图片描述

  通过图像可以很清晰的发现:客户的飞行次数与总飞行里程数明显分为两个群体,大部分客户集中在箱型图中的箱体中,少数客户位于箱体上方,这部分客户很可能就是高价值客户

  观测窗口内的票价收入

  在这里插入图片描述

  在这里插入图片描述

  通过直方图可以发现:绝大多数的会员票价收入小于3000,客户明显被分为两个群体,箱型体上方的客户很可能是高价值客户官网wps的下载地址怎么找

  平均乘机时间间隔统计

  在这里插入图片描述

  在这里插入图片描述

  最后一次乘机时间至观测窗口时长

  在这里插入图片描述

  最后一次乘机时间至观测窗口时长越短,表示客户对航空公司越满意。时间间隔越短同时也表示该客户可能是高价值客户。并且还可以从这个属性中看到公司的发展问题,如果时间间隔短的客户越来越少,说明该公司的运营出现了问题,需要及时调整营销策略。官网wps 的最新下载入口怎么找

  2.2.3 客户积分信息分布分析

    针对客户积分信息中的积分兑换次数、总累计积分进行分析

  积分兑换次数

  在这里插入图片描述

  在这里插入图片描述

  通过图形可以看出:绝大多数兑换次数位于0~10次之间,这表明大部分客户很少进行积分兑换

  2. 总累计积分

  在这里插入图片描述

  在这里插入图片描述

  通过箱型图可以看出:绝大多数的累积积分比较小,箱型体外的积分明显高于箱型体内的积分

  2.3 相关性分析

  在这里插入图片描述

    分析入会时间、会员卡级别、会员年龄、飞行次数、飞行里程数、观测窗口内的票价收入,平均乘机时间间隔,最近一次乘机至结束时长、积分兑换次数、总累计积分属性的相关性

  在这里插入图片描述
wps office免费版的下载入口在哪里
  在这里插入图片描述

  在这里插入图片描述

  通过热力图可以看出:部分属性之间存在强相关性,比如总飞行公里数与票价收入,总累计积分,飞行次数。

    针对航空客户数据从数据清洗、属性归纳与数据变换入手进行数据预处理

  1.数据清洗

  1.1 异常值处理

    根据数据预处理我们知道了,原始数据中存在票价为空值的记录,同时存在票价最小值为0,折扣率最小值为0,总飞行公里数大于0的记录,同时年龄中存在一个大于100的记录。由于这类数据在原始数据中占比不大,这里采用丢弃处理。

  WPS office官网最新下载的地址的方法在这里插入图片描述

  在这里插入图片描述

  1.2 缺失值处理

  在这里插入图片描述

  发现有4个类别型数据:WORK_CITY,WORK_PROVINCE ,WORK_COUNTRY ,GENDER中缺失值

  1个连续型数据:AGE有缺失值

  由前面的相关性图可以看出,年龄与其他属性的相关性低,因此这里可以采用均值填充

  在这里插入图片描述

  2.属性归约

    RFM模型中,消费金额(M)表示一段时间内客户购买该企业产品金额的总和。由于航空公司票价受运输距离、舱位等级等影响因素,即并不是金额越高的客户并不一定比金额低的客户价值高(长途经济舱与短途商务舱的对比)。基于航空公司业务,这个特征用一定时间内累计的飞行里程M 与客户在一定时间内乘坐舱位对应的平均折扣率C来代替。同时考虑到会员的入会时间在一定程度上能够影响客户的价值,所以在模型中增加客户关系长度L,作为区分客户的一种特征。本模型将以下5个特征作为识别客户价值的特征,即为LRFMC模型。

  在这里插入图片描述

  根据LRFMC模型,选择与LRFMC指标相关的6个属性:,删除与其不相关、弱相关或冗余属性。

  在这里插入图片描述

  3.数值变换

    构造入会时长指标,并对数据进行标准化

  在这里插入图片描述

  1.客户聚类分群

    采用算法对客户进行聚类,基于业务逻辑,聚类为5群

  在这里插入图片描述

  2.客户价值分析

    针对聚类结果进行特征分析,绘制客户分群雷达图

  在这里插入图片描述

  由雷达图中可知:客群1在C处最大,在F,M处的值较小,说明客群1是偏好坐高级舱的客户群(一般航班舱位等级越高,折扣系数越大)。客群2在L,R,F,M,C处都小,说明客群2是新入会员较多客户群。客群3在L处最大,在R处值较小,其他特征适中,说明客群3属于入会时间长,飞行频率高的高价值客户。客群4在F,M处最大,且在R处最小,说明客户群体4频繁乘机并且最近也有乘机记录。客群5在R处最大,在其他特征处都较小,属于入会时间短的低价值客户群。

    总结每个客户群的优势与弱势特征

  在这里插入图片描述

    根据以上特征分析,说明不同用户类别的表现特征不同。基于特征描述,我们将客户分为5个等级:重要保持客户,重要发展客户,重要挽留客户,一般客户与低价值客户

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  参考于《python数据分析与挖掘实战》

  如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论留言或私信!

  在这里插入图片描述