标签: wps的的官网最新的下载网站在哪里

  • wps office 的官方下载网站在哪里(wps office免费版手机版介绍)

      该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

      一般而言,对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征,就是未告知数据列所属的性质的特征列。

      train.csv

      id 为贷款清单分配的唯一信用证标识

      loanAmnt 贷款金额

      term 贷款期限(year)

      interestRate 贷款利率

      installment 分期付款金额

      grade 贷款等级

      subGrade 贷款等级之子级

      employmentTitle 就业职称

      employmentLength 就业年限(年)

      homeOwnership 借款人在登记时提供的房屋所有权状况

      annualIncome 年收入

      verificationStatus 验证状态

      issueDate 贷款发放的月份

      purpose 借款人在贷款申请时的贷款用途类别

      postCode 借款人在贷款申请中提供的邮政编码的前3位数字

      regionCode 地区编码

      dti 债务收入比

      delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数
    wps的的官网最新的下载网站在哪里
      ficoRangeLow 借款人在贷款发放时的fico所属的下限范围

      ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围

      openAcc 借款人信用档案中未结信用额度的数量

      pubRec 贬损公共记录的数量

      pubRecBankruptcies 公开记录清除的数量

      revolBal 信贷周转余额合计

      revolUtil 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额

      totalAcc 借款人信用档案中当前的信用额度总数

      initialListStatus 贷款的初始列表状态

      applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请

      earliesCreditLine 借款人最早报告的信用额度开立的月份

      title 借款人提供的贷款名称

      policyCode 公开可用的策略代码=1新产品不公开可用的策略代码=2

      n系列匿名特征 匿名特征n0-n14,为一些贷款人行为计数特征的处理

      竞赛采用AUC作为评价指标。AUC(Area Under Curve)被定义为 ROC曲线 下与坐标轴围成的面积。

      分类算法常见的评估指标如下:

      1、混淆矩阵(Confuse Matrix)

      (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )

      (2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )

      (3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )

      (4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )

      2、准确率(Accuracy) 准确率是常用的一个评价指标,但是不适合样本不均衡的情况。

      在这里插入图片描述

      在这里插入图片描述

      8、AUC(Area Under Curve) AUC(Area Under Curve)被定义为 ROC曲线 下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

      对于金融风控预测类常见的评估指标如下:

      1、KS(Kolmogorov-Smirnov) KS统计量由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出。在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。 K-S曲线与ROC曲线类似,不同在于

      ROC曲线将真正例率和假正例率作为横纵轴

      K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。 公式如下:

      在这里插入图片描述

      在这里插入图片描述

      测试集

      训练集

      Train data shape: (800000, 47)
    wps官网下载的地址
      TestA data shape: (200000, 46)

      在这里插入图片描述

      在这里插入图片描述

      ACC: 0.5

      Precision 0.5

      Recall 0.5

      F1-score: 0.5

      在这里插入图片描述

      在这里插入图片描述

      AUC socre: 0.75

      KS值: 0.5238095238095237

      在这里插入图片描述

      总体粗略的查看数据集各个特征的一些基本统计量

      在这里插入图片描述

      在这里插入图片描述

      查看缺失值

      There are 22 columns in train dataset with missing values.

      上面得到训练集有22列特征有缺失值,进一步查看缺失特征中缺失率大于50%的特征

      具体的查看缺失特征及缺失率

      在这里插入图片描述

      纵向了解哪些列存在 “nan”, 并可以把nan的个数打印,主要的目的在于查看某一列nan存在的个数是否真的很大,如果nan存在的过多,说明这一列对label的影响几乎不起作用了,可以考虑删掉。如果缺失值很小一般可以选择填充。另外可以横向比较,如果在数据集中,某些样本数据的大部分列都是缺失的且样本足够的情况下可以考虑删除。

      Tips: 比赛大杀器lgb模型可以自动处理缺失值,Task4模型会具体学习模型了解模型哦!

      查看训练集测试集中特征属性只有一值的特征

      [‘policyCode’]

      There are 1 columns in train dataset with one unique value.

      There are 1 columns in test dataset with one unique value.

      总结:

      47列数据中有22列都缺少数据,这在现实世界中很正常。‘policyCode’具有一个唯一值(或全部缺失)。有很多连续变量和一些分类变量。

      特征一般都是由类别型特征和数值型特征组成,而数值型特征又分为连续型和离散型类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。

      在这里插入图片描述

      在这里插入图片描述

      在这里插入图片描述

      在这里插入图片描述

      5.3.1数值连续型变量分析

      在这里插入图片描述

      图片数量有点多,暂时放置几张

      查看某一个数值型变量的分布,查看变量是否符合正态分布,如果不符合正太分布的变量可以log化后再观察下是否符合正态分布。如果想统一处理一批数据变标准化 必须把这些之前已经正态化的数据提出正态化的原因:一些情况下正态非正态可以让模型更快的收敛,一些模型要求数据正态(eg. GMM、KNN),保证数据不要过偏态即可,过于偏态可能会影响模型预测结果。

      在这里插入图片描述

      5.3.2非数值类别型变量分析

      在这里插入图片描述

      在这里插入图片描述

      在这里插入图片描述

      在这里插入图片描述

      5.3.3总结:

      上面我们用value_counts()等函数看了特征属性的分布,但是图表是概括原始信息最便捷的方式。

      数无形时少直觉。

      同一份数据集,在不同的尺度刻画上显示出来的图形反映的规律是不一样的。python将数据转化成图表,但结论是否正确需要由你保证。

      5.4.1单一变量分布可视化

      在这里插入图片描述

      5.4.2根绝y值不同可视化x某个特征的分布

      首先查看类别型变量在不同y值上的分布

      在这里插入图片描述

      其次查看连续型变量在不同y值上的分布

      在这里插入图片描述

      在这里插入图片描述

      5.4.3时间格式数据处理及查看

      在这里插入图片描述

      5.4.4掌握透视图可以让我们更好的了解数据

      5.4.5用pandas_profiling生成数据报告

      5.4.6总结

      数据探索性分析是我们初步了解数据,熟悉数据为特征工程做准备的阶段,甚至很多时候EDA阶段提取出来的特征可以直接当作规则来用。可见EDA的重要性,这个阶段的主要工作还是借助于各个简单的统计量来对数据整体的了解,分析各个类型变量相互之间的关系,以及用合适的图形可视化出来直观观察wps的的官网下载网址在哪。希望本节内容能给初学者带来帮助,更期待各位学习者对其中的不足提出建议。

      数据EDA部分我们已经对数据的大概和某些特征分布有了了解,数据预处理部分一般我们要处理一些EDA阶段分析出来的问题,这里介绍了数据缺失值的填充,时间格式特征的转化处理,某些对象类别特征的处理。

      首先我们查找出数据中的对象特征和数值特征

      把所有缺失值替换为指定的值0

      data_train = data_train.fillna(0)

      向用缺失值上面的值替换缺失值

      data_train = data_train.fillna(axis=0,method=‘ffill’)

      纵向用缺失值下面的值替换缺失值,且设置最多只填充两个连续的缺失值

      data_train = data_train.fillna(axis=0,method=‘bfill’,limit=2)

      在这里插入图片描述

      在这里插入图片描述

      在这里插入图片描述

      在这里插入图片描述

      对earliesCreditLine进行预处理

      在这里插入图片描述

      wps office免费版下载的网址是什么在这里插入图片描述

      像等级这种类别特征,是有优先级的可以labelencode或者自映射

      6.5异常值处理

      检测异常的方法一:均方差¶

      在统计学中,如果一个数据分布近似正态,那么大约 68% 的数据值会在均值的一个标准差范围内,大约 95% 会在两个标准差范围内,大约 99.7% 会在三wps官网最新下载的方法怎么找个标准差范围内。

      得到特征的异常值后可以进一步分析变量异常值和目标变量的关系

       wps官网最新的下载网址在哪(wps官网最新在线客服在哪里找到)在这里插入图片描述

      例如可以看到异常值在两个变量上的分布几乎复合整体的分布,如果异常值都属于为1的用户数据里面代表什么呢?

      检测异常的方法二:箱型图

      总结一句话:四分位数会将数据分为三个点和四个区间,IQR = Q3 -Q1,下触须=Q1 − 1.5x IQR,上触须=Q3 + 1.5x IQR;

      6.6数据分桶

      特征分箱的目的:

      从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。

      数据分桶的对象:wps office的免费版下载的地方

      将连续变量离散化

      将多状态的离散变量合并成少状态

      分箱的原因:

      数据的特征内的值跨度可能比较大,对有监督和无监督中如k-均值聚类它使用欧氏距离作为相似度函数来测量数据点之间的相似度。都会造成大吃小的影响,其中一种解决方法是对计数值进行区间量化即数据分桶也叫做数据分箱,然后使用量化后的结果。

      分箱的优点:

      处理缺失值:当数据源可能存在缺失值,此时可以把null单独作为一个分箱。

      处理异常值:当数据中存在离群点时,可以把其通过分箱离散化处理,从而提高变量的鲁棒性(抗干扰能力)。例如,age若出现200这种异常值,可分入“age > 60”这个分箱里,排除影响。

      业务解释性:我们习惯于线性判断变量的作用,当x越来越大,y就越来越大。但实际x与y之间经常存在着非线性关系,此时可经过WOE变换。
    wps office 的官方下载网站是什么
      特别要注意一下分箱的基本原则:

      (1)最小分箱占比不低于5%

      (2)箱内不能全部是好客户

      (3)连续箱单调

      固定宽度分箱

      当数值横跨多个数量级时,最好按照 10 的幂(或任何常数的幂)来进行分组:09、1099、100999、10009999,等等。固定宽度分箱非常容易计算,但如果计数值中有比较大的缺口,就会产生很多没有任何数据的空箱子。

      6.7特征编码

      labelEncode 直接放入树模型中

      在这里插入图片描述

      逻辑回归等模型要单独增加的特征工程

      对特征做归一化,去除相关性高的特征

      归一化目的是让训练过程更好更快的收敛,避免特征大吃小的问题

      去除相关性是增加模型的可解释性,加快预测过程。

      6.8特征选择

      特征选择技术可以精简掉无用的特征,以降低最终模型的复杂性,它的最终目的是得到一个简约模型,在不降低预测准确率或对预测准确率影响不大的情况下提高计算速度。特征选择不是为了减少训练时间(实际上,一些技术会增加总体训练时间),而是为了减少模型评分时间。

      特征选择的方法:

      1 Filter

      方差选择法

      相关系数法(pearson 相关系数)

      卡方检验

      互信息法

      2 Wrapper (RFE)

      递归特征消除法

      3 Embedded

      基于惩罚项的特征选择法

      基于树模型的特征选择

      方差选择法

      方差选择法中,先要计算各个特征的方差,然后根据设定的阈值,选择方差大于阈值的特征

      相关系数法

      Pearson 相关系数 皮尔森相关系数是一种最简单的,可以帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性。 结果的取值区间为 [-1,1] , -1 表示完全的负相关, +1表示完全的正相关,0 表示没有线性相关。

      本数据集中我们删除非入模特征后,并对缺失值填充,然后用计算协方差的方式看一下特征间相关性,然后进行模型训练

      在这里插入图片描述

      恭喜你能够看完这篇博客,相信你已经有点累了,加油!!!

      这篇博客侧重于数据分析与数据预处理,特征构造选择,下篇才是重点。由于篇幅过长,写作多有不便,未完结。点击跳转下一篇