wps office的免费版的下载的网站在哪里

  上一章内容python数据分析入门【一】 — DataFrame & Series

  下一章内容python数据分析入门【三】 — 数据分析

  1、数据导入和导出

  1.1 数据的导入

  1)一般方式导入文件

  用python内置的和,缺点是不能对数据按格式划分,并封装成可计算的对象

  在这里插入图片描述

  在这里插入图片描述

  2)导入csv文件

  使用,如果存在中文路径会报错,此时使用打开文件即可(参考https://blog.csdn.net/qq_35318838/article/details/80564938)。得到的数据会被封装成对象

  默认分隔符是’,’

  在这里插入图片描述

  修改分隔符,并修改列名

  3)导入文本文件

  注意文本文件一上来就是数据,没有表头,所以要设置列名,并设置分隔符。

  在这里插入图片描述

  在这里插入图片描述

  4)导入excel文件(后缀xlsx)

  ​ 对于导入文件编码错误问题,可以用指定编码格式

  在这里插入图片描述

  1.2 数据的导出

  1)导出csv/txt文件

  ​ 用导出csv,文本等文件,可以设置,表示不打印索引列(没有)

  在这里插入图片描述

  在这里插入图片描述

  2)导出xlsx文件

  ​ 用导出csv,文本等文件,可以设置,表示不打印索引列

  在这里插入图片描述

  2、值处理

  值处理包括:重复值,缺失值,空格值的处理

  A、重复值处理

  在这里插入图片描述

  2.1 用duplicated()找出重复位置wps office的免费版下载的网站在哪里

  1)找出行的重复位置

  不指定列,则对行(所有列WPS office官网最新的下载入口是什么)进行重复值位置查找

  在这里插入图片描述

  2)根据列,找出重复位置

  在这里插入图片描述

  在这里插入图片描述

  根据返回值,把重复数据提取出来

  df[dIndex]

  2.2 用drop_duplicates()删除重复值

  1)根据行重复值进行删除

  在这里插入图片描述

  2)通过指定列,删除重复值

  在这里插入图片描述

  2.3 向量化计算提取重复值

  ​ 对于boolean类型的一维数组A,可以根据A,利用向量化计算,提取重复值数据。

  B、缺失值处理

  2.1、缺失值的产生和处理方法

  缺失值的产生:

  有些信息暂时无法获取有些信息被遗漏或者错误处理了(年龄那一列要求是数字,但是填入了‘a’,‘b’)

  缺失值的处理方法:

  数据补齐(填充平均值)删除对应缺失行(数据量少慎用)删除对应缺失行不处理

  2.2、用 isnull() 找到空值位置

  在这里插入图片描述

  在这里插入图片描述

  2.3、获取空值所在的行

  1)默认所有列

  2)指定判断空值的列

  2.4、用 fillna() 填充空值

  2.5、用 dropna() 删除空值所在的行

  C、空格值处理

  2.1、用str.strip()处理某一列的空格值

  在这里插入图片描述

  2.2、将处理好的数据放回原列

  在这里插入图片描述

  3、字段处理

  A、字段抽取

  字段抽取:

  根据已知列数据的开始和结束位置,抽取出新的列。例如对于电话号:138 0013 8000,其中138是运营商,0013是地区,8000是号码

  在这里插入图片描述

  3.1、用Series.astype()转换数据类型

  3.2、用str.slice()字段抽取

  在这里插入图片描述

  B、字段拆分

  字段拆分:按照固定的字符,拆分已有字符串

  在这里插入图片描述

  3.1、用split()拆分得到DataFrame

  在这里插入图片描述

  3.2、用split()拆分得到Series

  在这里插入图片描述

  C、字段合并

  字段合并:指将同一个数据框中的不同的列,进行合并,形成新的列(字段拆分的逆操作)

   wps的官网的下载的地方在哪里在这里插入图片描述

  注意先将Int64转化成str,才能进行字段合并(字符串加法)

  在这里插入图片描述

  D、字段匹配

  字段匹配:根据各表共有的关键字段(eg:id字段,且数据类型一致),把各表所需的记录一一对应起来,组成一条新的记录

  在这里插入图片描述

  在这里插入图片描述

  3.1、用pd.merge()左连接

  在这里插入图片描述

  3.2、用pd.merge()右连接

  在这里插入图片描述

  3.3、用pd.merge()外连接

  在这里插入图片描述

  4、记录处理

  A、记录抽取

  记录抽取:指根据一定的条件,对数据进行抽取

  在这里插入图片描述

  4.1、比较运算

  结果都是

  在这里插入图片描述

  4.2、范围运算
wps office 官方下载地方(wps官网首页登入)
  在这里插入图片描述

  4.3、空值匹配

  在这里插入图片描述

  4.4、根据关键字过滤

  在这里插入图片描述

  在这里插入图片描述

  B、随机抽样

  随机抽样:随机从数据中,按照一定的行数或者比例抽取数据

  在这里插入图片描述

  4.1、按个数抽样

  4.2、按百分比抽样

  4.3、可放回的抽样

  4.4、分层抽样

  用按个数抽样

  wps office 官方下载的入口怎么找在这里插入图片描述

  用按比例抽样

  在这里插入图片描述

  C、记录合并

  记录合并:指将两个结构相同的数据框,合并成一个数据框

  在这里插入图片描述

  4.1、数据框结构相同时的合并

  在这里插入图片描述

  4.2、数据框结构不同时的合并

  在这里插入图片描述

  5、其余操作

  A、简单计算

  简单计算:指通过对已有字段进行加减乘除等运算,得到新的字段

  在这里插入图片描述

  B、数据标准化

  数据标准化:指将数据按比例缩放,使之落入到特定区间,方便不同变量的比较关系:聚类分析,主成分分析等。

  0-1标准化(方便十分制,百分制的换算): $ x^* = frac{x – min}{max -min}$

  在这里插入图片描述

  在这里插入图片描述

  C、数据分组

  数据分组:根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,以揭示其内在的联系和规律性。

  在这里插入图片描述

  5.1、用df.groupby()按字段值分组(定性分组)

  在这里插入图片描述

  注意

  用来获取分组记录用来获取分组的某一列,方便对分组后的该列进行统计分析

  5.2、用pd.cut按区间分组(定量分组)

   wps的的官网最新下载的入口是多少在这里插入图片描述

  5.3、用pd.cut按区间自定义标签分组(定量分组)

  在这里插入图片描述

  D、时间处理

  时间转换:指将字符型的时间格式数据,转换成为时间型数据的过程时间格式化:将时间型数据,按照指定格式,转为字符型数据时间属性抽取:指从日期格式里面,抽取出需要的部分属性

  5.1、用to_datetime()时间转换

  wps的电脑版下载的地址在哪里在这里插入图片描述

  5.2、用dt.strftime()格式化时间

  在这里插入图片描述

  5.3、用dt.xx抽取时间属性

  E、时间抽取

  时间抽取:指根据一定的条件,对时间格式的数据进行抽取

  根据索引进行抽取根据时间列进行抽取

  在这里插入图片描述

  5.1、时间处理

  在这里插入图片描述

  5.2、按索引抽取

  5.3、按时间列(dateTime)抽取

  在这里插入图片描述

  在这里插入图片描述

  注意区别两种时间抽取的方法:一种是按索引列抽取,另一种是按非索引列抽取。

  6、虚拟变量

  虚拟变量:也叫离散特征编码,可用于表示分类变量,非数量因素可能产生的影响。

  离散特征的取值之间有大小的意义(eg:尺寸(L,XL,XXL)

  用来处理

  离散特征的取值之间没有大小的意义(eg:颜色(Red,Blue,Green)

  用来处理(dummy仿制品)

  在这里插入图片描述

  6.1、Series.map()处理有大小关系的离散变量

  在这里插入图片描述

  6.2、pd.get_dummies()处理无大小关系的离散变量

  在这里插入图片描述