上一章内容python数据分析入门【一】 — DataFrame & Series
下一章内容python数据分析入门【三】 — 数据分析
1、数据导入和导出
1.1 数据的导入
1)一般方式导入文件
用python内置的和,缺点是不能对数据按格式划分,并封装成可计算的对象
2)导入csv文件
使用,如果存在中文路径会报错,此时使用打开文件即可(参考https://blog.csdn.net/qq_35318838/article/details/80564938)。得到的数据会被封装成对象
默认分隔符是’,’
修改分隔符,并修改列名
3)导入文本文件
注意文本文件一上来就是数据,没有表头,所以要设置列名,并设置分隔符。
4)导入excel文件(后缀xlsx)
对于导入文件编码错误问题,可以用指定编码格式
1.2 数据的导出
1)导出csv/txt文件
用导出csv,文本等文件,可以设置,表示不打印索引列(没有)
2)导出xlsx文件
用导出csv,文本等文件,可以设置,表示不打印索引列
2、值处理
值处理包括:重复值,缺失值,空格值的处理
A、重复值处理
2.1 用duplicated()找出重复位置wps office的免费版下载的网站在哪里
1)找出行的重复位置
不指定列,则对行(所有列WPS office官网最新的下载入口是什么)进行重复值位置查找
2)根据列,找出重复位置
根据返回值,把重复数据提取出来
df[dIndex]
2.2 用drop_duplicates()删除重复值
1)根据行重复值进行删除
2)通过指定列,删除重复值
2.3 向量化计算提取重复值
对于boolean类型的一维数组A,可以根据A,利用向量化计算,提取重复值数据。
B、缺失值处理
2.1、缺失值的产生和处理方法
缺失值的产生:
有些信息暂时无法获取有些信息被遗漏或者错误处理了(年龄那一列要求是数字,但是填入了‘a’,‘b’)
缺失值的处理方法:
数据补齐(填充平均值)删除对应缺失行(数据量少慎用)删除对应缺失行不处理
2.2、用 isnull() 找到空值位置
2.3、获取空值所在的行
1)默认所有列
2)指定判断空值的列
2.4、用 fillna() 填充空值
2.5、用 dropna() 删除空值所在的行
C、空格值处理
2.1、用str.strip()处理某一列的空格值
2.2、将处理好的数据放回原列
3、字段处理
A、字段抽取
字段抽取:
根据已知列数据的开始和结束位置,抽取出新的列。例如对于电话号:138 0013 8000,其中138是运营商,0013是地区,8000是号码
3.1、用Series.astype()转换数据类型
3.2、用str.slice()字段抽取
B、字段拆分
字段拆分:按照固定的字符,拆分已有字符串
3.1、用split()拆分得到DataFrame
3.2、用split()拆分得到Series
C、字段合并
字段合并:指将同一个数据框中的不同的列,进行合并,形成新的列(字段拆分的逆操作)
wps的官网的下载的地方在哪里
注意先将Int64转化成str,才能进行字段合并(字符串加法)
D、字段匹配
字段匹配:根据各表共有的关键字段(eg:id字段,且数据类型一致),把各表所需的记录一一对应起来,组成一条新的记录
3.1、用pd.merge()左连接
3.2、用pd.merge()右连接
3.3、用pd.merge()外连接
4、记录处理
A、记录抽取
记录抽取:指根据一定的条件,对数据进行抽取
4.1、比较运算
结果都是
4.2、范围运算
wps office 官方下载地方(wps官网首页登入)
4.3、空值匹配
4.4、根据关键字过滤
B、随机抽样
随机抽样:随机从数据中,按照一定的行数或者比例抽取数据
4.1、按个数抽样
4.2、按百分比抽样
4.3、可放回的抽样
4.4、分层抽样
用按个数抽样
wps office 官方下载的入口怎么找
用按比例抽样
C、记录合并
记录合并:指将两个结构相同的数据框,合并成一个数据框
4.1、数据框结构相同时的合并
4.2、数据框结构不同时的合并
5、其余操作
A、简单计算
简单计算:指通过对已有字段进行加减乘除等运算,得到新的字段
B、数据标准化
数据标准化:指将数据按比例缩放,使之落入到特定区间,方便不同变量的比较关系:聚类分析,主成分分析等。
0-1标准化(方便十分制,百分制的换算): $ x^* = frac{x – min}{max -min}$
C、数据分组
数据分组:根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,以揭示其内在的联系和规律性。
5.1、用df.groupby()按字段值分组(定性分组)
注意
用来获取分组记录用来获取分组的某一列,方便对分组后的该列进行统计分析
5.2、用pd.cut按区间分组(定量分组)
wps的的官网最新下载的入口是多少
5.3、用pd.cut按区间自定义标签分组(定量分组)
D、时间处理
时间转换:指将字符型的时间格式数据,转换成为时间型数据的过程时间格式化:将时间型数据,按照指定格式,转为字符型数据时间属性抽取:指从日期格式里面,抽取出需要的部分属性
5.1、用to_datetime()时间转换
wps的电脑版下载的地址在哪里
5.2、用dt.strftime()格式化时间
5.3、用dt.xx抽取时间属性
E、时间抽取
时间抽取:指根据一定的条件,对时间格式的数据进行抽取
根据索引进行抽取根据时间列进行抽取
5.1、时间处理
5.2、按索引抽取
5.3、按时间列(dateTime)抽取
注意区别两种时间抽取的方法:一种是按索引列抽取,另一种是按非索引列抽取。
6、虚拟变量
虚拟变量:也叫离散特征编码,可用于表示分类变量,非数量因素可能产生的影响。
离散特征的取值之间有大小的意义(eg:尺寸(L,XL,XXL)
用来处理
离散特征的取值之间没有大小的意义(eg:颜色(Red,Blue,Green)
用来处理(dummy仿制品)
6.1、Series.map()处理有大小关系的离散变量
6.2、pd.get_dummies()处理无大小关系的离散变量