笔者Python数据分析活用Pandas库学习笔记专栏链接🔗导航:
【Pandas】Python数据分析活用Pandas库学习笔记(一)【Pandas】Python数据分析活用Pandas库学习笔记(二)
数据组合主要包括,连接和合并
连接:添加行,添加列
合并多个数据集:一对一合并;多对一合并;多对多合并
在pandas中NaN表示缺失值,缺失值和其他类型的数据不同,实际上它们没有什么意义,缺失值不等于任何值,甚至不等于缺失值。
从numpy库中导入缺失值:
5.4.1 清理缺失数据
方法一
缺失值数量等于数据总行数减去非缺失值的行数
方法二
利用numpy中的count_nonzero和isnull方法统计数据中缺失值的总数或者特定列中缺失值的个数
方法三
利用Serise的value_counts方法获取缺失值的个数,dropan参数
5.4.2 清除缺失数据
替换
前值和后值填充
该方法存在一个问题,若缺失值位于最前或最后那么缺失值将继续存在。
插值
pandas中插值的方法默认以线性插值来填充
删除缺失值wps电脑版的下载入口是什么
dropna方法删除缺失值:参数how参数指定行或列的删除条件,两种取值,any(只要包含NA值即删除)与all(全为NA才 wps 的官网最新下载网址是多少(wps官网最新下载中文版) 删除);thresh参数允许在删除行或列之前 指定非NaN值的数量。
忽略缺失值计算
可以忽略缺失值的内置方法有mean和sum,这些参数通常有skipna参数
数据整理是指对数据集进行结构化处理,使其易于分析和可视化。它是数据清理的主要目标。整洁数据有助于简化数据分析、可视化和收集工作wps的官网下载地方在哪(wps官网旧版本xp可用)。
Hadley Wickham指出整洁数据要满足一下3个条件:
每个观测值成一行;每个变量成一列;每种观测单元构成一张表格。
6.1.1 固定一列
melt函数可以把DataFrame重塑成整洁的数据格式,参数如下:
id_vars:该参数是一个容器(列表、元组或ndarray),所表示的变量会保持原样。value_vars:指定想“融合”(或转换为行)WPS office官网最新下载地址在哪里的列。它默认会“融合”未在in_vars参数中指定的所有列。var_name:该字符串用于指定value_vars融合后的新列名value_name:该字符串为新列明,代表var_name的值
6.1.2 固定多列
6.2.1 单独拆分和添加列(简单方法)
6.2.2 在单步骤中进行拆分和组合&wps 的官网下载入口在哪#xff08;简单方法)
返回的向量的顺序和数据顺序相同
6.2.3 在单步骤中进行拆分和组合(复杂方法)
wps的官网的下载网站是多少
WPS office的官网的下载网站怎么找 拆分返回的是包含两个元素的列表,且每个元素都是新列。利用这一点,可以使用内置zip函数把拆分项列表组合在一起。wps office的免费版的下载地址怎么找
zip的功能可以理解为:把每个传入的容器堆叠起来,然后以元组的形式逐列返回值。
同样可以使用ebola_long.variable.str.split(‘_’)。不过由于容器是Seriies对象,需要将其拆包,可以使用星号操作符*对容器进行拆包。
6.5.1 使用循环加载多个文件
6.5.2 使用列表推导加载多个文件