前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。
点击跳转:人工智能从入门到精通教程
本文电子版获取方式:
我用夸克网盘分享了「Python数据分析(3):pandas.pdf」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。
链接:https://pan.quark.cn/s/cabd5f5b4c84
提取码:tFdk
pandas有两个重要的数据结构对象:Series和DataFrame
2.1.1 wps office免费版的下载的网址怎么找 Series对象
Series是创建一个一维数组对象,会自动生成行标签。
index参数可以指定行标签
使用Series对象还可以基于字典创建数据
2.1.2 DataFrame对象
会自动生成行列标签
可以columns参数指定列标签;index参数指定行标签
例:也可以用字典形式生成数wps的免费版下载的网站怎么找据
例:在用字典生成数据的基础上,同时指定行标签
2.2.1 读取Excel:read_excel()
1. 读取特定工作簿:sheet_name
例如对下表的数据进行读取
4月是第四个表,我们应把sheet_name参数指定为3;因为索引是从0开始的。
可以看出read_excel()函数自动创建了一个DataFrame对象,同时自动把第一行数据当做列标签。
2. 指定列标签:header
可以看出不给出header参数时,该参数默认为0。
header=1时结果如下:
header=None时结果如下:
3. 指定行标签:index_col
该参数默认为None
index_col=0时,第0列为列标签
index_col=1时
4. 读取指定列:usecols
usecols=[2]:指定第二列
指定多列
2.2.2 读取csv:read_csv()
nrows参数可以指定显示的行数
2.3.1 查看前几行:head()
head()函数中参数为空默认前5行
例:指定head(3)时如下
2.3.2 查看行数和列数:shape
2.3.3 查看数据的类型:info()、dtype、astype()
1. info()函数
2. dtype参数
例:查看特定列的书库类型
3. astype()函数
例:特定列的数据类型转换
2.4.1 选择行:loc()、iloc()
1. 挑选单行
loc()函数加行标签指定行
iloc()函数加索引指定行号
2. 挑选多行
iloc()挑选:
或者给出区间
3. 挑选满足条件的行
2.4.2 选择列数据:iloc()
1. 挑选单列
2. 挑选多列
例:通过列标签挑选多列
例:通过索引挑选多列
或者写成区间
2.4.3 同时选择行列数据
例:通过标签挑选
例:通过索引挑选
先查看一下数据
set_index()设置行标签
例:字典一对一修改
columns、index参数分别修改列、行标签
3.1.1 查找:isin()
例:isin()函数查看表中是否有该值
例:查看特定列是否有某值
3.1.2 替换:replace()
可以看出上述代码并没有替换,那怎么替换呢?
1. 一对一替换
2. 多对一替换
3. 多对多替换
3.2.1 插入:insert()
例:末尾插入一列
例:指定插入到哪列
3.2.2 删除:drop()
axis参数可以指定删除行还是删除列
1. 删除列
例:指定标签删除
例:指定索引删除
方法三
2. 删除行
例:指定行标签删除
例:指定索引删除
方法三:
3.2.3 处理缺失值:isnulll()、dropna()、fillna()
info()函数查看数据类型,还可以查看是否有缺失值
1. 查看缺失值:isnull()
isnull()函数查看是否有缺失值;在numpy模块中用isnan()函数
2. 删除缺失值:dropna()
例:删除有缺失值的行
例:删除整行都为缺失值的行WPS office官网最新的下载的地方在哪里,需要指定how参数
3. 缺失值的填充:fillna()
例:不同列的缺失值设置不同的填充值
3.2.4 处理重复值:drop_duplicates()、subset、unique()
1. 删除重复行:drop_duplicates()
2. 删除某一列的重复值:subset
默认保留第一个重复值所在的行,删除其他重复值所在的行
保留第一个重复值所在的行
保留最后一个重复值所在的行
是重复的就删除
3. 获取唯一值:unique()
3.2.5 排序数据:sort_values()、rank()
1. sort_values()
例:降序如下
2. rank()
参数指定first时,表示在数据有重复值时,越先出现的数据排名越靠前
3.2.6 筛选数据
获取产品为单肩包的行数据
获取数量>60的行数据
获取产品为单肩包 且 数量>60 的行数据
获取产品为单肩包 或 数量>60 的行数据
3.3.1 转置表的行列:T
3.3.2 将表转换成树形结构:stack()
例:stack()函数转换成树形结构
3.3.3 表的拼接:merge()、concat()、append()
1. merge()wps官网的下载网址怎么找(wps官网下载免费吗安全吗)
how参数指定外连接
on参数指定按哪一列合并
2. concat()
concat()函数采用全连接的方式,没有的数设置为缺失值
重置行标签
3. append()
效果与concat()全连接一样
末尾添加行元素
3.4.1 统计运算:sum()、mean()、max()
1. 求和:sum()
例:指定列求和
2. 求平均值:mean()
例:指定列求均值
3. 求最值:max()
例:指定列求最值
3.4.2 获取数值分布情况:describe()
例:获取单列的情况
3.4.3 wps的官网下载入口在哪计算相关系数:corr()
corr()函数获取相关系数
例:获取指定列与其他列的相关系数
3.4.4 分组汇总数据:groupby()
groupby()函数返回的是一个DataFrameBy对象,该对象包含分组后的数据,但是不能直观地显示出来。
分组后获取指定列的汇总情况
获取多列的汇总情况
3.4.5 创建数据透视表:pivot_table()
wps免费版的下载的入口在哪里
values参数用于指定要计算的列index参数用于指定一个列作为数据透视表的行标签aggfunc参数用于指定参数values的计算类型
wps office 官方的下载网址怎么找
获取多列的情况