WPS office官网最新的下载的地址的方法

  wps免费版的下载地址在哪里 wps 的官网下载地方是什么在这里插入图片描述

  Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。Pandas 已经成为 Python 数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。尽管pandas采用了很多NumPy的代码风格,但pandas主要用于处理表格型或异质型数据,NumPy主要用于处理同质型数据。wps官网最新下载网址是多少

  1.1 Series对象

  Series是一种一维的数组型对象,和NumPy中的多维数组对象ndarray有所区别。Series包含一个值的序列和索引(index),默认生成的索引是从0开始到数据个数减一

  生成Series对象前的数组可以自己创建一个索引序列,索引序列位会和数组数据位一一对应,这就简单实现了NumPy中间接排序的小环节。Pandas继承了NumPy很多的特性,比如数组的广播,而且Pandas在使用函数或者进行其他操作时总是与索引密不可分,比如利用布尔值数组进行过滤依然保存索引值的连接

  当我们将Python内建的字典传入来生成Series对象时,我们会发现字典中的key值自动默认为索引序列,字典中的value值自动默认为数组元素,字典中的每个键值对就组成一个基础的数组。

  上述程序中,因为字典中的键中缺少’Jackson,所以当返回’Jackson’作为索引值的数据时终端打印了NaN值(not a number),这是pandas中标记缺失值或NA值的方式。

  为了方便快速查找数组的缺失数据,我们可以利用pandas的isnull函数和notnull函数,它们会返回布尔序列来帮助我们判断NaN值。Series对象自身和其索引都带有name属性,就像给人起个名字一样,pandas的name属性为数据的归类统一提供了可操作性。
WPS office电脑版的下载网址在哪里
  1.2 DataFrame对象

  DataFrame表示的是矩阵的数据表,它包含已排序的列集合,每一列可以是不同的值类型(数值,字符串,布尔值等),利用DataFrame对象就可以轻而易举实现NumPy结构化数组的操作。DataFrame既有行索引也有列索引,它可以被视为一个共享相同索引的Series字典

  最常用的构建DataFrame对象的方式是传递一个字典,无论内容是列表还是NumPy数组。DataFrame的行索引默认是数字,当然你也可以根据数据归类的要求来传递DataFrame对象的行索引。当我们传递的数组元素或索引没有包含在字典里也会生成缺失值NaN

  巧妙的利用DataFrame设置的各种索引,比如行也可以通过位置和特殊属性loc进行选取,我们就可以访问我们想要的数据,访问索引返回数据的方式直观上有点像切片。我们也可以利用索引来操作DataFrame内部的元素。

  当我们用列表赋值给DataFrame对象的新一列要确保值的长度和DataFrame的长度相匹配;当我们将Series赋值给某一列,DataFrame对象会根据自身索引重排Series对象的索引,并填充缺失值。

  利用是非判断也可以为DataFrame新增一列,这列会变成布尔序列,这种操作经常用来对数据进行二分搜查。del关键字用于删除DataFrame对象的列

  假如我们传递一个嵌套的字典来生成DataFrame对象,pandas会将字典的键作为列,将内部字典的键作为索引,分级索引的方式类似于NumPy的多维数组。DataFrame对象自带NumPy数组的T属性,可以直接进行轴转置操作;DataFrame的values属性会将包含在DataFrame的数据以二维ndarray形式返回。

  1.3 索引对象

  pandas中的索引对象用于储存轴标签和其他元数据,在构造DataFrame时,所使用的任意数组或标签序列都可以在内部转化为索引对象。

  与Python集合不同,pandas索引对象可以包含重复标签。以下是pandas索引对象的属性和方法汇总

  在这里插入图片描述

  2.1重建索引

  重建pandas对象的索引方法有很多种,最常用的方法是reindex。当Series对象调用reindex方法时,会将数据按新的索引进行排列,不存在会填充缺失值NaN;当DataFrame对象调用reindex方法则会根据传递的参数改变行索引和列索引

  DataFrame对象调用reindex默认是重建行索引,也可以通过传递关键字columns重建列索引。对于顺序数据,我们重建索引时可能需要插值或填值。method参数允许使用多种方法在重建索引时插值,比如ffill方法会将值向前填充

  参数描述keys包含行索引或列标签的字符串或列表method指定填充索引时使用的方法,仅用于增加/减少索引copy所有新索引与旧索引相同时是否返回新对象level匹配MultiIndex级别的简单索引,否则选择子集fill_value指定用于缺少值的值limit当前向填充或后向时,所需填充的最大尺寸间隙(以元素数量为参考)tolerance当前向填充或后向时,所需填充的不精确匹配下的最大尺寸间隙(以绝对数字距离为参考)

  2.2 轴向上删除条目

  在pandas对象的轴向上删除条目非常快捷,我们只需要用drop方法,通过传递元组来对指定条目进行删除。对于DataFrame对象来说,我们可以利用NumPy之前的轴参数axis来指定轴进行操作。

  在DataFrame对象中调用drop方法时,默认是按标签序列即行来删除,我们可以传递axis=1或axis='columns’来从列进行删除。

  2.3 索引切片和选择

  Series对象的索引和NumPy数组的索引功能类似,即使我们将Series对象的索引重置为非数字索引,我们依然可以利用数字索引进行切片,大大拓宽数组元素索引的多样性,值得注意的是Series的标签切片是包含结尾的

  DataFrame对象作为数据表所以索引切片的方式更加多样,除了基本的行列标签索引切片,同样也支持整数索引切片,简单来说DataFrame的索引就是Series对象索引的二维拓扑,而且还自带很多buff加成。

  DataFrame对象通过比较大小会返回一个布尔值的列表,经常用于数据的过滤。

  针对DataFrame在行上的标签索引,我们可以利用特殊索引符号loc和iloc,它们可以通过轴标签或整数标签以NumPy的风格语法从DataFrame对象选出数组的行和列的子集

  下面是DataFrame对象索引选项的汇总

  类型描述df[val]选取DataFrame的单个列或一组列df.loc[val]根据标签选取DataFrame的单行或多行df.loc[:, val]根据标签选取单列或多列df.loc[val1, val2]同时选取行和列的一部分df.iloc[where]根据整数的位置选择单行或多行df.iloc[:, where]根据整数的位置选择单列或多列df.iloc[where_i, where_j]根据整数的位置选择行和列df.at[label_i, label_j]根据行列标签选择单个标量df.iat[i, j]根据行列整数的位置选择单个标量get_value, set_value根据行和列标签设置单个值

  2.4 运算方法和数据对齐

  pandas在不同索引的对象之间进行运算时采用数据对齐的模式,比如当两个Series对象相加时索引对不相同,会返回索引对的并集的Series对象,但索引位对不上号的元素会变为缺失值NaN,同理DataFrame对象之间的相互操作也会遵循这种法则

  正常来说NaN缺失值和对应索引位的值进行运算也会返回NaN缺失值,所以在DataFrame对象上使用add方法就可以进行数据填充。pandas自带的运算函数能基本满足简单的算术需求

  以下是运算方法汇总

  方法描述add, radd加法sub, rsub减法div, rdiv除法floordiv, rfloordiv整除mul, rmul乘法pow, rpow幂次方

  DataFrame和Series之间的操作原理类似NumPy中的广播,广播最重要的原则就是轴长度的相互匹配,pandas中的广播还需要索引相匹配,我们可以通过传递axis的参数来指定轴进行广播

  2.5 函数应用和映射

  NumPy中的一元二元通用函数(ufunc)在pandas对象中同样适用,比如可以求绝对值的函数abs。DataFrame对象中经常使用apply方法来将通用函数应用到一维数组上,这样我们就可以组合通用函数形成更加复杂的函数应用于数据统计于分析

  编写复杂的NumPy函数时,我们会使用lambda表达式,lambda 函数在 Python 编程语言中使用频率非常高,使用起来非常灵活、巧妙。lambda 函数是匿名的,它有输入和输出,也拥有自己的命名空间

  上述代码中我们利用lambda表达式编写最大差值函数和浮点数精度函数,其中也使用applymap方法,效果和apply方法差不多

  2.6 数据排序和排名

  根据某些准则对数据集进行排序是一种重要的内建操作,pandas对象中可以使用sort_index方法按行或按列对索引进行字典型排序,会返回一个新的索引对象。sort_index方法默认是将行的索引进行排序,我们也可以传递axis参数将列的索引排序

  pandas对象中也可以通过sort_values方法根据数据值进行排序,默认数值排序和索引排序都是升序,索引排序也可以通过传递ascending=False来实现降序排列

  排名是指对数组从1到有效数据点总数分配名次的操作,通过rank方法给Series对象和DataFrame对象的每个组分配平均排名。如果数组元素有相同的情况,默认的平均排名方法就会取排名值的平均值,所以会出先小数

  我们可以传递method的方法参数实现不同的排名效果,以下是汇总

  方法描述‘average’默认值,每个组中分配平均排名‘min’对整个组使用最小排名‘max’对整个组使用最大排名‘first’按照数据出现位置的次序分配排名‘dense’组间排名总是加1,类似于’min’

  3.1常用的统计方法

  pandas对象封装了一个常用数学、统计学方法的集合,大部分属于归约或汇总统计的类别。这些方法内建处理缺失值的功能,我们处理数据时就不需要过多担心缺失值NaN的存在WPS office官网最新的下载方法的方法

  我们可以通过禁用skipna来实现统计时不排除NaN值,以下是归约方法常用可选参数列表

  方法描述axis归约轴,0为行向,1为列项skipna排除缺失值,默认为Truelevel针对轴是多层索引,缩减分层级数

  除了归约方法,比如idxmin和idxmax返回最小值或最大值的索引值,还有累积型方法,还有一类方法describe可以一次性产生多个汇总统计

  在这里插入图片描述

  在这里插入图片描述

  3.2 相关性和协方差

  协方差(Covariance)能反映两个样本/变量之间的相互关系以及之间的相关程度, 期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:

  在这里插入图片描述

  相关系数(Correlation coefficient)能反映两个样本/样本之间的相互关系以及之间的相关程度

  

  其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差

  书中爬取并分析 Yahoo! Fiannce(雅虎金融)的股票价格和成交量,为获取金融数据需要安装pandas_datareader包和fix_yahoo_finance包

  书中为了获得一些股票行情,使用了pandas_datareader模块下载一些数据

  Series中的corr方法用于计算两个Series对象中重叠的、非NaN值的、按索引对齐的值的相关性,cov方法计算的是协方差

  3.3 唯一值、计数和成员属性

  在NumPy中我们也遇到过计算唯一值的方法,同样在pandas中也适用。unique函数会给出Series对象中的唯一值,value_counts函数用于计算Series对象中包含的值的个数

  下面是唯一值、计数和成员属性有关的方法汇总

  方法描述isin计算表征Series中每一个值是否包含于传入序列,返回布尔值数组match计算数组每个值的整数索引,形成一个唯一值数组,有助于数据对齐和join类型操作unique计算Seriess值中的唯一值数组,按照数据出现的先后次序返回value_counts返回一个Series,值是计数个数,按照降序排序

  以上就是今天笔记的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法,继续学习pandas进阶