①有些信息暂时无法获取
②有些信息被遗漏或者错误处理了
①数据补齐
②删除对应缺失行
③不处理
■dropna函数作用:去除数据结构中值为空的数据。
■dropna函数语法: dropna()
1.2.1、导入数据:
1.2.2、:去掉缺失值
■strip函数作用:清除字符型数据左右的空格。
■strip函数语法: strip()
wps 的官网下载的网址
■字段抽取,是根据已知列数据的开始和结束位置,抽取出新的列
■字段截取函数: slice(start, stop)
3.1.1、先把数据转化为字符型,才能进行切割
3.1.2、选择切割范围
3.1.2、抽取结果
■字段拆分,是指按照固定的字符,拆分已有字符串
■字符分割函数: split(sep, n, expand=False)
参数说明注释sep用于分割的字符串n分割为多少列expand是否展开为数据框,默认为False,返回Series;如果expand为True ,则返回DataFrame
输出结果:
在拆分数据前,需要先分析原数据由什么来间隔开,才能进行拆分,如图:
把数据分为10列
结果如图示:
结论:如果数据的长度不一样,它会用“None”不全空格,显示完所有数据。
CSV截屏:
先把数据切分为两栏,第一列命名为band,第二列命名为name
■记录抽取,是指根据一定的条件,对数据进行抽取
■记录抽取函数: dataframe[condition]
■参数说明
①condition 过滤的条件
②DataFrame 返回值
源数据:
读取数据并分割:
5.1.1、比较运算
大于(>),小于(<),大于等于(>=),小于等于(<=),不等于(!=)
例如:抽取comments大于10000,就只有华为和Apple满足:
wps office免费版下载的方法是什么
5.1.2、范围运算
between(left, right)注意:它是(>=,<=),具有包含关系
列如抽取"1000<=comments<=10000"
5.1.3、控制匹配
pandas.isnull(column)
5.1.4、字符匹配
通过某个关键字,把某列中包含该关键词的列都搜索出来语法:na是空值的处理,一般是空值我们是不需要匹配的
官网wps 的最新下载的入口是多少
例如把title中带有“荣耀”的数据全部匹配出来
5.1.5、逻辑运算
与(&),或(|),取反(not)例如: 与上面的范围运算( df[df.comments.between(1000, 10000)] )等价
■随机抽样,是指随机从数据中按照一定的行数或者比例抽取数据
■随机抽样函数: #[start,end)
6.2.1、构造随机数
6.2.1、利用随机数提取数据
官网的wps下载网址在哪
■记录合并,是指将两个结构相同的数据框,合并成一个数据框
■记录合并函数:concat([dataFrame1,dataFrame2,…])
■上下合并的方式,如:
参数说明
①DataFrame1 数据框
②DataFrame2 数据框
③… 任意多个数据框返回值
①DataFrame
合并结果:
■字段合并,是指将同-个数据框中的不同列,进行合并,形成新的列
■左右合并的方式,如:
■要求:同一表格,字符型数据,长度一样
■字符合并方法: x = x1+x2+x3+… ,返回值位Serise
注意: 如果不转为字符型,它会直接求和
合并结果:
■字段匹配,是指不同结构的数据框,按照一定的条件进行合并,相对于Excel中的vlookup函数,如:
字段匹配函数: merge(x,y,left_on,rihtf_on),返回值为DataFrame
参数注释x第一个数据框y第二个数据框left_on第一个数据框用于匹配的列right_on第二个数据框用于匹配的列
匹配结果:
■简单计算,通过对字段进行加、减、乘、除等四则算术运算,计算出来需要的字段,如:
wps官网的下载方法在哪里
计算结果:
■数据标准化,是指将数据按比例缩放,使之落入到特定区间,一般我们使用0-1标准化;方便做10分制或百分制的转化,乘以相应的数即可。
■公式:
■数据分组,根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来进行研究,以揭示其内在的联系和规律性,如:
cut函数: cut(series,bins,right=True,labgels=NULL)参数说明
参数注释series需要分组的数据bins分组的划分数组right分组的时候,右边是否闭合labels分组的自定义标签,可以不自定义
存在区间,默认右边为闭区间
存在区间,让左边为闭区间
区间以自定义方式现实
■日期转换,是指将字符型的日期格式的数据,转换成为日期型数据的过程;
■日期转换函数:
data = to_datatime(dateString,format)
属性注释%Y代表年份%m代表月份%d代表日期%H代表小时%M代表分钟%S代表秒数
■日期格式化:是指将日期型的数据,按照给定的格式,转为字符型的数据
■日期格式化函数:
﹡apply(lambda x:处理逻辑)
﹡datetime,strftime(x,format)
WPS office的电脑版的下载地方在哪里
■日期抽取,是指从日期格式里面,抽取出需要的部分属性
■抽取语法:datetime列.dt.property
属性注释second1-60:秒,从1开始,到60minute1-60:分钟,从1开始,到60hour1-24:小时,从1开始,到60day1-31:一个月中的第几天,从1开始,最大31month1-12:月份,从1开始,到12year年份weekday1-7:一周中的第几天,从1开始,最大为7