wps的的官网最新下载的网址在哪

  Python 数据分析day_1:认识Notebook,及NumPy , Pandas 和 Matplotlib基本使用方法

  python 数据分析 day2 数组的运算及矩阵

  python 数据分析 day3 矩阵及利用线性回归处理boston数据集

  python 数据分析 day4 pandas 之 Series

  python 数据分析day4 Pandas 之 DataFrame

  1. 二维数组创建

  2. 字典创建

  3. JSON创建

  4. 读取Excel或CSV文件创建

  读取CSV文件

  读取Excel文件

  在这里插入图片描述

  5. 读数据库(MySQL)创建

  形状

  维度

  行索引(标签)

  列索引(标签)

  所有的值—> 二维数组

  元素的个数

  3.1汇总方法

  info()方法

  head() / tail()方法

  describe()方法

  3.2处理索引

  set_index() / reset_index()方法:设置索引/重置索引,两个相当于是逆操作。

  设置索引(用指定的列充当索引)

  在这里插入图片描述

  多级索引

  在这里插入图片描述

  重置索引 (相当于是set_index方法的逆操作)

  在这里插入图片描述

  reindex()方法:调整索引的顺序。

  调整列索引

  在这里插入图片描述

  调整行索引

   wps的的官网下载网站(wps下载电脑版旧版本安装教程)在这里插入图片描述

  rename()方法:修改索引的名字。

  给列索引(标签)改名字

  在这里插入图片描述

  给行索(标签)引改名字

  在这里插入图片描述

  在这里插入图片描述

  1.索引和切片

  获取指定的列

  或者

  获取多个列(通过花式索引)

  在这里插入图片描述

  获取行

  获取多个行(通过花式索引)

  在这里插入图片描述

  切片操作

  在这里插入图片描述

  在这里插入图片描述

  获取指定单元格的值

  修改单元格的值

  2.数据筛选

  布尔索引

  数据集:

  & – 与 – 而且

  | – 或 – 或者

  非 – 变反

  query()方法

  使用query方法通过指定的表达式筛选数据

  filter()方法

  数据准备

  筛选指定的列,类似于花式索引

  筛选以字母e结尾的列

  筛选以字母e结尾的行

  筛选行索引中有bbi的行

  补充:添加一列/行

  添加列

  添加一行:两种方式(列表,字典)

  随机抽样

  随机抽样(指定样本数量)

  随机抽样(指定样本的比例)

  练习:科比投篮数据分析

  数据准备

  科比使用得最多的投篮动作(action_type + combined_shot_type)是什么?

  科比职业生涯交手最多的队伍是哪支球队?

  科比职业生涯总得分(不包括罚篮)是多少?

  三. 重塑数据

  1.merge函数 (详细请看此网站)

  merge函数的参数

  left – 左表

  right – 右表

  how – 连接方式(inner / outer / left / right)

  on – 连表字段(left_on / right_on)

  获取数据:

  将学生表和学院表合并:

  练习1:查询学生的姓名、课程的名称和考试成绩。

  查询学生表

  查询记录表wps office 的官方的下载的网站怎么找

  查询课程表

  合表:

  选课记录表和学生表合并成临时表

  临时表和课程表合并

  提取结果:

  方法一:花式索引直接提取

  方法二:通过reindex调整索引获得需要的列

  output:

  练习2:查询每个学生的姓名和选课的数量。(连接时需要外连接,需要使用pd.groupby())

  先合表(student_df,record_df)外连接(因为有人没选课,使用内连接会导致改数据缺失),空值用0 填充 (否则计算课程数量时会导致数据缺失)

  分组求课程数量和

  2.concat函数

  用concat函数拼接多个DataFrame的数据

  ignore_index=True表示忽略原来的索引

  axis参数的默认值是0,表示在0轴上进行拼接

  数据准备:三个表

  小宝剑大药房(高新店)2018年销售数据

  表格 1购药时间社保卡号商品编码商品名称销售数量应收金额实收金额2018-03-05 星期六0010077400828236701清热解毒口服液12824.642018-03-07 星期一0010077400828236701清热解毒口服液51401122018-03-09 星期三0010079843728236701清热解毒口服液61681402018-03-15 星期二0010031328528236701清热解毒口服液25649.282018-03-15 星期二00100703428236701清热解毒口服液25649.282018-03-15 星期二0010712328236701清热解毒口服液51401122018-03-20 星期日0011668828236701清热解毒口服液61681402018-03-22 星期二0010066351928236701清热解毒口服液12828 小宝剑大药房(犀浦店)2018年销售数据

  表格 1购药时间社保卡号商品编码商品名称销售数量应收金额实收金额2018-04-07 星期四0011652628236701清热解毒口服液61681402018-04-13 星期三0011005128236701清热解毒口服液256562018-04-22 星期五0010344628236701清热解毒口服液61681402018-05-01 星期日0010070313828236701清热解毒口服液61681402018-05-05 星期四0010031328528236701清热解毒口服液51401122018-05-05 星期四0010070343428236701清热解毒口服液25649.282018-05-05 星期四0010073660228236701清热解毒口服液12824.64 小宝剑大药房(新津店)2018年销售数据

  表格 1购药时间社保卡号商品编码商品名称销售数量应收金额实收金额2018-01-01 星期五001616528236701强力VC银翘片682.8692018-01-02 星期六001616528236701清热解毒口服液12824.642018-01-06 星期三0012602828236701感康216.8152018-01-11 星期一0010070343428236701三九感冒灵128282018-01-15 星期五00101554328236701三九感冒灵82242082018-01-20 星期三0013389528236701三九感冒灵128282018-01-31 星期日00101464928236701三九感冒灵256562018-02-17 星期三0011177328236701三九感冒灵5149131.122018-02-22 星期一0010065687828236701三九感冒灵129.826.22 读取三个表中数据

  使用concat 将三个表的数据汇总为一个表

  方法一:

  购药时间社保卡号商品编码商品名称销售数量应收金额实收金额02018-03-05 星期六10077400828236701清热解毒口服液128.024.6412018-03-07 星期一10077400828236701清热解毒口服液5140.0112.0022018-03-09 星期三10079843728236701清热解毒口服液6168.0140.0032018-03-15 星期二10031328528236701清热解毒口服液256.049.2842018-03-15 星期二100703428236701清热解毒口服液256.049.2852018-03-15 星期二10712328236701清热解毒口服液5140.0112.0062018-03-20 星期日11668828236701清热解毒口服液6168.0140.0072018-03-22 星期二10066351928236701清热解毒口服液128.028.0082018-04-07 星期四11652628236701清热解毒口服液6168.0140.0092018-04-13 星期三11005128236701清热解毒口服液256.056.00102018-04-22 星期五10344628236701清热解毒口服液6168.0140.00112018-05-01 星期日10070313828236701清热解毒口服液6168.0140.00122018-05-05 星期四10031328528236701清热解毒口服液5140.0112.00132018-05-05 星期四10070343428236701清热解毒口服液256.049.28142018-05-05 星期四10073660228236701清热解毒口服液128.024.64152018-01-01 星期五1616528236701强力VC银翘片682.869.00162018-01-02 星期六1616528236701清热解毒口服液128.024.64172018-01-06 星期三12602828236701感康216.815.00182018-01-11 星期一10070343428236701三九感冒灵128.028.00192018-01-15 星期五101554328236701三九感冒灵8224.0208.00202018-01-20 星期三13389528236701三九感冒灵128.028.00212018-01-31 星期日101464928236701三九感冒灵256.056.00222018-02-17 星期三11177328236701三九感冒灵5149.0131.12232018-02-22 星期一10065687828236701三九感冒灵129.826.22

  方法二:这种方法更好(需要掌握)

  1.数据清洗

  数据准备

  df

  缺失值处理 —> dropna() / fillna()

  dropna() : 删除有缺失值的数据

  axis=0 —> 默认 —> 遇到空值就删除对应的行

  axis=1 —> 遇到空值就删除对应的列

  把DataFrame中所有的空值都处理成0

  只处理某一列的空值

  重复值处理 —> duplicated() / drop_duplicates()

  duplicated()方法会返回一系列的布尔值表示是否重复,True:无重复;False:有重复

  drop_duplicates可以删除重复值,默认保留第一项

  练习:找主管不包括老板(先获取mgr的索引(无重复),然后根据索引找到主管)

  1.获取mgr的索引

  方法一:unique()方法 先去掉空值,转成int类型,再去重

  方法二:drop_duplicates() 方法 先取mgr字段的值,再去重

  使用’keep’参数,重复值的选择行为

  可以改变。值’first’保留每一个的第一次出现

  重复条目的集合。keep的默认值是’first’

  方法三:先根据mgr字段对DataFrame做去重,然后再获取mgr字段的值

  方法四:(方法三的分解动作)

  先找到重复的元素,获取它们的索引

  根据重复元素的索引删除这些行,再获取不重复的数据

  2.用花式索引的方式找出主管

  异常值处理(用指定的值替换掉原来的值 replace())

  练习:

  读取2018年北京积分落户数据

  查看公司名字有“华为”的公司

  通过replace方法指定正则表达式将“北京华为技术研究所”和“华为技术北京研究所”统一替换为“华为”

  2.wps的的官网最新的下载的地方是多少数据删除

  使用drop方法删除指定的行或列

  index指定行索引,columns指定列索引

  删除行

  数据:

  方法一:根据index这一索引列来删除行(注意drop()中的inde是参数列索引 )

  方法二:根据eno删除列

  删除列

  用Python中删除字典键值对的方式删除列(注意删除后就真的删除了)

  或者:pop() 能达到同样的效果(注意删除后就真的删除了)

  或者:使用drop方法删除指定的行或列(注意删除后就真的删除了)

  output:

  在这里插入图片描述

  误删除后想要恢复index列

  reset_index()恢复列

  或者:直接添加一列,再通过reindex()调整列的顺序

  在这里插入图片描述

  3.数据转换

  apply() / transform() / applymap()方法

  关于apply()和applymap()方法的区别请看这里

  每个员工的工资增加1000元:(使用apply())

  数据准备:

  用开方乘以10的方法处理考试成绩:使用applymap()

  使用transform方法将多个函数作用到数据上

  字符串向量

  核心操作:拆分 / 合并 / 匹配 / 替换 / 抽取

  方法:大小写 / 转类型 / 格式化

  数据准备

  将数据序列中的字符串变成大写:

  通常方法:apply()

  字符串向量法:用字符串向量,再用字符串的相关方法解决

  output:

  0 APPLE

  1 PITAYA

  2 LITCHE

  3 DURIAN

  4 WAXBERRY

  5 BLUEBERRY

  dtype: object

  其他练习:

  补充:UUID方式产生数据ID的字段

  在很多商业项目中,数据库表的主键不能够使用自增长编号,因为在有并发insert操作时,自增长编号的方式会影响性能。所以,很多产品中会选择使用UUID(Universal Unique IDentifier)的方式来产生数据的ID字段。

  生成分布式环境(多机环境)下全局唯一标识符的算法比较多,现在的项目中用的比较多的Snowflake算法(雪花算法那)。

  练习:读取拉勾网上招聘数据,找出数据分析岗位的平均工资是多少?

  获取数据及查看信息:

  取前三个数据用来观察

  判断下_id列有无重复

  方法一,获取不重复的数据,再获取数据量的大小

  方法二:直接获取不重复的数据的数量

  第一列没有用,设置’_id’为索引

  筛选出数据分析的岗位:

  从工资中抽取出工资的下限值和上限值

  转成整数后,取上限值和下限值的平均值(axis=0),之后再取平均(axis=1)

  时间日期向量

  date, time, year, month, day, hour, minute, second, microsecond, nanosecond, dayofweek, dayofyear, weekofyear, daysinmonth, quarteris_xxxround() / ceil() / floor()

  数据准备:

  使用to_datetime()函数将字符串处理成时间日期

  通过时间日期向量获取年份和月份

  0 – 星期一, 1 – 星期二,……,6 – 星期日

  python datetime模块的datetime库

  将生日换算成年龄

  1.获取描述性统计信息

  练习1:计算每个城市的数据分析岗位平均薪资

  知识点:groupby()方法

  找到岗位名称的字符串向量中的包含‘数据分析’项的表

  在这里插入图片描述

  处理salary列,利用salary的str向量中的extract方法,通过正则表达式提取工资范围,求取均值作为新的salary列

  在这里插入图片描述

  根据城市分组,获取工资求均值

  画图:

  在这里插入图片描述

  plt.text() 常用参数说明:

  练习2:

  知识点:分组聚合操作(# SAC —> Split – Aggregate – Combine)

  数据准备:

  在这里插入图片描述

  数据替换(*处理数据常用方法,重要):

  统计男女学生的人数(用性别分组再使用count聚合)

  统计每个学院男女学生的人数(多级索引)

  此时该数据序列的索引为:

  使用agg()方法一次性执行多个聚合函数

  数据准备:

  enoenamejobmgrsalcommdno01359胡 一刀销售员3344.01800200.03012056乔 峰分析师7800.050001500.02023088李莫愁设计师2056.03500800.02033211张无忌程序员2056.032000.02043233丘 处机程序员2056.034000.02053244欧阳锋程序员3088.032000.02063251张翠山程序员2056.040000.02073344黄蓉销售主管7800.03000800.03083577杨过会计5566.022000.01093588朱九真会计5566.025000.010104466苗人凤销售员3344.025000.030115234郭靖出纳5566.020000.010125566宋远桥会计师7800.040001000.010137800张三丰总裁NaN90001200.020

  maxminmeanptpdno10400020002675.000000200020900032004471.428571580030300018002433.3333331200

  2.排序(sort_values() )和Top-N( nlargest() 和 nsmallest() )

  排序算法看这里

  排序:sort_values()

  enoenamejobmgrsalcommdno137800张三丰总裁NaN90001200.02012056乔 峰分析师7800.050001500.02063251张翠山程序员2056.040000.020125566宋远桥会计师7800.040001000.01023088李莫愁设计师2056.03500800.02043233丘 处机程序员2056.034000.02033211张无忌程序员2056.032000.02053244欧阳锋程序员3088.032000.02073344黄蓉销售主管7800.03000800.03093588朱九真会计5566.025000.010104466苗人凤销售员3344.025000.03083577杨过会计5566.022000.010115234郭靖出纳5566.020000.01001359胡 一刀销售员3344.01800200.030

  根据工资降序排列员工表获取前3名数据(这里使用 sort_values() )

  Top-N:nlargest()和nsmallest()

  透视表和交叉表

  透视表:(根据A统计B)它根据一个或多个键对数据进行聚合,并根据行和列上的分组键将数据分配到各个矩形区域中

  数据准备:

  类别品牌等级A组B组0手机华为A类121手机华为B类242手机华为A类253手机小米B类354手机小米C类365电脑华为A类466电脑华为B类587电脑小米C类698电脑小米A类79

  分组查看数据:

  在这里插入图片描述

  使用透视表查看数据:

  A组B组类别手机1122电脑2232

  透视表的另一种写法:

  在这里插入图片描述

  交叉表:是一种用于计算分组频率的特殊透视图,对数据进行汇总

  数据准备:wps 的官网最新的下载入口是多少

  类别产地名称数量价格0水果美国苹果55.81水果中国梨55.22水果中国草莓910.83蔬菜中国番茄33.54蔬菜新西兰黄瓜23.05肉类新西兰羊肉1013.16肉类美国牛肉820.5

  使用交叉表对数据进行汇总

  产地中国新西兰美国总计类别水果2013肉类0112蔬菜1102总计3227

  指定统计的值使用交叉表进行汇总

  产地中国新西兰美国总计类别水果140519肉类010818蔬菜3205总计17121342

  练习1:视频网站运营数据分析。

  找出点赞数在100000次以上的视频ID、标题和赞数

  数据准备:

  对上面的结果进行进行去重,并找出点赞数排前10名的视频信息

  首先判断重复数量:

  找到点赞数的前10名(nlargest() 或者 sort_values() + head():

  nlargest() 方法:

  sort_values() + head()方法:

  注意这里要先排序,否则可能会把数量大的排除

  video_idtitlelikes382737C2z4GqqS5EBTS (방탄소년단) ‘FAKE LOVE’ Official MV561382738547VYOjWnS4cMYChildish Gambino – This Is America (Official V…502345034708ffxKSjUwKdUAriana Grande – No Tears Left To Cry30940216181FlsCjmMhFmwYouTube Rewind: The Shape of 2017 | #YouTubeRe…30935443581kTlv5_Bs8awBTS (방탄소년단) ‘MIC Drop (Steve Aoki Remix)’ Offi…272929235080p8npDG2ulKQBTS (방탄소년단) LOVE YOURSELF 轉 Tear ‘Singularity’…270080022040OK3GJ0WIQ8sj-hope ‘Daydream (백일몽)’ MV267243149976ZfuNTqbHE8Marvel Studios’ Avengers: Infinity War Officia…262566139814aJOTlE1K90kMaroon 5 – Girls Like You ft. Cardi B24885652587TyHvyGVs42ULuis Fonsi, Demi Lovato – Échame La Culpa2376636

  根据频道对数据分组,统计出每个频道播放数、赞数、踩数和评论数各自的总和

  viewslikesdislikescomment_countchannel_title12 News856431704501MILLION Dance Studio1733477122066127685271theK (원더케이)703566670292084354977720th Century Fox48572239120401921395783372CELLOS20586911198120446……………ワーナー ブラザース 公式チャンネル755014156865581768圧倒的不審者の極み!29441973103782780杰威爾音樂 JVR Music9161284048510424746郭韋辰125944814영국남자 Korean Englishman5888201831725422142198 rows × 4 columns

  方法二:利用透视表做

  viewslikesdislikescomment_countchannel_title12 News856431704501MILLION Dance Studio1733477122066127685271theK (원더케이)703566670292084354977720th Century Fox48572239120401921395783372CELLOS20586911198120446……………ワーナー ブラザース 公式チャンネル755014156865581768圧倒的不審者の極み!29441973103782780杰威爾音樂 JVR Music9161284048510424746郭韋辰125944814영국남자 Korean Englishman5888201831725422142198 rows × 4 columns

  根据上面的结果找出热门频道(“播放数+赞数+评论数”总和最高的前10名)

  方法一:sort_values()

  方法二:

  结果:

  [‘ibighit’,

  ‘Dude Perfect’,

  ‘jypentertainment’,

  ‘Marvel Entertainment’,

  ‘TheEllenShow’,

  ‘Jimmy Kimmel Live’,

  ‘WWE’,

  ‘MalumaVEVO’,

  ‘Ed Sheeran’,

  ‘The Tonight Show Starring Jimmy Fallon’]

  练习2*:宽表和窄表的装换

  数据准备:

  useridusername01张三12李四23王五34赵大45孙二

  useridusernamemonthuseridye0一月份11一月份22一月份33二月份24二月份45三月份36三月份5

  useridusernamemonthye01张三一月份12李四一月份22李四二月份33王五一月份43王五三月份54赵大二月份65孙二三月份

  窄表变宽表

  month一月份三月份二月份username孙二060张三1000李四1008王五580赵大009

  调整列索引:

  month一月份二月份三月份username张三1000李四1080王五508赵大090孙二006

  monthusername一月份二月份三月份0张三10001李四10802王五5083赵大0904孙二006

  宽表变窄表

  usernamemonthye0张三一月份101李四一月份102王五一月份53李四二月份84赵大二月份95王五三月份86孙二三月份6

  数据分箱:将连续的数据分组到不同的箱子中(连续值的离散化)。

  数据准备:

  身高1001183.01002174.81003161.01004165.71005178.1……1496174.61497183.41498173.51499174.81500178.8500 rows × 1 columns

  身高[140, 145)0[145, 150)4[150, 155)10[155, 160)29[160, 165)79[165, 170)132[170, 175)111[175, 180)94[180, 185)28[185, 190)10[190, 195)2[195, 200)1Name: 身高, dtype: int64

  绘制直方图:

  在这里插入图片描述

  练习:2018年北京积分落户数据分析。

  1.按照公司对数据进行分组,统计每个组的人数并按照人数的降序排列

  2.按照落户积分将人员分组,统计每个组有多少人并绘制柱状图

  3.将出生日期转化成年龄,统计不同年龄段有多少人并绘制柱状图

  company

  北京华为数字技术有限公司 137

  中央电视台 73

  北京首钢建设集团有限公司 57

  百度在线网络技术(北京)有限公司 55

  联想(北京)有限公司 48

  中国民生银行股份有限公司 40

  北京外企人力资源服务有限公司 39

  国际商业机器(中国)投资有限公司 39

  中国国际技术智力合作有限公司 29

  华为技术有限公司北京研究所 27

  Name: name, dtype: int64

  北京华为数字技术有限公司 137

  中央电视台 73

  北京首钢建设集团有限公司 57

  百度在线网络技术(北京)有限公司 55

  联想(北京)有限公司 48

  …

  北京顶秀科技有限公司 1

  北京车客家园网络科技发展有限公司 1

  泛美(北京)生物制品有限公司 1

  北京携程国际旅行社有限公司 1

  北京中科物安科技有限公司 1

  Name: company, Length: 3430, dtype: int64

  在这里插入图片描述

  (32, 60)

  在这里插入图片描述