wps的的官网最新的下载网站是什么(wps下载电脑版链接打不开)

  图形表示:

  (1)条形图(Barplot):用于分类数据的探索性分析

  (2)直方图(Hist)、点图(Dotchart)、茎叶图(Stem):用于观察数值型分布的形状。

  (3)箱线图(Boxplot):给出数值型分布的汇总数据,

  适用于不同分布的比较,以及拖尾、截尾分布的识别。

  (4)正态概率图(Qqnorm):用于观察数据是否近似地服从正态分布。

  getwd()获取当前路径

  例 从某大学统计系的学生中随机抽取24人, 对数学和统计学的考试成绩进行调查,

  调查数据如表所示,试对这些学生的数学和统计学成绩进行探索性分析。

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  从茎叶图和直方图可以发现:

  数学和统计学两门课程成绩的分布都不是完全呈正态分布的

  为了方便比较两门课的成绩哪个更好?

  构造一个用于探索性分析的图形函数:EDA

  在这里插入图片描述

  由EDA函数得到的maths和stats的各种图像可知,

  数学和统计学两门课程的成绩分布比较接近。

  例1:某公司有14名工作人员的工资数据如下:

  在这里插入图片描述

  例2:某沿海发达城市一大型公司2005年66个总经理的年薪数据如下(单位万元),

  我们能对这些年薪数据的分布状况做什么样的分析。

  在这里插入图片描述

  从各种统计图可以看出,66个年薪数据呈现严重的偏态分布。

  对数据进行对数变换之后,再做探索性分析:

  在这里插入图片描述

  从数据变换之后的各分布图可知,分布图比较对称,

  说明原始数据近似服从对数正态分布。

  按照对事物测度的程度或精确水平,

  可将数据的计量尺度从低级到高级、由粗略到精确,划分为四种:

  分类数据、有序数据、区间数据、比例数据

  一般的,研究的目的和内容不同,计量尺度不同。

  不同类别的数据,使用的分析方法也不同。wps office 的官方下载的网站是多少

  具体分为:分类数据的探索性分析;

  数值型数据的探索性分析;

  离群值的探索性分析

  将取值范围是有限个值或是一个数列构成的变量,称为离散变量

  而表示分类情况的离散变量,称为分类变量。

  分类(变量)数据可以利用频数表、条形图、饼图等方式描述分析。

  1.1 分类频数表

  频数表可以描述一个分类变量的数值分布概况。

  可以使用table()命令生成分类频数表:

  table(x) #其中x是分类数据

  例1: 一个关于是否抽烟的调查数据为:是否否是是否否是是,

  生成该数据的频数表。

  在这里插入图片描述

  1.2 条形图(Barplot)

  条形图的高度可以是频数或频率,图的形状看起来一样,但是刻度不一样。

  画条形图的命令:

  barplot()

  注意:作分类数据的条形图时,需要先对原始数据分组。

  例1: 对一组25人的饮酒者所饮酒类进行调查

  将饮酒者按照红酒(1)、白酒(2)、黄酒(3)、啤酒(4)分成四类,

  调查数据如下:3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1

  在这里插入图片描述

  此时,条形的高度既不是频数,也不是频率。

  得到的图形不是分类数据条形图

  对分组后的drink数据画频数条形图:

  在这里插入图片描述

  #画四种酒类的频率条形图

  在这里插入图片描述

  1.3 饼图(Pie Graph)wps官网最新的下载入口是多少

  饼图,用于表示各类别某种特征的构成比情况,

  图形的总面积为100%,扇形面积的大小表示事物内部各组成部分所占的百分比。

  与条形图类似,画饼图前需要先对原始数据分组。

  饼图命令:

  pie()

  以上面的饮酒数据为例:

  在这里插入图片描述

  2.1 集中趋势和离散程度

  数值型数据,通常分析它的集中趋势和离散程度

  常用的统计量是:均值、中位数;方差、标准差

  命令分别为:mean()、median()、var()、sd() (考点)

  例 :一公司19名员工的月工资数据如下:

  2000,2100,2200,2300,2350,2450,2500 ,2700,2900,2850,3500,3800,2600,

  3000,3300,3200,4000,3100,4200

  分析其集中趋势和离散程度

  在这里插入图片描述

  另外,利用fivenum()可以对数值型数据五等分

  wps免费版下载的地址的方法在这里插入图片描述

  2.2 稳健的集中趋势和离散程度

  利用均值和方差描述集中趋势和离散程度,往往基于正态分布

  当数据不是正态分布(有长尾或异常值)时,均值和方差不能描述集中趋势和离wps 的官网最新下载的地址散程度

  例:在以上员工工资基础上,增加一个工资为15000元的经理工资数据,再求其均值,

  此时的均值的代表性就变小了。

  此时用中位数反映集中趋势更为合理,更稳健。

  也可以利用截尾均值

  去掉salarym.sort中的前端4个数据和尾端4个数据

  同理,方差和标准差对异常值WPS office官网下载的地址的方法也比较敏感。

  此时,可以利用稳健的四分位间距(IQR)和平均差(mad)来描述离散程度。

  #计算四分位间距(IQR),即:四分之三分位数与四分之一分位数之间的WPS office的官网最新下载的地址距离。

  平均差,又称绝对中位差,

  是指数据点到中位数的绝对偏差的中位数,实际上就是偏差的中位数,

  具体计算公式为:median(abs(d-median(d)))

  2.3 茎叶图

  我们知道,在绘制直方图时需要先对数据进行分组。

  当样本量较小时,直方图会损失部分信息。此时,用茎叶图(文本化图形)描述更精确。

  绘制茎叶图的代码是:

  stem()

  例:作salary和salarym的茎叶图

  在这里插入图片描述

  2.4 对数值型数据分组

  在对数值型数据进行分析时,通常需要分组

  分 WPS office官网最新的下载网站怎么找组的函数为:

  cut()

  例:对salary中的数据按20003000,30004000,4000以上,进行分组,并生成频数表:

  在这里插入图片描述

  2.5 直方图

  直方图,用于描述连续性变量的频数分布

  实际应用中,常用于考察变量是否服从某种分布类型。

  直方图中,各矩形的高度表示各组段的频数(或频率)

  各矩形的高度总和等于总频数(或等于1)

  绘制直方图的命令为

  hist(x)

  #默认为频数直方图

  如果要作频率直方图,设参数probability=T即可。

  绘制salary的直方图:

  在这里插入图片描述

  2.6 箱线图(Boxplot Graph)

  箱线图,适用于不同分布的比较,以及拖尾、截尾分布的识别。

  命令:boxplot()

  在这里插入图片描述

  箱线图,由一个箱子和两根引线组成

  分为垂直型、水平型

  下端(或左端)引线表示数据的最小值(除异常值外的)

  上端(或右端)引线表示数据的最大值(除异常值外的)

  箱子的下端(左端)为下四分位数

  箱子的上端(右端)为上四分位数

  箱子中间的线表示中位数

  2.7 密度函数线(Densitis)

  基于内置数据faithful中的变量eruptions(火山喷发时间)数据,作密度函数线:

  在这里插入图片描述

  #异常值:下四分位数-1.5IQR 以外的值

  #异常值:上四分位数+1.5IQR 以外的值

  异常值的检验方法:箱线图、Grubbs(格拉布斯)检验、Dixon’s Q(狄克逊Q)检验

  3.1 箱线图检验

  boxplot(salarym)

  #利用boxplot.stats()可以返回箱线图中的一些统计量

  boxplot.stats(salarym)

  3.2 Grubbs test(格拉布斯检验)

  Grubbs检验,用于探索来自正态总体的单变量数据的异常值

  Grubbs检验基于正态总体假设,即:

  在检验异常值之前,需要先检验数据的正态性

  R中outliers包是专门用于检验离群值的包

  Grubbs检验的命令:

  grubbs.test()

  利用该命令之前,需要先安装outliers包

  在这里插入图片描述

  #从检验结果来看,P值等于0.1881,大于0.05,不能拒绝原假设(H0:没有离群值)

  Grubbs检验每次只能检验一个离群值

  默认检验最大的一个值是离群值

  3.3 Dixon’s Q(狄克逊Q检验)

  命令是outliers包中的函数:

  dixon.test()

  在这里插入图片描述

  通常,需要分析两个变量数据之间的关系,如:

  身高与体重之间的关系;

  新药与旧药的比较;

  双变量有以下三种情况

  1.1 二维表

  table()函数可以将双变量分类数据转换为二维表形式

  例:一份调查10名学生是否抽烟、每天学习时间的数据,数据如表6-4所示,

  将两个变量的数据转换为二维表形式。

  在二维表中,通常计算某一数据占行、列汇总数的比例,或计算占总和的比例,

  也即是计算边缘概率

  计算这些比例的命令为:

  prop.table(x,margin)

  margin=1时,表示各数据占行汇总数的比例;

  margin=2时,表示各数据占列汇总数的比例;

  margin省略时,表示各数据占总和的比例。

  也可以利用apply()函数计算二维表中的边缘概率。

  apply函数:可以对矩阵、数据框、数组(二维、多维),

  按行或列进行循环计算,对子元素进行迭代,

  并把子元素以参数传递的形式给自定义的FUN函数中,

  并以返回计算结果。

  #apply()函数的调用格式为:

  x为数组、矩阵、数据框等;

  MARGIN,表示按行计算或按列计算,1表示按行,2表示按列;

  FUN,是自定义的调用函数。

  例:上面的例子中,可以首先定义一个概率函数,再用apply函数求边缘概率:

  1.2复式条形图

  复式条形图中,用等宽直条的长短表示相互独立的各指标数值大小,

  指标可以是连续型变量某个汇总指标,

  也可以是分类变量的频数或构成比。

  与单变量类似,做双变量的复式条形图也是 barplot()函数,

  在作条形图之前,需要先对数据进行分组。

  以上面的“是否吸烟与学习时间”分类数据为例,作条形图。

  在这里插入图片描述

  beside,为一个逻辑值,

  如果是TRUE,列被描绘成并列的条形。

  如果是FALSE,行被描绘成堆叠的条形,

  legend.text设置图例

  注意beside=F和T的区别

  在这里插入图片描述

  例:药物临床实验中,有实验组和对照组两组数据如下:

  实验组(试验后):5,5,5,13,7,11,11,9,8,9

  对照组(试验前):11,8,4,5,9,5,10,5,4,10

  比较两组数据之间的关系

  比较两个变量数据之间的关系,通常使用箱线图

  在这里插入图片描述

  可以发现,变量x呈左偏,变量y呈右偏

  在绘制以上变量的箱线图时,还可以将试验前和试验后的数据放在一组,

  然后另设一个虚拟变量。

  探索分析两个数值型变量的方法:

  (1)比较分布是否相同;

  (2)是否存在某种相关关系、回归关系。

  常用的探索方式:散点图、计算相关系数

  2.1 散点图

  例: 1985-2001年我国财政收入(y)和税收(x)数据如表6-5所示,WPS office电脑版的下载入口在哪里

  分析税收与财政收入之间的关系。

  在这里插入图片描述

  abline()函数用于在当前绘图中添加一条或多条直线。

  可以发现,各点大致分布在回归线的两边,表明x,y之间具有较强的线性关系。

  2.2 相关关系

  相关关系分为两大类:

  (1)确定关系:研究对象是确定现象非随机变量之间的关系

  如: 圆的周长:l=2πr

  (2)统计相关关系:研究对象是非确定现象随机变量间的关系

  如:家庭消费与收入、财富、年龄、消费观念等之间的关系

  考察统计依赖关系的方式:相关分析、回归分析

  相关分析的两个主要统计量:pearson相关系数、Spearman等级相关系数

  pearson相关系数r:反映两个变量之间的线性相关关系,取值在区间[-1,1]内。

  -1<r<0:变量间呈负线性相关,越接近-1,负相关性越强,

  r=-1,表示呈完全负线性相关。

  0<r<1:变量间呈正线性相关,越接近1,正相关性越强,

  r=1,表示呈完全正线性相关。

  Spearman等级相关系数r:反映两个变量之间的等级(秩)相关程度,取值在区间[-1,1]内。

  -1<r<0:变量间具有负等级相关,越接近-1,负等级相关性越强,

  r=-1,表示具有完全负等级相关。

  0<r<1:变量间具有正等级相关,越接近1,正等级相关性越强,

  r=1,表示具有完全正等级相关。

  计算相关系数的函数是:

  以上面的财政收入y和税收x两个变量数据为例,求两种相关系数:

  在这里插入图片描述

  因为Spearman相关是一种秩相关,计算时可以先计算各变量数据的秩,

  然后计算他们的pearson相关系数。