标签: wps官网最新的下载入口是多少

  • wps的的官网最新的下载网站是什么(wps下载电脑版链接打不开)

      图形表示:

      (1)条形图(Barplot):用于分类数据的探索性分析

      (2)直方图(Hist)、点图(Dotchart)、茎叶图(Stem):用于观察数值型分布的形状。

      (3)箱线图(Boxplot):给出数值型分布的汇总数据,

      适用于不同分布的比较,以及拖尾、截尾分布的识别。

      (4)正态概率图(Qqnorm):用于观察数据是否近似地服从正态分布。

      getwd()获取当前路径

      例 从某大学统计系的学生中随机抽取24人, 对数学和统计学的考试成绩进行调查,

      调查数据如表所示,试对这些学生的数学和统计学成绩进行探索性分析。

      在这里插入图片描述

      在这里插入图片描述

      在这里插入图片描述

      从茎叶图和直方图可以发现:

      数学和统计学两门课程成绩的分布都不是完全呈正态分布的

      为了方便比较两门课的成绩哪个更好?

      构造一个用于探索性分析的图形函数:EDA

      在这里插入图片描述

      由EDA函数得到的maths和stats的各种图像可知,

      数学和统计学两门课程的成绩分布比较接近。

      例1:某公司有14名工作人员的工资数据如下:

      在这里插入图片描述

      例2:某沿海发达城市一大型公司2005年66个总经理的年薪数据如下(单位万元),

      我们能对这些年薪数据的分布状况做什么样的分析。

      在这里插入图片描述

      从各种统计图可以看出,66个年薪数据呈现严重的偏态分布。

      对数据进行对数变换之后,再做探索性分析:

      在这里插入图片描述

      从数据变换之后的各分布图可知,分布图比较对称,

      说明原始数据近似服从对数正态分布。

      按照对事物测度的程度或精确水平,

      可将数据的计量尺度从低级到高级、由粗略到精确,划分为四种:

      分类数据、有序数据、区间数据、比例数据

      一般的,研究的目的和内容不同,计量尺度不同。

      不同类别的数据,使用的分析方法也不同。wps office 的官方下载的网站是多少

      具体分为:分类数据的探索性分析;

      数值型数据的探索性分析;

      离群值的探索性分析

      将取值范围是有限个值或是一个数列构成的变量,称为离散变量

      而表示分类情况的离散变量,称为分类变量。

      分类(变量)数据可以利用频数表、条形图、饼图等方式描述分析。

      1.1 分类频数表

      频数表可以描述一个分类变量的数值分布概况。

      可以使用table()命令生成分类频数表:

      table(x) #其中x是分类数据

      例1: 一个关于是否抽烟的调查数据为:是否否是是否否是是,

      生成该数据的频数表。

      在这里插入图片描述

      1.2 条形图(Barplot)

      条形图的高度可以是频数或频率,图的形状看起来一样,但是刻度不一样。

      画条形图的命令:

      barplot()

      注意:作分类数据的条形图时,需要先对原始数据分组。

      例1: 对一组25人的饮酒者所饮酒类进行调查

      将饮酒者按照红酒(1)、白酒(2)、黄酒(3)、啤酒(4)分成四类,

      调查数据如下:3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1

      在这里插入图片描述

      此时,条形的高度既不是频数,也不是频率。

      得到的图形不是分类数据条形图

      对分组后的drink数据画频数条形图:

      在这里插入图片描述

      #画四种酒类的频率条形图

      在这里插入图片描述

      1.3 饼图(Pie Graph)wps官网最新的下载入口是多少

      饼图,用于表示各类别某种特征的构成比情况,

      图形的总面积为100%,扇形面积的大小表示事物内部各组成部分所占的百分比。

      与条形图类似,画饼图前需要先对原始数据分组。

      饼图命令:

      pie()

      以上面的饮酒数据为例:

      在这里插入图片描述

      2.1 集中趋势和离散程度

      数值型数据,通常分析它的集中趋势和离散程度

      常用的统计量是:均值、中位数;方差、标准差

      命令分别为:mean()、median()、var()、sd() (考点)

      例 :一公司19名员工的月工资数据如下:

      2000,2100,2200,2300,2350,2450,2500 ,2700,2900,2850,3500,3800,2600,

      3000,3300,3200,4000,3100,4200

      分析其集中趋势和离散程度

      在这里插入图片描述

      另外,利用fivenum()可以对数值型数据五等分

      wps免费版下载的地址的方法在这里插入图片描述

      2.2 稳健的集中趋势和离散程度

      利用均值和方差描述集中趋势和离散程度,往往基于正态分布

      当数据不是正态分布(有长尾或异常值)时,均值和方差不能描述集中趋势和离wps 的官网最新下载的地址散程度

      例:在以上员工工资基础上,增加一个工资为15000元的经理工资数据,再求其均值,

      此时的均值的代表性就变小了。

      此时用中位数反映集中趋势更为合理,更稳健。

      也可以利用截尾均值

      去掉salarym.sort中的前端4个数据和尾端4个数据

      同理,方差和标准差对异常值WPS office官网下载的地址的方法也比较敏感。

      此时,可以利用稳健的四分位间距(IQR)和平均差(mad)来描述离散程度。

      #计算四分位间距(IQR),即:四分之三分位数与四分之一分位数之间的WPS office的官网最新下载的地址距离。

      平均差,又称绝对中位差,

      是指数据点到中位数的绝对偏差的中位数,实际上就是偏差的中位数,

      具体计算公式为:median(abs(d-median(d)))

      2.3 茎叶图

      我们知道,在绘制直方图时需要先对数据进行分组。

      当样本量较小时,直方图会损失部分信息。此时,用茎叶图(文本化图形)描述更精确。

      绘制茎叶图的代码是:

      stem()

      例:作salary和salarym的茎叶图

      在这里插入图片描述

      2.4 对数值型数据分组

      在对数值型数据进行分析时,通常需要分组

      分 WPS office官网最新的下载网站怎么找组的函数为:

      cut()

      例:对salary中的数据按20003000,30004000,4000以上,进行分组,并生成频数表:

      在这里插入图片描述

      2.5 直方图

      直方图,用于描述连续性变量的频数分布

      实际应用中,常用于考察变量是否服从某种分布类型。

      直方图中,各矩形的高度表示各组段的频数(或频率)

      各矩形的高度总和等于总频数(或等于1)

      绘制直方图的命令为

      hist(x)

      #默认为频数直方图

      如果要作频率直方图,设参数probability=T即可。

      绘制salary的直方图:

      在这里插入图片描述

      2.6 箱线图(Boxplot Graph)

      箱线图,适用于不同分布的比较,以及拖尾、截尾分布的识别。

      命令:boxplot()

      在这里插入图片描述

      箱线图,由一个箱子和两根引线组成

      分为垂直型、水平型

      下端(或左端)引线表示数据的最小值(除异常值外的)

      上端(或右端)引线表示数据的最大值(除异常值外的)

      箱子的下端(左端)为下四分位数

      箱子的上端(右端)为上四分位数

      箱子中间的线表示中位数

      2.7 密度函数线(Densitis)

      基于内置数据faithful中的变量eruptions(火山喷发时间)数据,作密度函数线:

      在这里插入图片描述

      #异常值:下四分位数-1.5IQR 以外的值

      #异常值:上四分位数+1.5IQR 以外的值

      异常值的检验方法:箱线图、Grubbs(格拉布斯)检验、Dixon’s Q(狄克逊Q)检验

      3.1 箱线图检验

      boxplot(salarym)

      #利用boxplot.stats()可以返回箱线图中的一些统计量

      boxplot.stats(salarym)

      3.2 Grubbs test(格拉布斯检验)

      Grubbs检验,用于探索来自正态总体的单变量数据的异常值

      Grubbs检验基于正态总体假设,即:

      在检验异常值之前,需要先检验数据的正态性

      R中outliers包是专门用于检验离群值的包

      Grubbs检验的命令:

      grubbs.test()

      利用该命令之前,需要先安装outliers包

      在这里插入图片描述

      #从检验结果来看,P值等于0.1881,大于0.05,不能拒绝原假设(H0:没有离群值)

      Grubbs检验每次只能检验一个离群值

      默认检验最大的一个值是离群值

      3.3 Dixon’s Q(狄克逊Q检验)

      命令是outliers包中的函数:

      dixon.test()

      在这里插入图片描述

      通常,需要分析两个变量数据之间的关系,如:

      身高与体重之间的关系;

      新药与旧药的比较;

      双变量有以下三种情况

      1.1 二维表

      table()函数可以将双变量分类数据转换为二维表形式

      例:一份调查10名学生是否抽烟、每天学习时间的数据,数据如表6-4所示,

      将两个变量的数据转换为二维表形式。

      在二维表中,通常计算某一数据占行、列汇总数的比例,或计算占总和的比例,

      也即是计算边缘概率

      计算这些比例的命令为:

      prop.table(x,margin)

      margin=1时,表示各数据占行汇总数的比例;

      margin=2时,表示各数据占列汇总数的比例;

      margin省略时,表示各数据占总和的比例。

      也可以利用apply()函数计算二维表中的边缘概率。

      apply函数:可以对矩阵、数据框、数组(二维、多维),

      按行或列进行循环计算,对子元素进行迭代,

      并把子元素以参数传递的形式给自定义的FUN函数中,

      并以返回计算结果。

      #apply()函数的调用格式为:

      x为数组、矩阵、数据框等;

      MARGIN,表示按行计算或按列计算,1表示按行,2表示按列;

      FUN,是自定义的调用函数。

      例:上面的例子中,可以首先定义一个概率函数,再用apply函数求边缘概率:

      1.2复式条形图

      复式条形图中,用等宽直条的长短表示相互独立的各指标数值大小,

      指标可以是连续型变量某个汇总指标,

      也可以是分类变量的频数或构成比。

      与单变量类似,做双变量的复式条形图也是 barplot()函数,

      在作条形图之前,需要先对数据进行分组。

      以上面的“是否吸烟与学习时间”分类数据为例,作条形图。

      在这里插入图片描述

      beside,为一个逻辑值,

      如果是TRUE,列被描绘成并列的条形。

      如果是FALSE,行被描绘成堆叠的条形,

      legend.text设置图例

      注意beside=F和T的区别

      在这里插入图片描述

      例:药物临床实验中,有实验组和对照组两组数据如下:

      实验组(试验后):5,5,5,13,7,11,11,9,8,9

      对照组(试验前):11,8,4,5,9,5,10,5,4,10

      比较两组数据之间的关系

      比较两个变量数据之间的关系,通常使用箱线图

      在这里插入图片描述

      可以发现,变量x呈左偏,变量y呈右偏

      在绘制以上变量的箱线图时,还可以将试验前和试验后的数据放在一组,

      然后另设一个虚拟变量。

      探索分析两个数值型变量的方法:

      (1)比较分布是否相同;

      (2)是否存在某种相关关系、回归关系。

      常用的探索方式:散点图、计算相关系数

      2.1 散点图

      例: 1985-2001年我国财政收入(y)和税收(x)数据如表6-5所示,WPS office电脑版的下载入口在哪里

      分析税收与财政收入之间的关系。

      在这里插入图片描述

      abline()函数用于在当前绘图中添加一条或多条直线。

      可以发现,各点大致分布在回归线的两边,表明x,y之间具有较强的线性关系。

      2.2 相关关系

      相关关系分为两大类:

      (1)确定关系:研究对象是确定现象非随机变量之间的关系

      如: 圆的周长:l=2πr

      (2)统计相关关系:研究对象是非确定现象随机变量间的关系

      如:家庭消费与收入、财富、年龄、消费观念等之间的关系

      考察统计依赖关系的方式:相关分析、回归分析

      相关分析的两个主要统计量:pearson相关系数、Spearman等级相关系数

      pearson相关系数r:反映两个变量之间的线性相关关系,取值在区间[-1,1]内。

      -1<r<0:变量间呈负线性相关,越接近-1,负相关性越强,

      r=-1,表示呈完全负线性相关。

      0<r<1:变量间呈正线性相关,越接近1,正相关性越强,

      r=1,表示呈完全正线性相关。

      Spearman等级相关系数r:反映两个变量之间的等级(秩)相关程度,取值在区间[-1,1]内。

      -1<r<0:变量间具有负等级相关,越接近-1,负等级相关性越强,

      r=-1,表示具有完全负等级相关。

      0<r<1:变量间具有正等级相关,越接近1,正等级相关性越强,

      r=1,表示具有完全正等级相关。

      计算相关系数的函数是:

      以上面的财政收入y和税收x两个变量数据为例,求两种相关系数:

      在这里插入图片描述

      因为Spearman相关是一种秩相关,计算时可以先计算各变量数据的秩,

      然后计算他们的pearson相关系数。