图形表示:
(1)条形图(Barplot):用于分类数据的探索性分析
(2)直方图(Hist)、点图(Dotchart)、茎叶图(Stem):用于观察数值型分布的形状。
(3)箱线图(Boxplot):给出数值型分布的汇总数据,
适用于不同分布的比较,以及拖尾、截尾分布的识别。
(4)正态概率图(Qqnorm):用于观察数据是否近似地服从正态分布。
getwd()获取当前路径
例 从某大学统计系的学生中随机抽取24人, 对数学和统计学的考试成绩进行调查,
调查数据如表所示,试对这些学生的数学和统计学成绩进行探索性分析。
从茎叶图和直方图可以发现:
数学和统计学两门课程成绩的分布都不是完全呈正态分布的
为了方便比较两门课的成绩哪个更好?
构造一个用于探索性分析的图形函数:EDA
由EDA函数得到的maths和stats的各种图像可知,
数学和统计学两门课程的成绩分布比较接近。
例1:某公司有14名工作人员的工资数据如下:
例2:某沿海发达城市一大型公司2005年66个总经理的年薪数据如下(单位万元),
我们能对这些年薪数据的分布状况做什么样的分析。
从各种统计图可以看出,66个年薪数据呈现严重的偏态分布。
对数据进行对数变换之后,再做探索性分析:
从数据变换之后的各分布图可知,分布图比较对称,
说明原始数据近似服从对数正态分布。
按照对事物测度的程度或精确水平,
可将数据的计量尺度从低级到高级、由粗略到精确,划分为四种:
分类数据、有序数据、区间数据、比例数据
一般的,研究的目的和内容不同,计量尺度不同。
不同类别的数据,使用的分析方法也不同。wps office 的官方下载的网站是多少
具体分为:分类数据的探索性分析;
数值型数据的探索性分析;
离群值的探索性分析
将取值范围是有限个值或是一个数列构成的变量,称为离散变量
而表示分类情况的离散变量,称为分类变量。
分类(变量)数据可以利用频数表、条形图、饼图等方式描述分析。
1.1 分类频数表
频数表可以描述一个分类变量的数值分布概况。
可以使用table()命令生成分类频数表:
table(x) #其中x是分类数据
例1: 一个关于是否抽烟的调查数据为:是否否是是否否是是,
生成该数据的频数表。
1.2 条形图(Barplot)
条形图的高度可以是频数或频率,图的形状看起来一样,但是刻度不一样。
画条形图的命令:
barplot()
注意:作分类数据的条形图时,需要先对原始数据分组。
例1: 对一组25人的饮酒者所饮酒类进行调查
将饮酒者按照红酒(1)、白酒(2)、黄酒(3)、啤酒(4)分成四类,
调查数据如下:3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1
此时,条形的高度既不是频数,也不是频率。
得到的图形不是分类数据条形图
对分组后的drink数据画频数条形图:
#画四种酒类的频率条形图
1.3 饼图(Pie Graph)wps官网最新的下载入口是多少
饼图,用于表示各类别某种特征的构成比情况,
图形的总面积为100%,扇形面积的大小表示事物内部各组成部分所占的百分比。
与条形图类似,画饼图前需要先对原始数据分组。
饼图命令:
pie()
以上面的饮酒数据为例:
2.1 集中趋势和离散程度
数值型数据,通常分析它的集中趋势和离散程度
常用的统计量是:均值、中位数;方差、标准差
命令分别为:mean()、median()、var()、sd() (考点)
例 :一公司19名员工的月工资数据如下:
2000,2100,2200,2300,2350,2450,2500 ,2700,2900,2850,3500,3800,2600,
3000,3300,3200,4000,3100,4200
分析其集中趋势和离散程度
另外,利用fivenum()可以对数值型数据五等分
wps免费版下载的地址的方法
2.2 稳健的集中趋势和离散程度
利用均值和方差描述集中趋势和离散程度,往往基于正态分布
当数据不是正态分布(有长尾或异常值)时,均值和方差不能描述集中趋势和离wps 的官网最新下载的地址散程度
例:在以上员工工资基础上,增加一个工资为15000元的经理工资数据,再求其均值,
此时的均值的代表性就变小了。
此时用中位数反映集中趋势更为合理,更稳健。
也可以利用截尾均值
去掉salarym.sort中的前端4个数据和尾端4个数据
同理,方差和标准差对异常值WPS office官网下载的地址的方法也比较敏感。
此时,可以利用稳健的四分位间距(IQR)和平均差(mad)来描述离散程度。
#计算四分位间距(IQR),即:四分之三分位数与四分之一分位数之间的WPS office的官网最新下载的地址距离。
平均差,又称绝对中位差,
是指数据点到中位数的绝对偏差的中位数,实际上就是偏差的中位数,
具体计算公式为:median(abs(d-median(d)))
2.3 茎叶图
我们知道,在绘制直方图时需要先对数据进行分组。
当样本量较小时,直方图会损失部分信息。此时,用茎叶图(文本化图形)描述更精确。
绘制茎叶图的代码是:
stem()
例:作salary和salarym的茎叶图
2.4 对数值型数据分组
在对数值型数据进行分析时,通常需要分组
分 WPS office官网最新的下载网站怎么找组的函数为:
cut()
例:对salary中的数据按20003000,30004000,4000以上,进行分组,并生成频数表:
2.5 直方图
直方图,用于描述连续性变量的频数分布
实际应用中,常用于考察变量是否服从某种分布类型。
直方图中,各矩形的高度表示各组段的频数(或频率)
各矩形的高度总和等于总频数(或等于1)
绘制直方图的命令为
hist(x)
#默认为频数直方图
如果要作频率直方图,设参数probability=T即可。
绘制salary的直方图:
2.6 箱线图(Boxplot Graph)
箱线图,适用于不同分布的比较,以及拖尾、截尾分布的识别。
命令:boxplot()
箱线图,由一个箱子和两根引线组成
分为垂直型、水平型
下端(或左端)引线表示数据的最小值(除异常值外的)
上端(或右端)引线表示数据的最大值(除异常值外的)
箱子的下端(左端)为下四分位数
箱子的上端(右端)为上四分位数
箱子中间的线表示中位数
2.7 密度函数线(Densitis)
基于内置数据faithful中的变量eruptions(火山喷发时间)数据,作密度函数线:
#异常值:下四分位数-1.5IQR 以外的值
#异常值:上四分位数+1.5IQR 以外的值
异常值的检验方法:箱线图、Grubbs(格拉布斯)检验、Dixon’s Q(狄克逊Q)检验
3.1 箱线图检验
boxplot(salarym)
#利用boxplot.stats()可以返回箱线图中的一些统计量
boxplot.stats(salarym)
3.2 Grubbs test(格拉布斯检验)
Grubbs检验,用于探索来自正态总体的单变量数据的异常值
Grubbs检验基于正态总体假设,即:
在检验异常值之前,需要先检验数据的正态性
R中outliers包是专门用于检验离群值的包
Grubbs检验的命令:
grubbs.test()
利用该命令之前,需要先安装outliers包
#从检验结果来看,P值等于0.1881,大于0.05,不能拒绝原假设(H0:没有离群值)
Grubbs检验每次只能检验一个离群值
默认检验最大的一个值是离群值
3.3 Dixon’s Q(狄克逊Q检验)
命令是outliers包中的函数:
dixon.test()
通常,需要分析两个变量数据之间的关系,如:
身高与体重之间的关系;
新药与旧药的比较;
双变量有以下三种情况
1.1 二维表
table()函数可以将双变量分类数据转换为二维表形式
例:一份调查10名学生是否抽烟、每天学习时间的数据,数据如表6-4所示,
将两个变量的数据转换为二维表形式。
在二维表中,通常计算某一数据占行、列汇总数的比例,或计算占总和的比例,
也即是计算边缘概率
计算这些比例的命令为:
prop.table(x,margin)
margin=1时,表示各数据占行汇总数的比例;
margin=2时,表示各数据占列汇总数的比例;
margin省略时,表示各数据占总和的比例。
也可以利用apply()函数计算二维表中的边缘概率。
apply函数:可以对矩阵、数据框、数组(二维、多维),
按行或列进行循环计算,对子元素进行迭代,
并把子元素以参数传递的形式给自定义的FUN函数中,
并以返回计算结果。
#apply()函数的调用格式为:
x为数组、矩阵、数据框等;
MARGIN,表示按行计算或按列计算,1表示按行,2表示按列;
FUN,是自定义的调用函数。
例:上面的例子中,可以首先定义一个概率函数,再用apply函数求边缘概率:
1.2复式条形图
复式条形图中,用等宽直条的长短表示相互独立的各指标数值大小,
指标可以是连续型变量某个汇总指标,
也可以是分类变量的频数或构成比。
与单变量类似,做双变量的复式条形图也是 barplot()函数,
在作条形图之前,需要先对数据进行分组。
以上面的“是否吸烟与学习时间”分类数据为例,作条形图。
beside,为一个逻辑值,
如果是TRUE,列被描绘成并列的条形。
如果是FALSE,行被描绘成堆叠的条形,
legend.text设置图例
注意beside=F和T的区别
例:药物临床实验中,有实验组和对照组两组数据如下:
实验组(试验后):5,5,5,13,7,11,11,9,8,9
对照组(试验前):11,8,4,5,9,5,10,5,4,10
比较两组数据之间的关系
比较两个变量数据之间的关系,通常使用箱线图
可以发现,变量x呈左偏,变量y呈右偏
在绘制以上变量的箱线图时,还可以将试验前和试验后的数据放在一组,
然后另设一个虚拟变量。
探索分析两个数值型变量的方法:
(1)比较分布是否相同;
(2)是否存在某种相关关系、回归关系。
常用的探索方式:散点图、计算相关系数
2.1 散点图
例: 1985-2001年我国财政收入(y)和税收(x)数据如表6-5所示,WPS office电脑版的下载入口在哪里
分析税收与财政收入之间的关系。
abline()函数用于在当前绘图中添加一条或多条直线。
可以发现,各点大致分布在回归线的两边,表明x,y之间具有较强的线性关系。
2.2 相关关系
相关关系分为两大类:
(1)确定关系:研究对象是确定现象非随机变量之间的关系
如: 圆的周长:l=2πr
(2)统计相关关系:研究对象是非确定现象随机变量间的关系
如:家庭消费与收入、财富、年龄、消费观念等之间的关系
考察统计依赖关系的方式:相关分析、回归分析
相关分析的两个主要统计量:pearson相关系数、Spearman等级相关系数
pearson相关系数r:反映两个变量之间的线性相关关系,取值在区间[-1,1]内。
-1<r<0:变量间呈负线性相关,越接近-1,负相关性越强,
r=-1,表示呈完全负线性相关。
0<r<1:变量间呈正线性相关,越接近1,正相关性越强,
r=1,表示呈完全正线性相关。
Spearman等级相关系数r:反映两个变量之间的等级(秩)相关程度,取值在区间[-1,1]内。
-1<r<0:变量间具有负等级相关,越接近-1,负等级相关性越强,
r=-1,表示具有完全负等级相关。
0<r<1:变量间具有正等级相关,越接近1,正等级相关性越强,
r=1,表示具有完全正等级相关。
计算相关系数的函数是:
以上面的财政收入y和税收x两个变量数据为例,求两种相关系数:
因为Spearman相关是一种秩相关,计算时可以先计算各变量数据的秩,
然后计算他们的pearson相关系数。