R语言学习系列(概念理解1)

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程› R语言›R语言教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

统计分析一般是针对批量数据,如何反映这批数据的特征,是做数据分析的根本目的,对于这些目标数据集合而言,类型其实是没有限制的,但为了能进行更好的分析,特别是利用数学的方法进行,一般都会将这些数据数字化和量化.因此一般情况下,我们统计分析的指标都可以定在数量上.那如何刻画这些数据的特征呢?

平均值: 这是最简单的一个指标,这个指标反映的是数据的平均水平或能力,其优点是简单易算,但缺点也很明显,一是不能反映数据的分布情况,二是真实度不高,很容易受到干扰数据的影响.一个典型的例子就是1个1000W,9个穷光蛋,平均下来各个都是王百万.

极值与极差:从极大值和极小值,我们可以看出数据的取值范围,也能反映数据的分布情况,不过对于整体数据的分布,极差并不能很准确的反映数据的真实分布,因为其受到个别数据的影响非常大,比如有1000个观察值,998个观察值都在50附近,有两个观察值一个是0,一个是100,就会造成极差非常大,

均差:平均值和极差都不能很好的反映数据的分布,要反映数据的分布,一个简单的方法是我们可以算算每个值与均值的差的绝对值的和,然后除以n,求出均差,这个概念可以在一定程度上反映数据的离散程度(差异程度).均差可以反映数据的离散程度,,但很难反映数据的分布偏好.

方差:每个观察值与均值之差的平方加起来然后除以值得数量n,但当用(1/n)[(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2]作为样本X的方差的估计时，发现其数学期望并不是X的方差，而是X方差的(n-1)/n倍，[1/(n-1)][(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2]的数学期望才是X的方差，用它作为X的方差的估计具有“无偏性”，所以我们总是用[1/(n-1)]∑(xi-X~)^2来估计X的方差..方差与均差一样也会存在不能反映真实数据的分布偏好的问题,同时受到观察异常值的影响也还是比较大.
标准差:等于方差的平方根,因此统计本质跟方差一样,但由于其结果相对于方差而言比较小,更有利于观察.同时也有利于计算n阶标准差的计算.

中位数，最大值，最小值，分位数：这些数字特征都是反映样本数据的一些直观特征.对于中位数,分位数都是顺序统计量,即样本数据必须是经过排序的.最大值和最小值最直观的意识是反映数据的范围.中位数和最大值和最小值结合,可以反映样本数据的偏度,特别是结合均值,可以反映样本数据的平衡性(偏度),中位数和平均值约接近,表示数据分布整体对称性越好.分位数是更一般的分位概念,中位数就是50%分位数.

以上的统计概念反映的基本都是样本数据的本身特征,是概率分布刻画的基本量.