• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

R语言学习系列(概念理解1)

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

统计分析一般是针对批量数据,如何反映这批数据的特征,是做数据分析的根本目的,对于这些目标数据集合而言,类型其实是没有限制的,但为了能进行更好的分析,特别是利用数学的方法进行,一般都会将这些数据数字化和量化.因此一般情况下,我们统计分析的指标都可以定在数量上.那如何刻画这些数据的特征呢?

平均值: 这是最简单的一个指标,这个指标反映的是数据的平均水平或能力,其优点是简单易算,但缺点也很明显,一是不能反映数据的分布情况,二是真实度不高,很容易受到干扰数据的影响.一个典型的例子就是1个1000W,9个穷光蛋,平均下来各个都是王百万.

极值与极差:从极大值和极小值,我们可以看出数据的取值范围,也能反映数据的分布情况,不过对于整体数据的分布,极差并不能很准确的反映数据的真实分布,因为其受到个别数据的影响非常大,比如有1000个观察值,998个观察值都在50附近,有两个观察值一个是0,一个是100,就会造成极差非常大,

均差:平均值和极差都不能很好的反映数据的分布,要反映数据的分布,一个简单的方法是我们可以算算每个值与均值的差的绝对值的和,然后除以n,求出均差,这个概念可以在一定程度上反映数据的离散程度(差异程度).均差可以反映数据的离散程度,,但很难反映数据的分布偏好.

方差:每个观察值与均值之差的平方加起来然后除以值得数量n,但当用(1/n)[(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2]作为样本X的方差的估计时,发现其数学期望并不是X的方差,而是X方差的(n-1)/n倍,[1/(n-1)][(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2]的数学期望才是X的方差,用它作为X的方差的估计具有“无偏性”,所以我们总是用[1/(n-1)]∑(xi-X~)^2来估计X的方差..方差与均差一样也会存在不能反映真实数据的分布偏好的问题,同时受到观察异常值的影响也还是比较大.
标准差:等于方差的平方根,因此统计本质跟方差一样,但由于其结果相对于方差而言比较小,更有利于观察.同时也有利于计算n阶标准差的计算.

中位数,最大值,最小值,分位数:这些数字特征都是反映样本数据的一些直观特征.对于中位数,分位数都是顺序统计量,即样本数据必须是经过排序的.最大值和最小值最直观的意识是反映数据的范围.中位数和最大值和最小值结合,可以反映样本数据的偏度,特别是结合均值,可以反映样本数据的平衡性(偏度),中位数和平均值约接近,表示数据分布整体对称性越好.分位数是更一般的分位概念,中位数就是50%分位数.

以上的统计概念反映的基本都是样本数据的本身特征,是概率分布刻画的基本量.

 


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
R语言︱数据库SQL-R连接与SQL语句执行(RODBC、sqldf包)发布时间:2022-07-18
下一篇:
R语言学习——因子发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap