• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

R语言:关于我国各地区消费水平的聚类分析

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

一、研究方法

此次研究中主要用的是系统聚类法与K-means聚类法。
系统聚类可以对变量或样品进行聚类,变量可以为连续或分离变量,提供的距离测量方法和结果表示也非常丰富。该方法的原理是先将所有n个变量或观测看成不同的n类,然后将性质最接近的两类合并为一类;再从这n-1类中找到最接近的两类加以合并,以此类推,直到所有的变量或观测被合为一类。
K-means聚类需要先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。

二、实证分析

数据来源

地区居民消费水平差异的测度方法有单一指标法和综合指标法2种方法.居民消费水平不仅仅体现在人均消费性支出等单一指标,居民生活消费的各个具体指标等也是居民消费水平的重要体现.因此,文章选择综合法分析我国城镇居民消费水平的差异,以我国31个省市为研究对象,以中国统计年鉴2005年的各地区城镇居民家庭平均每人全年消费性支出统计数据为基础,选取食品、衣着、家庭设备用品及服务、医疗保健、交通和通信、教育文化、居住娱乐服务、杂项商品和服务等8个方面的指标,构建聚类分析模型。

模型构建

数据文件的建立

导入数据并查询数据结构

根据上图可以看出此次聚类的数据结构,除“地区”数据之外,其余数据全为数值型数据

汇总变量信息

由上图可以看出各个变量的最小值,第一四分位数,中位数,均值,第三四分位数与最大值。

数据预处理

需要提取聚类的变量

由上图可以看到此次需要用到的聚类变量。

判断是否存在缺失值

由上图可以看出此次选取的数据不存在缺失值,因此不需要在进行缺失值处理,但需要进一步判断是否存在较多的异常值

判断是否存在异常值

由上图各变量的折线图可以看出各个变量变化较为平稳,无较大的波动和异常值情况。

由各变量箱线图可以看出,此次选用的数据存在部分的异常值,但异常值较少,可以接受并进行聚类分析。

数据挖掘

系统聚类:

通过计算变量间的“欧氏距离”,利用“重心法”计算观测点与小类间的距离,进行系统聚类。

上图为系统聚类的谱系图,由谱系图可以看出分三类比较合适,其中,上海、广东、北京、浙江地区为第一类;海南、云南、安徽、陕西、内蒙古、吉林、甘肃、新疆、河北、青海、宁夏、河南、山西、黑龙江、湖北、江西、贵州、山东、湖南、辽宁、广西、四川、天津、福建、江苏、重庆地区为第二类;西藏地区为第三类。

由上图可以看出随着聚类数目的不断减少,最小类间距离不断增大。当聚类数目达成3类之后,最小类间距离的变化幅度很大,说明类间的差异较大,不应再继续合并。所以,根据碎石图粗略判断聚成3类较为合适

通过计算可以的出聚类为三类,第一类为4个地区,第二类为26个地区,第三类为1个地区。

上图为聚类的聚类解,可以看出系统聚类将数据分为三类以及各地区的类别。

数据解读:
在系统聚类分析中,将数据分为了3类,各类样本量依次为4,26,1。第一类地区消费支出最大,其次为第二类,第三类地区消费支出最少。
即第一类总体消费区间为(11809.87,13773.41),第二类总体消费区间为(5928.79,9653.26),第三类总体消费为8617.11。

K-means聚类:

经过初步的系统聚类可以得出将数据分为三类,为了更地对比两种聚类方法的差异,在进行K-means聚类时,将初步指定聚类个数为3类。

通过K-means聚类可以得出将数据分为三类,第一类为4个地区,第二类为5个地区,第三类为22个地区。

上图的数据为聚类的结果,可以看出每一个变量的聚类中心。

上图为聚类的聚类解,可以看出K-means聚类将数据分为三类以及各地区的类别。

上图为各类聚类变量均值的变化折线图,可以从图中看出第三类地区的消费水平小于第二类地区小于第一类地区,说明我国东部沿海地区以及少数中西部地区的消费水平较高,而大部分中西部地区的经济消费水平较低,存在一定的贫富差距。

数据解读:

在K均值聚类分析中,将数据分为了3类,各类样本量依次为4,5,22。第一类地区消费支出最大,其次为第二类,第三类地区消费支出最少。
即第一类总体消费区间为(11809.87,13773.41),第二类总体消费区间为(8617.11,9653.26),第三类总体消费区间为(5928.79,7504.99)。
虽然系统聚类与K-Means聚类都将数据划分为三类,所划分的地区却完全不同,这是两种聚类方法原理上的差异所导致的。因此,在数据分析过程中采用不同方法进行反复研究是非常必要的。

四、结论

此次研究利用了东中西部城镇居民统计数据,实证分析了经济体制改革对不同地区居民消费行为的影响,结论是经济体制改革对中西部地区城镇居民消费行为影响明显,且影响程度从东到西逐渐减弱。随着消费水平的提高各省市在反映生活水平高低的重要指标食品支出方面虽然在总量上呈下降趋势,但对于总消费支出的比重却呈不断上升趋势,在衣着、居住方面的支出也有相同的变化趋势;在家庭设备、医疗保健、交通通信、娱乐文教等方面的支出无论是总量还是比重都呈现出不断下降的趋势。由此可以看出,随着经济水平和消费水平的不断提高,人们不仅物质生活质量不断提高,而且更加注重精神文化生活方面的消费,再保证生存的基础上,更注重发展型和享受型消费,消费结构逐渐趋向合理化。我国居民总体消费水平还不高,中西部地区的大部分省市消费水平仍处于较低水平。


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
掌握R语言中的apply函数族发布时间:2022-07-18
下一篇:
R语言学习发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap