• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

机器学习-K-means聚类及算法实现(基于R语言)

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

K-means聚类

将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分、产品类别划分等)中。

重要概念:质心

K-means聚类要求的变量是数值变量,方便计算距离。

 

算法实现

 

R语言实现

 k-means算法是将数值转换为距离,然后测量距离远近进行聚类的。不归一化的会使得距离非常远。

补充:scale归一化处理的意义

两个变量之间数值差别太大,比如年龄与收入的数值差别就很大。

步骤

第一步,确定聚类数量,即k的值

方法:肘部法则+实际业务需求

第二步,运行K-means模型

求出分组变量 kmeans_cluster$cluster,做为一个新增变量赋值给原数据survey.sample.data,最终以它作为输出图像的分组基础。

第三步,总结聚类模型结果

 k-means聚类的优劣

计算快,可解释性强,能够处理多种数据类型。

重要缺点有二:

1.均值聚类只对圆形或者椭圆形的散点分布形状敏感。如果一些散点图紧紧地形成了月牙形或者圆环形等不规则的聚类形状,K均值聚类就会犯错误。

2.均值聚类要求每个类别中的散点图数量都差不多。如果有一个部分点单独聚成一类,k均值聚类会把它们打散并和其他类合并。


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
机器学习与R语言:C5.0发布时间:2022-07-18
下一篇:
机器学习-决策树算法+代码实现(基于R语言)发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap