KMeans和KMedoid 的Matlab实现

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程›综合其他

原作者: [db:作者] 来自: [db:来源] 收藏邀请

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

KMeans和KMedoid算法是聚类算法中比较普遍的方法，本文讲了其原理和matlab中实现的代码。

1.目标：

找出一个分割，使得距离平方和最小

2.K-Means算法：

1. 将数据分为k个非空子集

2. 计算每个类中心点（k-means中用所有点的平均值，K-medoid用离该平均值最近的一个点）center

3. 将每个object聚类到最近的center

4. 返回2，当聚类结果不再变化的时候stop

复杂度：

O（kndt）

-计算两点间距离：d

-指定类：O(kn) ,k是类数

-迭代次数上限：t

3.K-Medoids算法:

1. 随机选择k个点作为初始medoid

2.将每个object聚类到最近的medoid

3. 更新每个类的medoid，计算objective function

4. 选择最佳参数

4. 返回2，当各类medoid不再变化的时候stop

复杂度：

O（(n^2)d）

-计算各点间两两距离O（(n^2)d）

-指定类：O(kn) ,k是类数

4.特点：

-聚类结果与初始点有关（因为是做steepest descent from a random initial starting oint）

-是局部最优解

-在实际做的时候，随机选择多组初始点，最后选择拥有最低TSD（Total Squared Distance）的那组

Kmeans KMedoid Implementation with matlab:

===================

下面是我用matlab上的实现：

说明：fea为训练样本数据，gnd为样本标号。算法中的思想和上面写的一模一样，在最后的判断accuracy方面，由于聚类和分类不同，只是得到一些 cluster ，而并不知道这些 cluster 应该被打上什么标签，或者说。由于我们的目的是衡量聚类算法的 performance ，因此直接假定这一步能实现最优的对应关系，将每个 cluster 对应到一类上去。一种办法是枚举所有可能的情况并选出最优解，另外，对于这样的问题，我们还可以用 Hungarian algorithm 来求解。具体的Hungarian代码我放在了资源里，调用方法已经写在下面函数中了。下面给出Kmeans&Kmedoid主函数。

Kmeans.m 函数：

function [ accuracy,MIhat ] = KMeans( K,mode )% Artificial Intelligence & Data Mining - KMeans & K-Medoids Clustering% Author: Rachel Zhang @ ZJU% CreateTime: 2012-11-18% Function: Clustering%  -K: number of clusters%  -mode: %   1: use kmeans cluster algorithm in matlab%   2: k_medroid algorithm: use data points as k centers%   3: k_means algorithm: use average as k centersglobal N_features;global N_samples;global fea;global gnd;switch (mode)    case 1 %call system function KMeans        label = kmeans(fea,K);        [label,accuracy] = cal_accuracy(gnd,label);            case 2%use kmedroid method        for testcase = 1:10% do 10 times to get rid of the influence from Initial_center            K_center = Initial_center(fea,K); %select initial points randomly            changed_label = N_samples;            label = zeros(1,N_samples);            iteration_times = 0;            while changed_label~=0                cls_label = cell(1,K);                for i = 1: N_samples                    for j = 1 : K                        D(j) = dis(fea(i,:),K_center(j,:));                    end                    [~,label(i)] = min(D);                    cls_label{label(i)} = [cls_label{label(i)} i];                end                changed_label = 0;                cls_center = zeros(K,N_features);                for i = 1 : K                    cls_center(i,:) = mean(fea(cls_label{i},:));                    D1 = [];                    for j = 1:size(cls_label{i},2)%number of samples clsutered in i-th class                        D1(j) = dis(cls_center(i,:),fea(cls_label{i}(j),:));                    end                    [~,min_ind] = min(D1);                    if ~isequal(K_center(i,:),fea(cls_label{i}(min_ind),:))                        K_center(i,:) = fea(cls_label{i}(min_ind),:);                        changed_label = changed_label+1;                    end                end                iteration_times = iteration_times+1;            end            [label,acc(testcase)] = cal_accuracy(gnd,label);        end        accuracy = max(acc);            case 3%use k-means method        for testcase = 1:10% do 10 times to get rid of the influence from Initial_center            K_center = Initial_center(fea,K); %select initial points randomly            changed_label = N_samples;            label = zeros(1,N_samples);            label_new = zeros(1,N_samples);            while changed_label~=0                cls_label = cell(1,K);                changed_label = 0;                for i = 1: N_samples                    for j = 1 : K                        D(j) = dis(fea(i,:),K_center(j,:));                    end                    [~,label_new(i)] = min(D);                    if(label_new(i)~=label(i))                        changed_label = changed_label+1;                    end;                    cls_label{label_new(i)} = [cls_label{label_new(i)} i];                end                label = label_new;                                for i = 1 : K  %recalculate k centroid                    K_center(i,:) = mean(fea(cls_label{i},:));                end            end             [label,acc(testcase)] = cal_accuracy(gnd,label);        end        accuracy = max(acc);endMIhat = MutualInfo(gnd,label);    function center = Initial_center(X,K)        rnd_Idx = randperm(N_samples,K);        center = X(rnd_Idx,:);    end    function res = dis(X1,X2)        res = norm(X1-X2);    end    function [res,acc] = cal_accuracy(gnd,estimate_label)        res = bestMap(gnd,estimate_label);        acc = length(find(gnd == res))/length(gnd);    endend

实验结果分析：

对上面得到的accuracy进行画图，横坐标为10个数据集，纵坐标为在其上进行聚类的准确率。

其中，auto为matlab内部kmeans函数。

画图：

function [  ] = Plot( A,B,C )%PLOT Summary of this function goes here%   Detailed explanation goes herefigure;k = 1:10;plot(k,A,'-r',k,B,'-b',k,C,'-g');legend('auto','medoid','means');end

结果：

5类聚类：

7类聚类：

关于Machine Learning更多的学习资料与相关讨论将继续更新，敬请关注本博客和新浪微博Sophia_qing。

给我老师的人工智能教程打call！http://blog.csdn.net/jiangjunshow

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

关于使用DelphiXE10进行android开发的一些总结发布时间：2022-07-18

Delphi设计模式：《HeadFirst设计模式》Delphi7代码---观察者模式之WeatherReport[转] ...发布时间：2022-07-18

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：17984|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9573|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8130|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8513|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8417|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9311|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8379|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7812|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8365|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7363|2022-11-06

客服电话

电子邮件

KMeans和KMedoid 的Matlab实现

给我老师的人工智能教程打call！http://blog.csdn.net/jiangjunshow

请发表评论

全部评论

上一篇：

下一篇：

GitbookIO/gitbook:

凹的笔顺,聊聊凹的笔画,推荐凹的部首

Delphi日期时间UNIX

kyamagu/matlab-json: Use official API: h

sevenjay/cpp-markdown: Cpp-Markdown is a

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053