一、聚类分析的定义
聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。
二、聚类分析的基本思想
基本思想 样本(或变量)间存在着相似性,根据多个观测指标,找出能度量样本之间相似程度的统计量,以其为依据,把相似程度较大的样本聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。
三、SAS实践过程
CLUSTER 过程
FASTCLUS 过程
ACECLUS 过程
VARCLUS 过程
TREE语句格式
CLUSTER语句格式:
数据若为原始数值形式,CLUSTER过程以欧式距离为默认的距离计算方法。
PROC CLUSTER METHOD=name;
BY variables;
COPY variable;
ID variable;
RMSSTD variable;
VAR variables;
RUN;
在CLUSTER语句的“METHOD= ”关键字下,可以指定11种系统聚类方法。
AVERAGE:类平均法
CENTROID:重心法
COMPLETE:最长距离法
DENSITY:密度估计法
EML:最大似然谱系聚类
FLEXIBLE:可变类平均法
MCQUITTY:可变法及McQuitty相似分析法
MEDIAN:中间距离法
SINGLE:最短距离法
TWOSTAGE:两阶段密度估计法
WARD:离差平方和法
FASTCLUS语句格式
研研究事先知道类别的个数,但不知道这些类别当中的具体样本,这时采用快速聚类方法。默认情况下,fastclus过程以欧式距离作为分类的判断标准。
PROC FASTCLUS MAXCLUSTERS=n|RADIUS=t;
VAR variables;
ID variable;
FREQ variable;
WEIGHT variable;
BY variables;
RUN;
ACECLUS语句格式
ACECLUS 过程假设各类别为多元正态分布且协方差阵相等,多用于 对大型数据聚类分析的预分析。
ACECLUS 过程的语句格式:
PROC ACECLUS PROPOTION=p|THRESHOLD=t;
BY variables;
FREQ variable;
VAR variables;
WEIGHT variable;
RUN;
VARCLUS语句格式
对变量作谱系聚类或分离聚类,即R聚类。
PROC VARCLUS ;
VAR variables;
SEED variables;
PARTIAL variables;
WEIGHT variables;
FREQ variables;
BY variables;
RUN;
TREE语句格式
TREE 过程将cluster过程和varclus过程输出的特定数据集作为输入数据集,绘制出详细的用于描述整个聚类过程的树状图。
PROC TREE ;
NAME variables;
HEIGHT variables;
PARENT variables;
BY variables;
COPY variables;
FREQ variable;
ID variable;
RUN
作者:郑来轶,如若转载,转载请注明出处:https://www.zhenglaiyi.com/1012.html