2015应用数理统计聚类分析11.pptx

  1. 1、本文档共135页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析(Cluster Analysis)问题的引出经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题经济研究中,根据经济发展水平把各个国家分成发达国家、中等发达国家、发展中国家;为了研究不同地区城镇居民生活中的收入及消费状况,往往需要划分为不同的类型去研究市场营销中按照消费者的特征对消费者分类,按照产品特征对产品分类,从而进行市场分层、建立目标市场为多种动物群体——昆虫、哺乳动物和爬行动物的区分建立生物分类学……分类需要解决的问题 如何划分 划分的标准是什么需要选取能够描述不同样品特征的变量,依据这些不同变量将样本划为不同的类别依据描述样品之间相同性质的“相似性”指标前言聚类分析是用多元统计理论进行分类的一种方法聚类的原则是“组(类)内同质,组(类)间差异”本讲所介绍的是系统聚类法、动态聚类(K-均值聚类)和有序样品聚类法聚类分析的概念 聚类分析是通过被分类的对象的各种指标进行分类的,而指标按其测量的尺度可以有以下三种:间隔尺度:指标用连续的实值变量表示,如长度、重量、时间;有序尺度:用该指标度量时无数量表示,只表示次序,如产品质量的等级;名义尺度:该指标只代表某些分类或属性,不代表大小和次序,如性别。数据表 指标样品 1 2 …p12...n x11 x12 …x1p x21x22…x2p … xn1xn2…xnp聚类分析的分类?在实际问题中,收集n个样品,对每一个样品测量 p 个指标:Q型聚类根据p个指标值对n个样品进行分类如,根据多项经济指标(指标)对不同的地区(样品)进行分类R型聚类根据n个样品对p个指标进行分类根据不同地区的样本数据对多个经济指标进行分类两者没有本质区别,实践中人们更感兴趣的通常是Q型聚类本讲主要内容系统聚类K-均值聚类有序样品聚类系统聚类法系统聚类基本思路和步骤样品间距离类间距离系统聚类的应用系统聚类的思想产品质量分类 从21个工厂各抽一件同类产品,每件产品测量两个质量指标,记为x1与x2,现要求将各厂的产品按质量情况进行分类将每个工厂 产品的两个指标看成平面上的一个点,并在坐标平面上将21个点画出来。基本思想:逐步将距离近的类合并在一起根据产品质量分类.sav根据产品质量分类系统聚类法的基本思路 基本思想:逐步将距离近的类合并在一起。 先将所有n个样品看成不同的n类,然后将性质最接近(距离最近)的两类合并为一类;再从这n-1类中找到最接近的两类加以合并,依次类推,直到所有的样品被合为一类。系统聚类法的具体步骤先将n个样品各自看成一类,即有n个类,(此时的类间距离为样品间距离),选择距离最小的合并成一个新类;定义新类与新类之间的距离,然后再将距离最小的合并;每合并一次,至少减少一类;直到所有的样品都并成一类为止。距离的度量样品间距离类间距离:此距离由样品间距离推导得出。样品间距离?以dij表示第 i 个样品与第j个样品之间的距离,作为p维空间中两点距离,要满足:dij≥0 ,对一切i,jdij=0 ,当第i个样品与第j个样品p个指标都相同dij= dji ,对一切i,jdij≤ dik+ dkj ,对一切i,j,k样品间距离最常用的形式绝对值距离欧氏距离闵氏距离切比雪夫距离马氏距离绝对值距离(Block distance)欧氏距离(Euclidean distance) 表示第 个样品的第 个指标值 闵氏距离(Minkowski distance)切比雪夫距离(Chebychev distance)马氏距离(Mahalanobis distance)类间距离 → 系统聚类法最短距离法(Nearest Neighbor)最长距离法( Furthest Neighbor )中间距离法(Median Clustering)重心法(Centroid Clustering)类平均法组间联结法(Between-groups linkage)组内联结法(Within-groups linkage)离差平方和法(Ward, s Method)应用广泛的是类平均法和离差平方和法一、最短距离法在最短距离法中两类间的距离定义为:最短距离示意图GqGpA**CB**DDpq样品间分类-最短距离法 设抽取六个样品,每个样品只测一个指标,它们分别是1,2,5,7,9,10。试用最短距离法对它们进行分类。聚类步骤-1:规定样品间的距离,计算距离矩阵D0 , 其中 Gpq={dpq}(1)样品间距离 采用绝对值距离,建立D0 G1 G2 G3 G4 G5G2G3G4G5G6 1 4 3 6 5 2 8 7 4 2 9 8 5 3 1聚类步骤-2:选择D0 中最小元素,设为Dpq, 将Gp 与Gq合并成一个新类,记为Gr, 则Gr={ Gp , Gq

您可能关注的文档

文档评论(0)

159****9610 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6044052142000020

1亿VIP精品文档

相关文档