HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 聚类分析论文

聚类分析论文

时间:2023-02-01 01:35:12

聚类分析论文

聚类分析论文范文1

【关键词】教育技术学;学位论文;共词分析;聚类分析

【中图分类号】G420 【文献标识码】B 【论文编号】1009―8097(2009)11―0060―03

一 数据来源

《CNKI中国优秀硕士学位论文全文数据库》是目前国内相关资源最完备、高质量、连续动态更新的中国硕士学位论文全文数据库。

本文选择中国知网的《CNKI中国优秀硕士学位论文全文数据库》的免费题录数据库,于2009年5月6日,以“学科专业名称”作为检索途径,输入“教育技术学”作为检索词,学位年度从2004年到2008年,共检索到2078篇学位论文。

对检索结果用Excel、文本合并工具、ROST TFIDF(网页及文本特征词提取工具)进行数据统计,共得到3853个关键词。反复地进行人工校对,去除了对反应主题没有积极意义的整合、对策、现状、过程、影响、发展、启示等,最后确定了3620个关键词。选择词频数大于20的高频关键词共得到31个,如表1所示。

二 数据分析

1 构造共词矩阵

对31个关键词两两配对,统计他们在2074条文献中共同出现的频次,形成31×31的矩阵,如表2所示。

2 构造相异矩阵

为了消除频次悬殊造成的影响,用Ochiia系数将共词矩阵转化成相关矩阵,即将共词矩阵中的每个数字都除以与之相关的两个词总频次开方的乘积,其计算公式为[1]:

对角线上的数据是某关键词自身的相关程度,经上式计算均为1。为方便处理数据,用“1”与全部矩阵相减,得到表示两词间相异程度的相异矩阵[2],如表3所示。

3 利用SPSS进行聚类分析

将表3所示相异矩阵导入SPSS进行层次聚类分析,选择“组间平均链锁(Between group link age)”,即个体与小类中每个个体距离的平均值[3]。此种方法利用了个体与小类的所有距离的信息,克服了极端值造成的影响[4]。得到的凝聚状态表,如表4所示。

表4中,第一列表示聚类分析的第几步;第二、三类表示本步聚类中哪两个样本或小类聚成一列;第四列是个体距离或小类距离;第五、六列表示本步聚类中参与聚类的是个体还是小类,0表示样本,非零表示由第几步聚类生成的小类参与本步聚类;第七列表示本步聚类的结果将在以下第几步中用到[5]。例如,第一步中,1号关键词(信息技术)与29号关键词(课程整合)聚成一类,它们的个体距离是0.932,这个小类将在第18步中用到。同理可得其它聚类。这个聚类可以从图1所示树状图中展现出来。

树状图以躺倒树的形式展示了聚类分析中的每一次类的合并情况。SPSS自动将各类间的距离映射到0―25之间,并将凝聚过程近似地表现在图上。1号关键词(信息技术)与29号关键词(课程整合)距离最近,首先合成一类。其次是5号关键词(教学模式)和10号关键词(建构主义),以此类推。可见聚类过程与表4所示的凝聚状态图是一致的。

三 结论

结合高频关键词的共词矩阵和上述聚类过程,我国教育技术学硕士学位论文的研究热点可以概括为以下几类:

(1)信息技术与课程整合,包括关键词1、21、29、30。主要是围绕新课程改革目标,在课程学习活动中使用信息技术,以便更好地完成课程目标、培养创新精神和锻炼的实践能力,在研究过程中主要关注课程教学过程中把信息技术、信息资源、信息方法、人力资源和课程内容有机结合,共同完成教学任务。

(2)建构主义情境下的教学模式。包括关键词5、10。建构主义是当代学习理论的革命,是信息化教学模式建构的关键理论基础。其中建构主义学习流派、理念、基本要素、教学隐喻等成为广大硕士生研究的热点。但在发展建构主义的前提下也出现了很多对建构主义的反思。

(3)教师教育技能培训、教师教育信息化。包括关键词4、23、19、8。FD(教师教育教学能力开发)是既免费师范生教育及教育信息化背景下备受硕士研究生关注的热点。涉及的内容有利用技术改善教师技能,培训教师,优化教育资源,提高教师信息素养等,这对提高全国教师技能水平具有深远意义。

(4)现代远程教育。包括关键词9、15。网络环境下的远程教育各加体现开放大学的开放性,确保学习型社会的终身教育的发展与普及。主要包括远程教育的理论研究、远程教育的国内外对比研究、远程教育学习支持服务研究、远程教育学科建设研究、远程教育质量保证研究等。

(5)基于网络环境的研究性学习。包括关键词14、17。关于网络学习的研究,构建自适应学习系统、智能授导系统、教育语义网等网络个性化学习是关注热点。特别是基于统一本体的语义网技术在自适应学习中的研究应用还在探索中,是教育技术以后关注的重大热点。

(6)基于行动研究的知识管理的教学设计。包括关键词2、26、12、27。信息时代科学技术革命的飞速发展,知识更新速率以几何级数的形式增长,出现了“知识爆炸”现象。可见知识管理在信息时代的重要性。知识管理已是教育技术关注的热点,在进行研究过程中包括学习管理系统(LMS)、个人学习环境(PLE)、个人知识管理(PKM)等的研究。

(7)在学习环境中形成学习共同体。包括关键词18、31、7、11。网络环境下自主学习、协作学习更加便捷,促使了具有相同爱好学习者形成了学习共同体,构建更加复杂、多元化的学习环境。为教师专业发展为目的的网络学习共同体也应运而生。在研究过程中主要是围绕网络共同体的成员、工具、主题、资源、活动等必备要素以及网络共同体的应用策略和实践效果等。

(8)网络教育。包括关键词3、13、16、22。网络课程是网络教育的基本形式,网络课程的教学设计,网络课程的界面效果,学习路径等都是网络教育涉及的内容。网络教育与远程教育是不可分割的,但网络教育又不局限于远程教育而主要是依托网络进行的教育。为了实现网络资源的更优质共享,降低相同资源的重复开发,关于网络教育的标准研究在研究生硕士论文中很普遍。

(9)在教学策略中使用虚拟现实技术。包括关键词20、28、24。虚拟现实技术主要是结合游戏的娱乐性进行网络教育游戏的设计与开发,基于游戏的激励机制、娱教等进行教学设计。

共词聚类分析不同于普通的文献计量方法,它是能定量反应出词与词之间的亲疏关系,进而反应这些词所代表的主题内容的结构[6]。

通过高频关键词反映教育技术学硕士学位论文的研究热点,并且通过共词聚类分析反映这些热点内容的结构关系。但是由于所选关键词的多少造成的聚类结果有所不同,因此不排除有些出现频次较低的关键词可能成为未来的研究热点[7]。与此同时,尽管《CNKI中国优秀硕士学位论文全文数据库》具有很高的权威性,但收入具有一定得滞后性和片面性以及检索的不可重复性,可能存在数据的漏检或误检。因此,我们的数据统计分析难免会出现差错和缺漏。但我们的目的是通过对我国教育技术学硕士学位论文的热点分析,进一步了解我国教育技术学研究生的研究方向,并且将文献计量学的共词研究方法移植到教育技术学领域,丰富了教育技术学的研究方法,这将是非常有意义的一件事情。

参考文献

[1] [3] [5] [6]李长玲,翟雪梅.我国情报学硕士学位论文的共词聚类分析[J].情报科学,2008,(3):73-76.

[2]郑华川,于晓欧,辛颜.利用共词聚类分析探讨抗原CD44研究现状[J].中华医学图书情报杂志,2002,(2):1-3.

[4]薛薇.SPSS统计分析方法及应用[M].北京:电子工业出版社,2005:310-313.

聚类分析论文范文2

关键词:模糊数学;聚类分析;数据挖掘

中图分类号:TP311.13

聚类分析是一种科学的数学方法,是按照一定的要求和规律,对事物进行分类分析,属于数量统计多元分析的一个分支。随着数据挖掘技术的发展,在大量未知数据分类中,聚类分析得到了很好的应用[1]。由于在分类过程中,常常应用模糊数学方法,使得聚类分析显得尤为自然,与实际相符合。模糊聚类分析,可对事物的特征、相似性和亲疏程度等进行分类和分析。

1 聚类分析介绍

数据挖掘(Data Mining)是从大量、有噪声、模糊和不完全、随机的数据中,挖掘提取出隐含在数据中不为人知的、有价值的数据信息的过程[2]。其中,挖掘的有价值信息可用于过程控制、信息管理、决策支持等,同时可用于系统的数据维护。数据挖掘属于涵盖广泛的交叉学科,是一门综合了人工智能、机械学习、数据库和数据统计等多个研究领域的技术[3]。

数据挖掘中的聚类(Clustering)是一种观察式的学习,这种学习不依靠带符号的训练实例、预先的定义等,是通过研究对象间的相似性,将数据进行分类或分簇。在同一簇中的数据,相似度较高,但是不同簇中的数据对象,差别比较大[4]。其中,数据对象的相似度,按照对象属性值计算,一般用距离对相似度进行描述。

数据挖掘对聚类分析的要求如下:一是可伸缩性强,用于处理各种类型及级别的数据对象;二是对噪声数据,比如未知数据、空值等可进行处理;三是决定输入参数领域知识最小化,对结果的敏感度高,可直接决定聚类质量。

聚类分析在数据挖掘中的市场分析中得到广泛应用,可在客户基本数据库中,挖掘出不同的客户群,并描述其特征。由于是一种数据挖掘功能,可独立获得数据分布,并观察各个簇的特点,同时对特定的数据进行分析,为其他算法提供预处理步骤等。

2 模糊聚类数学原理及聚类分析

2.1 模糊聚类数学原理。模糊数学是扎德提出的一种理论,在诸多领域均产生重要影响,本文仅介绍模糊矩阵、模糊关系等。

定义一:假设V、U是两个论域,R是V*U的模糊子之一,属于它的隶属函数:R:V*U[0,1]。确定U中元素u与V中元素v的关系程度,也就称R为V与U的模糊关系。

定义二:模糊关系的传递性、对称性以及自反性。

定义三:模糊矩阵:假设矩阵R=(rij)m*n,则成R为一个模糊矩阵。

2.2 模糊聚类分析的应用。数据挖掘中具有多种聚类算法,比如基于密度、划分和网络等的算法中。如何选择算法,主要需要考虑数据类型、聚类应用和目的等。同时,可采用多种算法,寻找对象数据之间的联系。由于关系数据表中含有不同类型的数据,改进模糊数学中对纯数据型数据的分析,使模糊聚类分析可得到直接应用和分析。

2.2.1 原始数据标准化。对于模糊聚类分析来说,假设U为一个分类数据对象全体,其中的每一个数据对象均可用一个矩阵来表示,这样就得到一个样本数量为n的属性矩阵。在实际关系数据表中,包括布尔型、数值型和空值等各种类型的数据,且由于聚类目的的不同,需要分析原始数据中的若干因素,而不需分析其全部属性。所以,这就需要对原始数据做相应的处理,以消除变量对分类的影响[5]。

按照各种属性对原始数据标准化,可分为以下几种类型:一是间隔类型,数据值采用销售额、长度等数值型数据表示。数据标准化后,对于离散性或连续性小的数据,可区间方法加以离散;如数据的离散性大,可通过标准差公式和极差标准化公式来处理。标准差公式如下:

极差标准化公式如下:

二是有序类型:属性值有序等级表示,比如教授、助教和讲师等。布尔型数据属于有序类型,对有序类型数据的标准化,可将同属性数据归为一类,通过所占数据数据的百分率进行标准化。

其中,nc表示某种同属性值数据个数。

2.2.2 相似度计算。各样本关系间的计算,采用两种度量表示其接近程度,一种是相似度r,表示样本间相似程度,r越接近1,则表示样本间相似度高;二是距离d,假设两个样本为m维空间中的点,两点间的距离d越小,则表示相似度越高。

两个样本之间的这种基于距离的关系,在统计学中,一般采用如下做法:为构造模糊关系矩阵,用相似度描述样本间的关系。按照各类对象的属性,完成标准化后,计算各样本之间的相似度。计算公式如下:

2.2.3 聚类分析。确定了模糊相似矩阵之后,还应确定阈值β,然后通过编网法聚类,防止矩阵自乘。假设R=(rij)m*n为任意模糊相似矩阵,j为矩阵的列,初值1,j的聚类包括a、[j]及[h]:

A:如果第j类未能聚类,继续,否则转(E)。

B:求出所有≥阈值的元素的行,然后加入到各个聚类中。

C:对于聚类中的元素i,求出第i列中≥阈值的元素;如聚类中的元素已全部求出,转(E)。

D:如果ik在j聚类中,忽略,否则将其加入到聚类中。

E:j++;如果j≤n,转(A);否则停止。

3 聚类分析的应用

笔者从样本数据中选取部分数据,分析模糊聚类分析的应用。X1:沿海地区;X2:固定资产原值利税/百元;X3:资金利税率;X4:产值利税率;X5:销售收入利税/百元;X6:销售成本利税/百元;X7:流动资金周转次数。

第一步:原始数据标准化。略。第二步:采用夹角余弦法计算各个数据的相似度;第三步:确定合适的阈值,假设为0.95。

表2 相似度矩阵表

经过上述步骤,可完成聚类。但是在实际应用中,同样可对属性聚类,用以判断属性在样品中的重要性,进而赋予不同权值。

而模糊聚类程序的设计,可采用三层处理模块来实现。详见图1。

4 结束语

在数据挖掘技术不断提高的背景下,挖掘数据库中隐含的、有价值的知识,成为其主要的目标。笔者在本文中,结合相关的文献资料,主要讨论了对数据库中各种类型数据的处理,从数据挖掘与聚类分析的内涵、模糊数学理论及模糊聚类分析的应用等方面做了分析,相信它在当今大数据时代中也会得到某些借鉴。

参考文献:

[1]聂承启,聂伟强.数据挖掘中的模糊聚类分析[J].计算机工程与应用,2013(33):184-186.

[2]刘贵龙,张伟.模糊聚类分析在文本分类中的应用[J].计算机工程与应用,2013(39):110-111.

[3]徐海洋,王国安,王万森.模糊聚类分析在数据挖掘中的应用[J].中国新技术新产品,2011(13):245-246.

[4]彭学军.聚类分析在数据挖掘中的应用探究[J].科教文汇(理工科研),2010(12):124-125.

[5]唐小琴,代淑媛.数据挖掘中聚类分析的技术方法[J].微计算机信息,2013(10):119-120.

聚类分析论文范文3

关键词:谱聚类;聚类;图划分

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)19-0159-03

Spectral Clustering and its Research Progress

XING Jie-qing, FU Chuan-yi

(Department of Modern Education Technology, Qiongtai Normal College, Haikou 571100, China)

Abstract:Spectral clustering has good theoretic foundation, and has been applied in various science research and engineering fields. It becomes an important new popular tool for clustering analysis. With its development, spectral clustering attracts much more attention from researchers. However, there are few literatures on it. This paper gives a brief review about the creation, development, theoretic analysis and classical methods of spectral clustering.

Key words: spectral clustering; clustering; graph partition

聚类作为无监督学习方法,广泛地应用于统计科学、计算机科学、生物学、社会学以及心理学等,成为应用最多的数据分析技术之一。其中,基于谱图划分理论的聚类方法――谱聚类,是目前研究较多、有深厚理论基础、应用广泛的聚类方法。与传统的方法(如k-means,EM等)相比,它不对样本空间的整体结构做任何假设,能够识别样本点在空间上的非凸分布。因此,谱聚类方法适用于具有任何分布形状的样本空间,从而求解到全局最优解。此外,谱聚类使得聚类算法的研究得到很大的拓展,适用于许多现实应用问题,已成功地应用于文本分析、语音分析、图像分割、机器视觉、商业分析、市场营销、计算生物学等等[1-3]。目前,谱聚类方法的应用还扩展到医学诊断[6]、DNA和蛋白质等生物信息挖掘[5]、文本主题分析[4]等领域。对谱聚类算法的研究具有科学意义和现实意义。同时,谱聚类算法在实现上仅涉及标准的线性代数方法,易于实现。

谱聚类算法是以图论当中的谱图理论为基础,重点在于设计合适的距离度量,计算待聚类的数据点之间的距离或相似性,构造邻接图,最后将聚类任务转化为邻接有向图的最优划分问题。本文旨在从基础理论、代表算法、比较分析等方面向读者介绍这种新型的聚类算法。

1 谱聚类算法研究进展

谱聚类的诞生可以追溯到1973年,Donath和Hoffman 首次基于邻接矩阵构造了图的划分[7]。在同一年,Fieldler发现图的二划分与Laplacian图的第二小特征向量有密切关系,并且建议使用该特征向量进行图的划分[8]。从此以后,许多研究者加入到谱聚类方法的研究队伍中,例如,Pothen, Simon, and Liou [9]、Bolla [10]、Hagen and Kahng [11]、Hendrickson and Leland [12]、Van Driessche and Roose[13]和Guattery and Miller[14]等。

谱聚类逐渐成为流行的聚类方法[1-6]。在算法扩展和理论分析方面涌现了大量的研究成果。Dhillon等人将谱聚类应用于联合聚类问题[14],并分析了谱聚类与加权k-means的关系[19]。Bach等人利用谱聚类辅助学习相似性函数[9]。Kempe等人分析了再分布式环境下的谱聚类[21]。Perez等人提出了稀疏核谱聚类并应用于大尺度数据集[17]。Jia等人将集成学习方法应用于谱聚类[22]。Zhang等人设计了基于边界的多路谱聚类方法[14]。最近,王春腾等分析了维数约简与谱聚类的关系,提出了基于维数约简的谱聚类方法:基于非负约束的谱聚类算法(NMFSC)[15]和基于独立成分分析的谱聚类(ICASC)[16]。

特别地,聚类方法在图像分割任务的应用中,传统的做法提取各像素点的特征向量,利用k-means等聚类方法对像素点进行聚类。这类方法固有的缺陷是对样本点的分布假设,例如k-means方法假定样本点的分布服从高斯分布。然而,在现实应用中该假设未必成立。谱聚类方法的优势在于不需要事先假定样本服从某种特定的分布,计算像素点样本之间的相似性,构造相似性矩阵,通过对相似性矩阵的谱图划分达到划分样本空间的目的,从而避免了对样本空间分布假设的依赖,使得谱聚类方法在理论上能够适应任意分布形状的样本空间。

2 理论基础

2.1 相似图

为说明谱聚类的基本理论,本节首先引入有关的基本记号和相似图概念。已知一个给定的数据集,根据已设计的距离公式可计算出样本点两两之间相似度,构造出相似性矩阵。以每个数据点为顶点,顶点与连通,给其连接边赋予非负权值,即数据点与之间的相似性。此时,基于相似性矩阵构造出无向图,其中,是顶点集合,是边集合。聚类的直接目标是将相似的点尽量放在同一簇中,而不相似的点尽量归入到不同簇中。至此,聚类问题可以转化为该无向图上的划分问题,找到图的某个分割,使得同一簇中点点间的边权值之和最大,而不同簇之间的点点间边权值之和最小。

无向图称为给定数据集的相似图,其中,顶点集,边集。在边上赋予权值,构成无向加权图,顶点与之间赋予非负权值,则有加权邻接矩阵,。特别地,当,表示两顶点间不连通。

2.2 谱图划分理论

谱聚类算法的思想来源于谱图划分理论[19]。无向加权图构造完成后,就可以寻找图的最优划分,需要建立图的最优划分准则。图论中常用的划分准则有M-cut, Mbmax-cut, N-cut, Average-cut,Ratio-cut等。限于篇幅,本文仅对常用的划分准则――规范割集准则(Normalized-cut或N-cut)作简要介绍。

N-cut是由Shi和Malik提出的,其目标函数的公式如下:

其中。以Ncut函数作为最小化目标函数,称为规范割集准则。从该准则的目标函数可以看出,不仅可以度量同簇样本间的相似性,还可以度量不同簇间样本的相异性。Shi和Malik对上述目标函数进行了拓展,提出规范关联目标函数(Nassoc):

其中,与分别是在子图,内各自所有顶点间连接权值的总和。该准则衡量了同一簇内的样本间的紧凑程度。进一步的推导,可以得出Ncut函数与Nassoc函数之间的线性关系:。所以,最小化Ncut函数与最大化Nassoc函数是等价的,两个目标函数可以任选其一。在实际应用中,Ncut函数更常用。

3 谱聚类算法

选用不同的划分准则,可以构造出不同的谱聚类算法,大致可以将谱聚类算法分为两类:迭代谱聚类和多路谱聚类。

就迭代谱聚类而言,Peron与Freeman合作提出PF算法,其主要思想是构造样本集的相似图,计算相似性矩阵的最大特征值及其对应的特征向量,以特征向量中零元素对应的数据点为中心生成一个簇类,其余点生成另外一个类,由此迭代,得到最终聚类结果[25]。其他具有代表性的迭代谱聚类算法有SM算法[1]、SLH算法[6]和KVV[26]算法等。

就多路谱聚类而言,Ng和Jordan等人提出NJW算法,其基本思想是计算相似性矩阵的拉普拉斯矩阵,寻找该矩阵的前k个最大特征值及其对应的特征向量,将原数据点投影到k个特征向量构造的新的特征空间中,最后在新的k维空间中实施k-means,得到最终聚类结果[2]。Meila对NJW算法进行的拓展,将NJW中的k维特征空间再实施了一个线性旋转,构造出新的投影空间,然后在该空间中实施聚类[28]。

不管是上述哪一类方法,谱聚类算法的步骤大致可以归纳为如下三步:

Step1:构造无向图,其中,顶点集,边集。根据样本点与之间的相似性,赋予边权值,得到加权邻接矩阵,。此时,将聚类问题转化为图的最优划分问题。最优划分准则的选取直接影响谱聚类算法的效果,也是谱聚类算法研究的集中关注点。谱聚类算法改进大多集中在相似性度量函数和最优划分目标函数的设计上。

Step2:计算相似性矩阵的前k个特征值及其对应的特征向量,构造新的k维特征空间,将原始样本点投影到新的k维空间中。

Step3:在新的k维特征空间中实施传统的聚类算法,例如k-means等。

4 结论

谱聚类在理论和应用上都具有突出优势,近年来在学术界得到越来越多的重视,使聚类分析的研究得到延伸,适应更多的现实应用问题,已成为聚类分析中一个重要的新兴分支。本文从谱聚类的产生、发展、基本理论和代表算法等方面比较系统的总结了谱聚类算法及其研究进展,可望使读者对谱聚类形成基本的初步认识,由此将该方法应用到科学研究与工程应用的各种实际问题中。

参考文献:

[1] Ahn I, Kim C. Face and Hair Region Labeling Using Semi-Supervised Spectral Clustering Based Multiple Segmentations[J]. IEEE Transactions on Multimedia, 2016:1-1.

[2] Petkos G, Schinas M, Papadopoulos S, et al. Graph-based multimodal clustering for social multimedia[J]. Multimedia Tools & Applications, 2016:1-23.

[3] 崔丽,陈睿,李华. 拓扑图格独立分量分析和谱聚类支持的纹理探测[J]. 计算机辅助设计与图形学学报,2005,17(5):,935-940.

[4] Hou H X, Yuan M M, Liu C X. Indirect spectral clustering towards large text datasets[J]. Journal of Computer Applications, 2013, 32(12):3274-3277.

[5] Huang L, Liao L, Wu C H. Inference of protein-protein interaction networks from multiple heterogeneous data[J]. Eurasip Journal on Bioinformatics & Systems Biology, 2016, 2016(1):1-9.

[6] Wang D, Gu J. Integrative clustering methods of multi-omics data for molecule-based cancer classifications[J]. Quantitative Biology, 2016:1-10.

[7] Donath W E, Hoffman A J. Lower bounds for the partitioning of graphs. IBM J. Res. Develop. 1973(17):420-425.

[8] Fiedler M. Algebraic connectivity of graphs. Czech, Math. J., 1973(23):298-305.

[9] Pothen A, Simon H D, Liou K P. Partitioning sparse matrices with eigenvectors of graphs. SIAM Journal of Matrix Anal. Appl., 1990(11):430-452.

[10] Simon, H. Partitioning of unstructured problems for parallel processing. Computing Systems Engineering, 1991(2):135-148.

[11] Hagen L, Kahng A B. New spectral methods for ratio cut partitioning and clustering. IEEE Transactions on Computer-aided Design, 1992(9):1074-1085.

[12] Hendrickson, B. and Leland, R. An improved spectral graph partitioning algorithm for mapping parallel computations. SIAM J. on Scientic Computing, 1995(16):452-469.

[13] Van Driessche, R. and Roose, D. An improved spectral bisection algorithm and its application to dynamic load balancing. Parallel Comput., 1995,21(1):29-48.

[14] Dhillon, I. Co-clustering documents and words using bipartite spectral graph partitioning. In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, New York: ACM Press, 2001, pp.269C274.

[15] 王春腾,符传谊.基于非负约束的谱聚类算法[J].电脑知识与技术,2011,17(41):65.

[16] 王春腾,符传谊.基于独立成分分析的谱聚类方法[J].安徽电子职业技术学院学报2011,6(42):51.

[17] Perez A, Andres C, and Johan S. Sparse Kernel spectral clustering models for large-scale data analysis, Neurocomputing, 2011, v74(9), p1382-1390

[18] Zhang Z and Jordan M. I., Multiway Spectral Clustering: A Margin-Based Perspective, V23(3), 2008, p383-403

[19] Dhillon, I., Guan, Y., and Kulis, B. A unied view of kernel k-means, spectral clustering, and graph partitioning. University of Texas at Austin, 2005

[20] Bach, F. and Jordan, M. Learning spectral clustering. In S. Thrun, L. Saul, and B. Sch?lkopf (Eds.), Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2004.

[21] Kempe, D. and McSherry, F. A decentralized algorithm for spectral analysis. In Proceedings of the 36th Annual ACM Symposium on Theory of Computing . New York, NY, USA: ACM Press, 2004, pp. 561C568.

[22] Jia J, Xiao X, Liu B and Jiao L, Bagging-based spectral clustering ensemble selection, Pattern Recognition Letter, v32(10), 2011.

[23] Ding C, He X, Zha H, et al. A min-max cut algorithm for graph partitioning and data clustering. In Proceedings of therst IEEE International Conference on Data Mining, Washington, DC, USA: IEEE Computer Society, 2001:107-114

[24] Guattery S, Miller G L. On the quality of spectral separators. SIAM Journal of Matrix Anal. Appl., 1998,19(3):701-719.

[25] Perona P,Freeman W T.A factorization approach to grouping, Proc. ECCV,1998:655-670.

聚类分析论文范文4

论文关键词:R软件,聚类分析,主成分分析,典型相关分析

 

引言:多元统计分析是统计学的一个重要分支,也称多变量统计分析;在现实生活中,受多种指标共同作用和影响的现象大量存在,多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律的重要学科,由于多元统计分析方法一般涉及复杂的数学理论,一般无法用手工计算,必须有计算机和统计软件的支持。

在统计软件方面,常用的统计软件有SPSS、SAS、STAT、R、S-PLUS等。R软件是一个自由、免费、开源的软件,是一个具有强大统计分析功能和优秀统计制图功能的统计软件,现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍了R软件在多元统计分析中的应用,具体内容包括R软件在聚类分析、主成分分析、对应分析等方面的应用。

一 在聚类分析教学中的应用

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。在社会经济领域中存在着大量分类问题,比如若对某些大城市的物价指数进行考察聚类分析,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。

聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等,具体详见参考文献[3]。

R软件及其相关包提供了各种聚类方法,主要是系统聚类方法、快速聚类方法、模糊聚类方法,常用的是系统聚类方法。

R软件实现系统聚类的程序如下:

Hclust(d,method=“complete”)

其中d是由“dist”构成的距离结构,具体包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等,默认为欧氏距离;method包括类平均法、重心法、中间距离法最长距离法最短距离法、离差平方和法等,默认是最长距离法。

例1 下表是山东省2008年各市居民家庭平均每人全年消费性支出,利用所给数据对各市进行系统聚类。

 

山东各市居民家庭平均每人全年消费性支出 元/人

地区

食品

衣着

居住

设备用品

交通通讯

文化教育

医疗保健

其它

济南

1628.16

252.86

790.11

285.64

634.83

355.54

394.37

43.9

青岛

1999.61

523.76

901.56

297.76

595.34

618.12

260.17

106.42

淄博

1691.6

372.21

844.44

300.46

494.67

580.6

370.84

102.16

枣庄

1370.59

272.95

614.3

227.52

454.73

245.93

220.88

84.2

东营

1580.86

234.17

813.58

253.12

532.19

432.05

275.3

39.1

烟台

1673.19

337.92

719.28

201.3

414.08

497.57

286.03

77.11

潍坊

1516.36

299.67

1327.72

243.72

583.04

494.65

269.82

92.95

济宁

1375.4

287.17

722.05

282.16

380.68

412.42

218.11

56.94

泰安

1412.44

225.66

567.66

257.96

411.98

450.57

177.02

70.07

威海

1684.64

517.59

759.36

227.12

424.41

565.75

444.31

77.48

日照

1451.12

351.21

562.91

208.81

457.2

332.16

182.2

37.69

莱芜

1516.22

198.94

624.72

207.03

464.06

469.35

256.53

36.33

临沂

1339.69

212.36

625.26

191.34

409.39

314.9

156.01

63.31

德州

1114.47

173.88

553.14

169.23

319.41

220.45

137.97

42.2

聊城

1146.53

182.53

566.92

186.05

317.48

332.64

155.94

54.31

滨州

1177.49

179.96

979.01

206.88

451.85

407.49

298.7

47.51

菏泽

1265.03

170.85

550.68

143.11

329.99

349.41

聚类分析论文范文5

关键词:金砖国家 聚类分析 对外贸易 竞争力

高盛公司在2001年的《The World Needs Better Economic Bricks》报告中表示,中国、巴西、印度、俄罗斯将会在未来成为世界经济的领头者,到2050年世界经济将会重新洗牌,这四个国家也被称为金砖四国。2010年南非加入了金砖四国,并更名为“金砖国家”(BRICS)。

截止到目前来看,五国的经济确实显示出强劲的发展势头,跟当初报告的预测基本吻合。这也吸引了许多学者对金砖国家的对外贸易的现状及其成因进行了不懈的研究,并提出了许多积极的建议和对策。比如:丁振辉等[1]对金砖四国服务贸易竞争力的研究,施佳烨等[2]对金砖国家对外贸易竞争力进行了比较分析,都提出,尽管金砖国家在最近几年获得了一定的发展,但在高新技术研究与开发上还与西方发达国家存在相当大的距离。武敬云[3]对金砖国家的贸易互补性和竞争性进行了分析,发现金砖国家的贸易关系并不紧密。但是这些研究都是使用相关经济学指数进行比较,没有进一步探讨金砖国家内部关系以及与其他发达国家的差距。

本文受聚类模型的思想启发,根据2001年到2010年金砖国家的世界市场占有率(MS)、显示性比较优势指数(RCA)、贸易竞争指数(TC)这三项指标[4],采用聚类分析模型对金砖国家内部和外部贸易环境分别作了分析。

1、聚类分析

聚类分析是一个将研究对象分为相对同质的群组统计分析技术。聚类的方法有很多,本文中我们采用欧氏距离的平方作为距离度量来描述样本之间的亲疏程度,然后在计算中本文选用了系统聚类分析中的离差平方和法(Ward法)和平均联结法分别对样本进行了聚类。通过对比两种方法的分类结果,发现结果差异不大。所以本文在这个问题中只探讨选用离差平方和法的聚类,其步骤如下:

(1)聚类前先对数据进行变换处理,一般是用标准化变换。这样做的主要原因是本文中选取的三个指标有不同的度量单位。

(2)根据研究对象,作具体分析以选择合适的距离。本文选用欧氏距离的平方,公式如下:

(1)

(3)求离差平方和(Ward法)。该法是根据方差分析的原理得到的,如果分类比较合理,则同类样品之间的离差平方和较小,类与类之间的离差平方和较大。假设类Gp与类Gq合并成新类Gr,则Gr与任一类Gi的距离递推公式为:

(2)

经实践证明,利用离差平方和分类的效果比较好。

(4)确定谱系分类。本文聚类分析的指标依据是三个指数:市场占有率指数(MS)、贸易竞争优势指数(TC),以及显示性竞争优势指数(RCA)。

2、金砖国家内部聚类

本文选取了2010年金砖国家的数据,并计算出五个国家3个指标(TC、MS、RC)的值(见表1,其中RCA1代表货物贸易RCA指数,RCA2代表服务贸易RCA指数,TC1为货物贸易TC指数,TC2为服务贸易TC指数)。

对数据进行标准化,并用SPSS软件对五国进行聚类分析,并生成聚类树状谱系(图1):

从以上聚类可以看出,如果分成3类,则巴西和俄罗斯属于一类,印度和南非为一类,中国独自为一类。所以金砖国家之间的优势不同(见表2)。

具体分析其差异时,我们可以从表2看出,中国的市场占有率(MS指数)是最大的,是导致中国是第一类的主要原因。南非和印度在贸易竞争(TC指数)上最弱,所以把它们分为了一类。巴西和俄罗斯在三个指标(TC、MS、RC)上面属于中等值,并且它们之间数值相差并不大。并把它们聚成一类。 以从总体上看,这个优势差异可以看成:中国>俄罗斯和巴西>印度和南非。

3、金砖国家和其他国家的外部聚类

内部聚类只是分析了金砖国家内部的差异,但不能看出金砖国家与发达国家的差异大小。为了更好地分析金砖国家与发达国家的差异,我们抽取了21个国家和地区2010年的数据,用TC、MS、RC三个指标进行聚类分析,并生成聚类树状谱系图(图2)。在聚类分析Cluster Membership 方框中,考虑到既保证各类差异明显类数,又不至于过多,所以本文选择分三类,再分为三类时各个方案所对应的类(见表3)。

从以上聚类图可以看出,将21个国家分成三类。第一类为英国、美国、加拿大、法国、意大利和日本。第一类共有6个国家和地区,其对外贸易竞争力水平较强,这类国家和地区TC指数皆大于0,RCA指数大于0,MS指数较高。这也说明这G7中6个发达国家在对外贸易上对金砖国家有着明显的优势。

第二类为中国和德国,第二类对外贸易处于中等水平,说明中国在对外贸易在金砖国家中处于领先地位,并且有着比较大的优势。这也和我们内部聚类得到的结果相同,同时验证了我们结果的正确性。

第三类为巴西、印度、俄罗斯、南非、新加坡、西班牙、奥地利、澳大利亚、墨西哥、韩国、泰国、荷兰和爱尔兰。它们对外贸易水平相对较弱,并且可以看出金砖国家:巴西、印度、俄罗斯、南非这四国在进行外部聚类时被分为一类,说明四国在对外贸易优势上差异较小。

4、结果分析

通过以上分析,可以得到以下几个论断:

(1)综合考虑内部和外部聚类,在对外贸易优势上我们可以得到以下结论:中国>俄罗斯、巴西>印度、南非。

(2)通过内部聚类分析,可以发现金砖国家内部在对外贸易上差距较小。

(3)虽然金砖国家近几年对外贸易取得了长足的增长,但是与世界发达国家相比,还是存在很明显的差距。

(4)从MS,RCA和TC比较来看,五国都有各自的优势:货物贸易中,中国优势主要是在资本和劳动密集型产品上;巴西和南非主要在资源密集型产品上;俄罗斯则在资源密集性产品上;印度在劳动密集型的产品上。

5、结语

尽管金砖国家对外贸易总量迅速增长,但是占世界贸易和世界GDP的份额普遍偏低,与其在世界经济中的地位极其不相称。无论从世界市场占有率指数、显示性比较优势指数以及贸易竞争指数上来看,其数据与发达国家还是存在一定的差距。所以,五国都应对各自在对外贸易上的劣势采取一定的措施,可以通过提高服务及产品在国内三大产业中的比重,为贸易竞争力的提升打下基础。同时,均衡货物及服务业结构,增强在电子信息、保险、计算机、金融等方面的贸易水平,从而全方位提升对外贸易规模和质量。

参考文献

[1]丁振辉,张师飒.金砖四国服务贸易竞争力研究[J].改革发展,2010,77(8):12-13.

[2]施佳烨,王佩,赵萍萍,周亚骐.金砖国家对外贸易竞争力比较分析[J].江苏商论,2011,7:69-71.

[3]武敬云.“金砖国家"的贸易互补性和竞争性分析[J].国际商务——对外经济贸易大学学报,2012,2:21-30.

[4]张念.金砖四国出口贸易竞争力比较研究[D].武汉:武汉理工大学,2009.

[5]冯跃,郑锋.金砖四国服务贸易竞争力及其与发达国家的比较[J].华东经济管理,2011,25(2):70-74.

[6]周蕾,郑吉昌.服务业国际竞争力的聚类分析[J].科技进步与对策,2005(12):84-86.

聚类分析论文范文6

关键词:叶脉;层次聚类;相关性分析;叶片快速分类

中图分类号:Q94 文献标识码:A 文章编号:0439-8114(2013)14-3423-05

树叶的形状是多种多样的,是什么因素导致了树叶形状的多样性,目前学术界还没有定论。一直以来,国内外的学者们从不同的角度探讨了树叶形状多样性的原因。李志英等[1]研究了叶片气孔密度大小与起源地的关系,杨传友等[2]系统研究了苹果树叶片气孔的结构特征,并得出叶片气孔大小、结构、密度可作为树木起源地分类的重要指标;吕政涛[3]通过观察并总结发现了叶形与树形的相关关系;Pierce等[4]研究了乔本科植物叶的经济学谱系对其生存的影响;Karlik等[5]提出了计算树木叶片质量的方法。然而,这些研究并没有从叶片的内部本质上分析树叶形状多样性的原因,2011年Blonder等[6]通过对叶脉的研究,从生物学理论及叶脉经济学原理角度建立了一种新的数学模型,这为找到叶片形状千差万别的原因迈出了极其重要的一步。本研究在Blonder等建立的叶脉数学模型的基础上提出了树叶叶片的快速分类方法,并从环境等角度具体探讨了影响叶形的主要因素。

1 叶片分类模型

为了对树叶进行分类,此次研究假设叶形是进行分类的惟一依据,而根据Blonder等的叶脉数学模型可知道密度(σ)、距离(d)、圈数(ξ)是影响叶形的最基本的3个因素,其中密度(σ)表示单位面积的叶脉长度;距离(d)表示单位叶片面积中所有完整叶脉圈的最大内切圆直径;圈数(ξ)表示单位面积完整的叶脉圈的个数。这3个量的定义图如图1所示。可以根据这3个因素对叶片进行分类。从现实上考虑,圈数(ξ)对叶片形状的影响不会很大,而对于其他两个因素,很难确定哪个因素对叶脉布局的影响最大,因此研究分别以距离(d)和密度(σ)对叶片进行分类,具体操作过程如下:由于树木的种类过多,地域分布也很广泛,对所有的树木叶片进行分类将十分繁琐,因此研究选取了25种具有地域代表性的树木树叶(表1)进行分类研究[6]。分别提取这25种树叶的叶脉,并分别对叶脉多次进行距离测量,取多次测量的平均值作为这种树叶的叶脉距离(d)。密度(σ)的测量方法与之相同。

2 叶片聚类原理与结果分析

聚类分析(Cluster analysis)是一组将研究对象分为相对同质的群组的统计分析技术。聚类分析的目标就是在相似的基础上收集数据来分类,聚类分析的方法主要有快速聚类法、谱系聚类法、变量聚类法、层次聚类法和非层次聚类法等,本研究将使用层次聚类方法来对叶片进行分类。

2.1 层次聚类基本原理

层次聚类方法是依据给定的簇间距离度量准则,构造一棵由簇和子簇形成的聚类树,直到满足某个结束条件为止[7]。根据要求的不同,可以分为自顶向下的层次聚类以及自底向上的层次聚类,主要有凝聚和分裂两种层次聚类方法。现实中,大部分层次聚类都使用凝聚的方法,其策略是首先将每个样本点都看成一个类,然后逐渐合并成一个越来越大的类,直到最终合并成一类为止。

不同的层次聚类在每一层上的合并方式也有所区别,主要有:平均距离,取两个聚类间样本的平均距离作为这两个类间的距离;最小距离,取两个聚类间样本的最近距离作为这两个类间的距离;最大距离,取两个聚类间样本的最远距离作为这两个类间的距离[8-10]。此次研究使用最小距离来对类进行合并。层次聚类算法的主要流程如图2所示。

2.2 层次聚类结果

根据以上所测得的数据,运用统计分析软件SPSS可以得出层次聚类结果,如图3所示。观察聚类结果发现,根据这两个因素(距离和密度)分别聚类,所得大部分的归类都是相同的,只有少部分的结果不同,原因可能是测量误差对聚类分析有影响,故而对于大部分树叶来说本分析方法还是适用的,因此依据距离(d)以及密度(σ)对树叶进行分类是可行的,以下具体分析通过距离(d)进行聚类的结果。由图3的聚类结果可知比较难确定类别数目,研究决定分别选定2、3、4、5个类别,并通过以下步骤分析得到最终的分类:设置每组的平均距离为给定的标准组;分别计算每组相对于标准组的距离,并通过图像呈现出来,结果如图4至图7所示。

分析发现当类别数目越大时,距离越小,即类别数目越大,会使得分类结果越精确。这样就可以推测出,当每种树叶都分为单独一类时,所得的分类结果最满意,显然这种情况在实际情况下是行不通的,根本就没有达到将树叶分类的目的,也就是说分类并不是越细越好,因此应该找到一个分类的平衡点使得分类更具合理性,更加有效。在这4种分类中,分2类和3类时的距离比较大,分4类、5类的距离都比较小,结果都比较合理,而一般的分类,分4类就差不多了,分5类的话会显得多余,所以经过综合考虑,研究决定将这25种树的树叶分成了4类,结果如表2所示。

3.2.2 叶形与树枝轮廓的相关性 运用SPSS软件对树枝密度和叶片密度进行相关性分析,所得结果见表3。首先假设树叶形状与树枝轮廓没有联系,由相关性分析结果可知,两种密度的Pearson相关系数为0.765,树干特征与叶片特征不相关的假设检验值为0.016,显然,这个结果是在置信水平为0.05对应的置信空间之外,所以假设不成立,即树叶的形状与树枝轮廓有一定的相关性。

4 小结

研究在Blonder等[6]的叶脉数学模型的基础上,提出了一种切实有效的叶片分类方法,从内因和外因两方面分析了叶片形状的影响因素,得到如下结论。

1)测定了25种树叶叶片的密度(σ)、距离(d)和圈数(ξ),并依据其中的密度(σ)以及距离(d)分别进行了层次聚类分析,观察得出利用这两个因素进行分类差别不大,因而选取距离(d)对树叶进行分类,综合考虑精确度和有效性,最终得出将这些叶片分为4类更加合理。

2)考虑影响叶片形状多样性的内部及外部原因,基于叶片光合作用及曝光率讨论了影响叶片形状的不同因素,运用能量转化理论分析发现,叶片的曝光率大小会影响叶片的形状;继而提取9棵树的树干及树叶特征值并进行相关性分析,结果表明,树叶的形状与树枝轮廓形状有一定的相关性。

参考文献:

[1] 李志英,梁艳荣,胡晓红.梨不同系统叶气孔的密度、大小与起源地气象因子的关系[J].内蒙古农业科技,1994(5):31-32.

[2] 杨传友,史金生,村欣阁,等.苹果叶片气孔的研究[J]. 山东农业大学学报,1998,29(1):8-14.

[3] 吕政涛. 一项有趣的观察——叶形与树形的相关[J]. 落叶果树,1986(4):34.

[4] PIERCE S,CERIANI R M,ANDREIS D E,et al. The leaf economics spectrum of Poaceae reflects variation in survival strategies[J]. Plant Biosystems,2007,141(3):337-343.

[5] KARLIK J F,WINER A M. Comparison of calculated and measured leaf masses of urban trees[J]. Ecological Applications,9(4):1168-1176.

[6] BLONDER B,VIOLLE C,BENTLEY L P,et al.Venation networks and the origin of the leaf economics spectrum [J]. Ecology Letters,2011,14(2):91-100.

[7] 段明秀.层次聚类算法的研究及应用[D].长沙:中南大学,2009.

[8] 贾瑞玉,查 丰,耿锦威,等. 一种基于引力的分层聚类算法[J].计算机技术与发展,2011,21(3):76-79.

聚类分析论文范文7

关键词:模糊综合评价;分析聚类分析;最佳阈值

中图分类号:G642.4

目前鹤岗师专采用的是学生打分、督导听课、系部结合的方式得出的评价结果作为教师年终考核奖惩的重要依据,但这种考核方法过程简单,而且主观性强,缺乏客观的、量化的、科学的考核指标,不能反应出真实的成绩,并在考核过程中定性分析过多,定量不足,量化的细则没有涉及到具体的应用,缺乏衡量标准,很多时候依靠经验印象来评价,从而导致考核的片面性与非科学性。考核结果大多采用优秀、良好、合格、较差四个等级,并且对优秀率规定了上限。

本文根据大学教师绩效评价的全方位、多角度要求,结合本学校实际情况,运用模糊聚类分析算法的最佳阈值的确定,在.net的环境中编写程序,实现对教师的教学能力作出最佳的综合评价方法。

1 模糊聚类分析概述

聚类分析是指对事物按一定要求进行分类的一种数学方法,将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类,但给出的结果而不是说目标绝对地属于或绝对地不属于哪一类,而是指明在什么程度上属于哪一类。

设数据集X中含有n个样本,表示为xk,k=1,2,3,…,n.聚类问题是要将{x1,x2,…,xn}区分为X中的c个子集,2≤c≤n,要求相似的样本应尽量在同一类,c为聚类数。

模糊聚类分析步骤可以概括为:数据标准化,建立模糊相似矩阵,聚类。

1.1 数据标准化。设论域U={u1,u2,… ,un}为被分类的对象,每个元素又由m个数据表示,对第i个元素有

Ui={xi1,xi2,…,xim}(i=1,2,3,…,n)

这时原始数据矩阵为

标准差变换

经过变换后,每个变量的均值为0,标准差为1,并可以消除量纲的影响,但不一定在[0,1]区间上。得到极差变换公式为:

经过极差变换后有0≤ ≤1,且消除了量纲的影响。

1.2 建立模糊相似矩阵。又称为标定,即标出衡量被分类对象间相似程序的统计量rij(i,j=1,2,…,n)。

设论域U={u1,u2,…,un},其中每个元素为一个样本,建产U上的相似关系R,R表示相似矩阵rij=R(ui,uj)。每个样本为m维向量,ui={xi1,xi2,…,xim}。

计算rij可以有多种方法,本文主要讨论距离法中的海明距离法。其公式如下:

海明距离:

d(ui,uj)=

1.3 聚类分析方法。本论文中采用的传递包算法。根据标定所建立的模糊矩阵R,一般来说只是一个模糊相似矩阵,不满足传递性,即R不一定是模糊等价矩阵,为了进行分类,还需要将R改造成模糊等价矩阵R*。可以用求平方法求R的传递闭包t(R)。从模糊矩阵R出发,依次求平方:R R2 R4 …,当第一次出现Rk・Rk=Rk时,表明Rk就是所求的传递包t(R)。再让阈值λ由大变到小,就可形成动态聚类图,获得所需要的分类。

1.4 最佳阈值λ的确定。在模糊聚类分析中,对于各个不同的λ∈[0,1],可得到不同的分类,从而形成一种动态聚类图,这对全面了解样本的分类情况是比较形象和直观的,但许多实际问题需要选择某个阈值λ,确定样本的一个具体分类。这就提出了如何确定阈值λ的问题,按照实际需要,在动态聚类图中,调整λ的值以得到适当的分类,而不需要事先准确估计好样本应分成几类。当然,也可由具有丰富经验的专家结合专业知识来确定阈值λ,从而得出在λ水平上的等价分类。

用F-统计量确定λ最佳值

设论域U={x1,x2,…,xn}为样本空间(样本总数为n),而每个样本xi,有m个特征(即由试验或观察得到的m个数据):xi=(xi1,xi2,…,xin)(i=1,2,…,n),于是,得到原始数据矩阵。

总体样本的中心向量为

=( , ,…, ,…, )

其中

= (k=1,2,…,m)

设对应于λ值的分类数为r,第j类的样本数为nj,第j类的样本记为: , ,…, ,第j类的样本中心向量为 =( , ,…, ),其中 为第k个特征的平均值: = (k=1,2,…,m)

2 实例分析

数据采样以我校10位教师教学能力评价考核为例。参加考核的教师人数为158人。参与评估的人员组成为校长3人,教务处2人,人事处3人,科研中心2人,学生处2人,教师18人。数据汇总后,本文取其中有代表性的10人,按学校要求被考核教师的绩效从5方面进行评价,依次为教师素质、教学能力、科研、个人发展、协调性。通过计算机程序利用模糊聚类的方法在.net环境下完成程序的编写。

2.1 本文以10名教师的数据为例,原始数据如图1:

图1 原始数据

2.2 在模糊聚类分析算法中采用的是对原始数据利用极差变换,消除量纲影响,并使数据的取值范围在[0,1]之间(本例中Fa1=0.2,Fa2=0.24,c=0.1),再利用数重积算法进行标定得到如图2的相似矩阵,利有传递包算法得到如图3所示的等价矩阵,在此基础上进行聚类分析,如图4结果界面所示的分类效果结果。

2.3 通过系统得出模糊相似矩阵R的计算结果如下2图:

图2 相似矩阵

2.4 等价矩阵如下图3:

图3 等价矩阵

2.5 聚类分析的最后效果结果如下图4:

图4 聚类分析结果图

F检验的临界值也很重要,要想有且只有一个效果特别显著的分类,参数Fa2给定往往费一些周折,最后确定一个最合适的值。

3 结束语

以上是结合我们学校实际情况,对教师的绩效考核的一种方法,教师绩效考核是一项系统的工程,评价指标的合理性、科学性是公正评价的关键所在。只有理论联系实践,才能使评价系统不断改进,不断完善,才能探索出适合学校自身发展的教师绩效考核的方法。

参考文献:

[1]宋虎珍.基于模糊综合评价的高校教师绩效考核研究[J].教育探索,2012(11).

[2]王宏,杜丽萍,张帅.基于模糊综合评价法的高校教师绩效评价模型[J].河北理工大学学报(社会科学版),2011(01).

[3]陈华喜,王芳,许庆兵.基于三角模糊数的层次分析法在大学生综合素质评价中的应用[J].伊犁师范学院学报(自然科学版),2012(02).

聚类分析论文范文8

关键词:主成分分析;聚类分析;综合评价

中图分类号:F22 文献标识码:A 文章编号:1672-3198(2010)06-0091-02

1 引言

当前,经济发展已经成为我国各项建设的中心,而人们往往只是以国内生产总值来衡量各个地区的发展状况,这是很不公平的,也是很不科学的。我们衡量一个地区的发展情况,不能只看它的国内生产总值,也不能只看它的某一个产业的产值,要把各个方面综合起来考虑,看各个方面的综合效果。这就需要一种综合评价的方法, 同时通过综合评价帮助我们发现社会生产中存在的问题以及影响总体发展水平的因素, 为各个地区实现均衡发展提供一些理论依据。

本文就利用主成分分析方法和聚类分析方法对河北省11个市的经济发展水平和经济综合实力进行了综合评价,并对这11个市进行了排序,得出了各市在河北省的地位。

2 原始数据说明

本文选取了河北省11个市的6个主要经济指标,数据全部来源于河北省统计局。这6个经济指标包括:人均国内生产总值x1,人均工业总产值x2,人均农业总产值x3,人均第三产业总产值x4,社会消费品零售总额x5,固定资产投资总额x6。具体数据见表1。

投资总额

本文利用主成分分析对河北省11个城市的经济情况进行分析,按经济综合实力评价各市在全省的地位。根据表一中的数据,利用SAS软件可以求得指标x1,x2,x3,x4,x5,x6相关系数矩阵的特征值以及各特征值的贡献率和累积贡献率,见表3:

在第一个主成分z1的表达式中,各变量的系数都差不多在0.3,0.4左右,所以z1是综合能力较强的指标,表示各市经济的综合指标。而第二个主成分z2,前4个变量的系数均为负,且绝对值较小,只有x5,x6的系数较大且为正,因此z2是主要反应了社会消费品零售总额和固定资产投资总额的指标。

虽然与原数据比较,z1与z2更好地反映了河北省各市经济发展的总体水平。但是仅用这两个变量还是很难看出各市在全省中的地位。因此,本文就引用了杨善朝,李志友提出的构造加权综合量的方法,将z1和z2按贡献构造以下加权综合量:(设第一第二个特征值分别r1和r2)

z=r1/(r1+r2)*z1+r2/(r1+r2)**z2

其中,=sign(y1+y2+y3+y4+y5+y6 )为符号函数。如此构造统计量的意义可以参见扬善朝和李志友的《广西地区经济指标评价》。按照加权综合量z的大小对11个市进行排名,见表4:

为了验证上述分析的正确性,我们对上述11个市进行系统聚类,聚类结果见下图:

图1 聚类分析结果从图上看,河北省11个市大体可以分为三类:石家庄和唐山为第一类;秦皇岛、廊坊、沧州和邯郸为第二类;承德、衡水、张家口、邢台和保定为第三类。

5 结果分析

比较主成分分析和聚类分析结果,我们可以发现这两种分析得出的结果大致相同。

下面就对这一结果进行一下分析:

(1)在主成分分析中,石家庄和唐山的加权综合量z远远大于其他城市,而在聚类分析中,他们也被归在一类。这是因为石家庄和唐山作为河北省的政治中心和经济中心,综合实力遥遥领先于其他城市,故归为一类,排名也在最前边。

(2)在主成分分析中,廊坊、沧州、邯郸和秦皇岛分别排名3,4,5,6连着,而在聚类分析中,这四个城市同样被划分在同一类,说明两种分析的结果是一致的。原因是廊坊和沧州综合实力较强(指标z1较大),邯郸社会销售总额和固定资产投资较高(z2较大),排名第六的秦皇岛综合实力和社会销售总额以及固定资产投资都居中,所以也划为第二类。

(3)聚类分析中,其他各市被划分一类,而由主成分分析,他们的排名也正好都是落在后面,这说明他们的经济综合水平还比较落后。

综上所述,本文分别用主成分分析和聚类分析综合评价了河北省11个市的经济综合实力情况。两种分析的结果是一致的,并且也与河北省的实际情况大体相符,这说明用多元分析法来评价地区经济发展水平是可行的,并且也可以帮助我们发现社会生产中存在的问题以及影响总体发展水平的因素, 为各个地区实现均衡发展提供一些理论依据。

参考文献

[1]翁小清,甄增荣.非参数统计学方法在上市公司经营业绩分析中的应用[J].河北财经学院学报,1995,(1).

[2]郭立田,车胜德.社会经济统计学基础[M].石家庄:河北科学技术出版社,1991.

[3]扬善朝,李志友.广西地区经济指标评价[J].数理统计与管理,1997,16(4):1-4.

聚类分析论文范文9

关键词:教育指标;聚类分析;SPSS

一、引言

教育是发展科学技术和培养人才的基础,在现代化建设中具有先导性全局性作用。全国各地教育的发展存在着不少差异。下面,根据全国各省的教育状况进行区域的划分,以便进行分类的指导。利用世界著名的统计软件SPSS进行聚类分析功能,对各省份进行聚类分析,以便很好地归类。

二、聚类分析简介

(一)聚类分析概述

聚类分析是根据研究对象的个体特征,对其进行分类的方法。分类在经济、管理、社会学、医学等领域有着广泛的应用。例如,有p个指标,n个对象在p个指标下的数据,对这n个对象进行聚类。

(二)聚类分析作法

1、将数据标准化

为了消除不同变量单位对聚类结果的影响,应当首先对所有的数据标准化:xij=

2、计算对象之间的距离

计算对象之间的“距离”,得到对象之间的“相似关系”矩阵R(rij)。“距离”有多种表达:

(1)欧氏距离(的平方):r2ij=(xik-xjk)2

(2)偏差距离:rij=xik-xjk

(3)相关系数:

rij=

(4)明考夫斯基距离(的q次方):rijq= xik-xjkq

(5)马氏距离(的平方):r2ij=(xi-xj)TV-1(xi-xj)

3、选择类与类之间的距离定义

类与类之间的距离可用“代表点”之间的距离表示。下面列举其中两种方法:

(1)用两个类之间的距离最近(或最远)的点,分别作为这两类的代表点。

(2)用两个类(类S和类T)中所有点的距离(平方的)平均值,作为两个类之间的距离(的平方):d2(S,T)=d2ij,这种方法也叫组间连接法(本文采用的方法)

4、聚类

(1)把每个点(对象)作为一类。

(2)找出距离最小(或者最大的)dij,从而得到距离最近(或最远)的两类i和j,把它们合并为更高的一类。这样不断重复,知道所有点都并入一个大类。

5、分类

分类的数目符合使用的目的。

三、建立指标体系

全国各地教育发展水平差异较大例如各省份的教育水平、教育观念、师资力量、教育手段和设备都不相同。经济发达地区教育发展水平较高。这里讨论的教育发展水平主要是从教育的“硬件设备”来讨论。联合国教科文组织(UNESCO)出版的《世界教育报告》对各国教育状况的数据和资源进行适当分析、筛选、整理和再加工,汇集出与特定指标相关的信息。它提出了几个方面评价教育发展水平:教育供给(资源)、入学与参与、人力资源、教育内部效率、教育产出等。

本文根据这几项概括中选出一些指标用来对全国各省份进行聚类。教育经费是教育供给的主要方面。对人力资源可用师生比代表,入学与参与采用升学率,教育内部效率可用升学率代表,教育产出利用文盲人口占15岁以上比重表示,入学与参与采用每10万人口平均在校生表示(本文采用的数据来自中国统计年鉴2007年)。

其中升学率的公式采用教育统计常用公式:升学率= ×100%

本文中升学率采用了普通小学升学率、普通初中升学率、普通高中升学率。每十万人口平均在校生和师生比选取了小学、初中、高中、高等学校4个类型。

根据中国统计年鉴2007年,教育经费投入到普通小学、普通初中、普通高中、普通高等学校的比例大概是3∶2∶1∶2,因此可以近似把它当作权重,再利用公式:

人均在学生指数

权重的选择很好解决指标间数量级的等方面的矛盾。

人均在校学生数也是一个百分比值。用这个指标代替每10万人口平均在校生数来进行聚类。

教育经费与地区生产总值之比是因为国内有学者曾对教育经费支出与GNP的Pearson相关系数很高。教育经费与GNP存在着内在的密切联系。并且认为教育投资与GNP存在着因果关系。

师生比是某待定教育层次在指定年份中的学生人数与同年同一教育层次工作的教师人数之比。它反映某特定教育层次在某年每位教师平均负责教育学生的人数。

四、聚类分析

利用SPSS根据指标对全国各省份进行聚类。

对31个省和直辖市进行聚类。选择了组间聚类的方法。

表3给出了聚类的过程,表格中部的coefficient列给出了合并时类间的距离。而且可以看到类间距离越来越大。在该列左边给出了第几步谁和谁并成一类。在该列后边,给出了个体首次被聚类的步骤号。

图1清楚地表示了聚类的全过程,它将实际的距离按比例调整到0-25的范围内,用逐级连线的方式连接性质相近的个案或新类,直到并为一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离,然后垂直标尺划线,该垂直线与水平连线相交,则相交点数即为分类的类别数,相交水平连线所对应的个案聚成一类。

五、分析与结论

对全国所有省份和城市进行的教育发展水平进行划分,并不是划分约多越好,也不能太少。基本上,可以对其分为4类。首先看到(2)和北京(28)地区。地区经济不发达,人民生活比较贫困,教育事业还处在起步阶段,教育设施还不完善。政府应该多投入教育经费到支持其建设。至于北京,首都北京是全国文化中心,这是它的城市职能,很重要的表现之一就是名校云集。北京的学生能相对较容易地考入清华北大,升学率高。政府对其教育经费投入也比较大。因而北京可以说是全国教育水平最强的城市。青海、宁夏、甘肃、贵州、云南、安徽归为一类前四个省份的都算是欠发达地区.欠发达地区经济落后,穷省办大教育,面临极大的困难和挑战;欠发达地区经济发展状况与高等教育规模不对称,存在诸多矛盾现象.重新审视高等教育财政投资理论,针对欠发达地区高等教育财政投资的困境,需建立贫困地区高等教育成本中央财政投资补偿制度和地区间投资补偿制度.至于安徽,经济发展中等,但其文盲率居然占很大比重。安徽要调整好农村产业结构,提高农村人口素质。剩下的省份归为一类,各省的教育发展指标没有太大差异。广东、上海、江苏等地虽然经济发达,但教育投入比例和其他省份相差不大,所有归一类。当然,还可以对这一类进行细分来分析。

所以一个地区的教育水平跟该地区的经济还是有很大关系的。教育的投入比例也是与教育水平有关系的。

参考文献:

1、马庆国.管理统计――数据获取、统计原理 SPSS工具与应用研究[M].科学出版社,2002.

2、中国统计局.中国统计年鉴2007[M].中国统计出版社,2007.

3、王绽蕊.区域教育发达程度衡量指标体系的构建[J].教育发展研究,2000(12).

4、叶平.教育发展水平综合指标及其因果关系探析[J].教育研究,1992(7).

*本文为广东省自然科学基金资助项目(项目编号:04009492,06201498)。

聚类分析论文范文10

[关键词] 股票定价;聚类分析;判别分析;新股上市

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 17. 057

[中图分类号] F830.91 [文献标识码] A [文章编号] 1673 - 0194(2014)17- 0092- 02

0 引 言

股票定价理论是资本市场理论的核心内容之一。它作为一种不确定性条件下股票价格决定及股票市场均衡的理论,主要研究必要报酬率中包含的风险因素及其互动关系。股票发行价格是指股份有限公司出售新股票的价格。在确定股票发行价格时,可以按票面金额确定,也可以超过票面金额确定,但不得以低于票面金额的价格发行。股票发行价格的定价是近年来金融与财会领域研究的核心问题之一,它不仅具有很高的学术价值,更能在实际应用中发挥巨大作用。

目前常用的新股发行定价方法有议价法和竞价法。议价法是指新股发行时由股票发行人与主承销商协商确定发行价格,在议定发行时,主要考虑的因素有二级市场股票价格的高低、市场利率水平、发行公司的未来发展前景、发行公司的风险水平和市场对新股的需求状况等。而竞价法是由各股票承销商或者投资者以投标方式相互竞争确定股票发行价格,是一种直接的市场化定价方式。然而不论采用何种方法,上市公司均需提前确定一个初始指导价格,即股票内在价值,而确定这个指导价格的方法主要有市盈率法、净资产倍率法和现金流量折现法3种方法,每种方法适用于不同状况的公司,因此确定使用何种定价方法亦是准上市公司需要解决的重要问题之一。

本文先通过对目前我国A股市场各上市公司的盈利能力、营运能力、资产规模和发展能力的聚类分析,将其分成三大类,即盈利驱动型企业、资本驱动型企业和发展驱动型企业。然后将某一个准上市公司的各项同类指标与之对比进行判别分析,从而推断该企业生存发展的驱动因素,进而指导其新股定价。

1 指标选择

本文通过国泰安数据库选取了我国A股市场2013年各上市公司的盈利能力、营运能力、资产规模和发展能力的各项指标,具体含义如表1所示。

2 聚类方法

由于本文中所选取的数据样本量较大且指标较多,因此采用K均值聚类法能较为快速地得到相应结果,K均值聚类法的过程如下。

(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心。

(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分。

(3)重新计算每个(有变化)聚类的均值(中心对象)。

(4)循环(2)到(3)直到每个聚类不再发生变化为止。

3 聚类过程

首先,我们将数据预处理之后导入SPSS,其次,依次点击Analysis -> Classify -> K-Means Cluster,将数据进行迭代和分类,从而可以得到表2所示的分类结果。

据此我们可以得出各上市公司的分类信息。之后,我们可以继续对其进行分类汇总,从而得出各类公司各项指标的类均值,如表3所示。从表3中可以看出,对于第一类公司,其盈利能力和发展能力高于其他类,适合使用市盈率法或未来现金流量贴现法进行股票定价;对于第二类公司,其营运能力高于其他类,适合使用市盈率法进行股票定价;对于第三类公司,其资产规模水平较高,适合使用净资产法比例法进行股票定价。

4 新股上市定价方法的判别分析

在进行了已上市公司的聚类分析之后,我们就可以根据准上市公司的各项指标进行判别分析,从而确定其新股上市的定价方法。本文中选取某一准上市公司的相关财务指标进行模拟,具体数据如表4所示。

将其输入SPSS并进行聚类分析后,可以得出其最终结构矩阵以及重心函数,如表5和表6所示。将各个指标代入表5后,我们可以算出其重心为(-0.42,-0.53),根据表6,我们可以判断,准上市公司更符合第一类公司的特征,因此选用市盈率法或未来现金流量贴现法进行股票定价较为合适。

主要参考文献

[1]陈海明,李东,潘刚.股票定价理论及其对我国股票定价模型设计的启示 [J].南京航空航天大学学报,2003,5(3).

聚类分析论文范文11

关键词:K-均值聚类;建筑物;FR

中图分类号:TB

文献标识码:A

doi:10.19311/ki.1672 3198.2016.22.087

0 引言

当前国家经济快速发展,城镇化建设已成为新时代的主题,随着现代建筑中人员和财产的高度密集,一旦发生火灾,火势必将失去控制,造成的人员伤亡和经济损失是不可估量的。为了尽可能的避免火灾事故的发生,如何对建筑物的火灾危险性分级成为人们日益关心的问题。

1 建筑物火灾危险性评判

近几十年来,国内外基于火灾安全科学及工程提出了许多理论预测方法,常用的评价建筑物火灾危险性的方法大致分为定性分析和定量分析方法。本文通过对36所建筑物进行评判,计算出火灾危险度FR,再利用K-均值聚类分析的方法进行分级。

2 K-均值聚类分析法

2.1 K-均值聚类分析的基本思想

K-均值聚类法的基本思想是:以K为参数,将n个对象分割成K个簇,然后用某种原则进行修改,直到每个聚类中所有值与该聚类中心距离的总和最小,每个聚类的聚类中心就是每个聚类的均值。

2.2 K-均值聚类分析计算

3 用K-均值聚类分析法对建筑物火灾危险性分级

3.1 建筑物火灾危险性分级评判依据

本文用建筑火灾危险度(FR)来综合评价建筑物的火灾危险性:

FR=(QnC+Qi)BLHDWR

3.2 K-均值聚类分析模型的建立与样本分析

根据所参与的课题和实习资料,以及查阅国内外相关文献的数据资料,选取了其中36所建筑物,计算出火灾危险度FR,再利用K―均值聚类分析的方法进行分级。其中,人员危险因子H和财产危险因子D分为取值1.5和1。通过K―均值聚类分析后,建筑物18、34为第一类,建筑物1、2、4、7、8、9、10、11、12、13、14、15、17、20、21、22、24、25、26、27、28、30、31、32、33、35、36为第二类,建筑物3、5、6、16、19、23为第三类,建筑物29为第四类。

4 结论

基于K-均值聚类分析法,将这36所建筑物分为4类,第一类是火灾危险性较大的建筑物,称为Ⅱ级建筑物;第二类是火灾危险性最小的建筑物,称为Ⅳ级建筑物;第三类是火灾危险性较小的建筑物,称为Ⅲ级建筑物;第四类是火灾危险性最大的建筑物,称为Ⅰ级建筑物。

参考文献

[1]吴立荣.建筑火灾危险性评价研究[D].济南:山东科技大学,2006.

[2]毛春艳,周宗放.基于多级物元分析的高层建筑火灾风险评估[J].建筑科学,2008,24(1):24 26.

[3]雍静,陈亮,陈双燕.建筑物火灾危险性分级方法的研究[J].现代建筑电气,2010,(02).

聚类分析论文范文12

关键词:r软件;系统聚类分析;多元统计

引言

多元统计分析是统计学的一个重要分支,也称多变量统计分析;在现实生活中,受多种指标共同作用和影响的现象大量存在,多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律的重要学科,其中最常用聚类分析方法,由于多元统计聚类分析方法一般涉及复杂的数学理论,一般无法用手工计算,必须有计算机和统计软件的支持。

在统计软件方面,常用的统计软件有spss、sas、stat、r、s-plus,等等。r软件是一个自由、免费、开源的软件,是一个具有强大统计分析功能和优秀统计制图功能的统计软件,现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍r软件在多元统计聚类分析中的应用。

一、系统聚类分析

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。在社会经济领域中存在着大量分类问题,比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。

聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等;最常用最成功的聚类分析为系统聚类法,系统聚类法的基本思想为先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其他类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。

系统聚类法的基本步骤:

1、计算n个样品两两间的距离。

2、构造n个类,每个类只包含一个样品。

3、合并距离最近的两类为一新类。

4、计算新类与各当前类的距离。

5、重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。

6、画聚类谱系图。

7、决定类的个数和类。

系统聚类方法:1、最短距离法;2、最长距离法;3、中间距离法;4、重心法;5、类平均法;6、离差平方和法(ward法)。

二、基于r语言的系统聚类分析程序

r软件及其相关包提供了各种聚类方法,主要是系统聚类方法、快速聚类方法、模糊聚类方法,常用的是系统聚类方法。

r软件实现系统聚类的程序如下:

hclust(d,method="complete",members=null)

其中,d是由“dist”构成的距离结构,具体包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等,默认为欧氏距离;method包括类平均法average、重心法centroid、中间距离法median、最长距离法complete、最短距离法single、离差平方和法ward等,默认是最长距离法complete。

三、应用举例

表1是山东省2008年各市居民家庭平均每人全年消费性支出,利用所给数据对各市进行系统聚类。(表1)

r语言程序如下:

>x<-read.delim("clipboard",header=t)

>row.names(x)<-c("济南","青岛","淄博","枣庄","东营","烟台","潍坊","济宁","泰安","威海","日照","莱芜","临沂","德州","聊城","滨州","菏泽")

>d<-dist(scale(x))

>hc1<-hclust(d,"single")#最短距离法

>hc2<-hclust(d,"complete")#最长距离法

>hc3<-hclust(d,"median")#中间距离法

>hc4<-hclust(d,"ward")#ward法

>opar<-par(mfrow=c(2,2))

>plot(hc1,hang=-1);plot(hc2,hang=-1)

>plot(hc3,hang=-1);plot(hc4,hang=-1)

输出结果(图1)

结果分析

由图1可以看出,不同方法的分类大体一样,结合山东省具体实际情况,最长距离法分类效果较好。

在系统聚类分析中,利用r软件是最方便、最简单、最易学的,而且根据不同的情况,可以自己修改别人的程序,比较方便;可以在处理多元数据聚类分析中,利用r软件具有很大的优势。

主要参考文献:

[1]王斌会.多元统计分析及r语言建模[m].广州:暨南大学出版社,2010.

[2]汤银才.r语言与统计分析[m].北京:高等教育出版社,2005.

相关文章