20世纪90年代以来,随着数据库和信息技术的发展,由于互联网技术的普及和企业、个人数据的积累,我们可以轻松的获取并存储大量的重要数据。但是如何对我们所感兴趣的数据信息进行提取和分析,这就迫切需要一种新的数据提取软件,它能够自动地、快速地、智能地把历史数据归纳成为有指导意义的信息。而数据挖掘技术具有较强的数据处理能力(刘同明等,2001)。聚类分析就是数据挖掘技术的一种。
聚类分析是统计学的一项分支,并且逐渐形成了一个系统的体系(Everitt et al,2001)。目前,聚类分析主要应用于两个领域,一个是模式识别领域,另外一个便是数据挖掘领域。近年来,聚类分析技术已经逐渐成为数据挖掘应用中的一个富有生命力的研究方向。我们面对海量数据的时候,首先必须要做的就是对它进行归类,对原始数据进行归类的一种方法就是聚类分析法,它是将抽象的或者物理的数据,根据它们之间的相近程度,分为若干个类别,并且使得同一个组内数据具有比较高的相似度,而相异组的对象数据关联距离较大。聚类分析的应用十分广泛(刘艳霞等,2008),在生物学领域里,聚类分析可以推导动植物的分类,基因的分类分析,获得对种群中固有结构的认识。在商务市场领域,聚类分析可以帮助市场分析工程师从客户的基本信息库中发现不同的客户群体,针对不同的客户群,制定不同的
购买模式,从而可以使利益最大化。在模式识别中,聚类可以用于语音识别、字符识别、雷达信号识别、文本识别等方面。聚类分析方法还可以应用于机器自动化和工具状态检测,以及进行气候分类、食品检验和水质分析,另外,数据挖掘中的聚类分析的一个重要功能是仅仅用聚类分析构成算法工具来描述、分析数据,并且概括其分布。另外,聚类分析也可以作为其他数据挖掘方法的预处理步骤。因此,在广泛的应用领域中,聚类方法起着非常重要的作用。 聚类分析原理和应用
聚类就是抽象的或者物理的数据,依据它们的相似性或者相似程度,将其分为若干组,同一组内的成员具有高度的相似性质,聚类就是具有相似特性的对象的集合,跟平常说的“物以类聚”相似(方开泰等,1982)。聚类分析就是使用聚类算法来发现有意义的类,主要依据是把相似的样本划分为一类,而把差异大的样本区分开来,这样所生成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此相似,而与其他簇的对象彼此相异。在应用中经常把一个簇中的数据对象当成一个整体来对待(罗可等,2003)。簇:一个数据对象的集合。在同一簇中,对象具有相似性,不同簇中,对象之间是相异的。
聚类分析(Clustering analysis):把一个给定的数据对象集合分成不同的簇,即在空间 X 中给定一个有限的取样点集或从数据库中取得有限个例子的集合,{Xi}ni=1。聚类的目标是将数据聚集成类,使得类间的相似性最小,而类内的相似性尽可能得大。 聚类的数据描述为:
如果被研究的数据样本集为 E,把 C 定义为样本集 E 的非空子集,那么可以得到:
C ∈E,而且, C ≠∅
聚类就是在类C1, C2, C3,…. Ck的集合下满足两个条件:
(1)C1∪C2∪…Ck,=E (2)C1∩C2=∅
由第一个条件可以得到,在样本集 E 中的每一个样本都有一个类与它对应,而第二个条件则表明,E 中的每个样本在归属上最多属于一个类。聚类分析的基本思想非常朴素、直观和简单,它是根据各个待分类的模式特征相似程度进行分类的,相似的归为一类,不相似的作为另外一类。聚类分析包括两个基本内容:模式相似性的度量和聚类算法。模式相似性测度分三种:距离测度、相似测度和匹配测度:聚类分析有许多具体的算法,有的比较简单,有的相对复杂和完善,从算法的基本策略上看,可分为三种主要方法:根据相似性阀值和最小距离原则的简单聚类方法、按最小距离原则不断进行两类合并的方法、依据准则函数动态聚类法(汤效琴,代汝源,2003)。在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。聚类质量的高低通常取决于聚类算法所使用的相似性测量的方法和实现方式,同时也取决于该算法能否发现部分或全部隐藏的模式。聚类分析算法取决于数据的类型、聚类的目的和应用。现有的主要聚类算法大致分为以下几类:划分方法、层次方法、基于
密度的方法、基于网格的方法以及基于模型的方法等(陆云,2007)。 对于一个包含n个对象或元组的数据库,给定要创建的划分数目k,采用目标函数最小化的策略,通过迭代的重定位技术,尝试通过对象在划分间的移动来把数据分成k个组,这就是划分方法。该方法的典型代表是K一平均(K-Means)算法,K-中心(K一Mednids)算法(陈晓春等,2009)。
层次聚类算法按数据分层建立簇,形成一棵以簇为节点的树。如果按自底向上进行层次分解,则称为凝聚的层次聚类;而按自顶向下的进行层次分解,则称为分裂的(divisive)层次聚类。主要的层次聚类方法包括BIRCH、CURE、ROCK、Chameleon算法等。BIRCH算法利用层次方法进行平衡迭代归约和聚类。它首先将对象划分成树形结构,然后采用其他聚类算法对聚类结果求精。它引入了两个概念:聚类特征和聚类特征树(CF树),它们用于概括聚类描述,可以提高聚类算法对大型数据库的高效性和可扩展性。聚类特征是一个反映类内对象信息的三元组,包含类内数据点的个数、线性和以及平方和。聚类特征树是高度平衡树,它用来存储聚类特征。每个非叶子节点存放的是其子节点聚类特征的和(秦松柏,2008)。
基于密度的聚类的主要思想是:用密度来取代相似性,只要邻近区域的密度(对象或数据点的数目)超过某个闭值就继续聚类。这样的方法除了可以发现任意形状的类,还能够有效过滤噪声和孤立点数据。常见的基于密度的聚类算法有DBSCAN,OPTICS,DENCLUE等。
基于网格的聚类算法,把对象空间量化为有限数目的单元,形成
一个多分辨率的网络结构。所有的聚类都是在这个网络结构(即量化的空间)上进行。此类算法具有很快的处理速度,其处理时间独立于数据对象的数目,只与量化空间中每一单元的数目有关。此类算法不适用于高维情况,因为网格单元的数目随着维数的增加而成指数增长,而且只能发现边界是水平或垂直的聚类,而不能检测到斜边界。基于网格的比较有代表性的算法包括: WaveCluster算法,STING(Statistical InformationGrid)算法,CLIQUE(CLUsTERINGINQUEST)算法等
主成分分析是采取一种数学降维的方法,找出几个综合变量来代替
原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。其分析步骤为:①原始数据标准化处理;②计算各因子相关关系矩阵;③求解矩阵特征根和特征向量;④ 选择主成分,写出主成分表达式;⑤计算主成分得分;⑥依据得分数据,用回归方法得出评价结果;⑦ 对评价结果进行聚类分析。 聚类分析不仅在种群生态学中,解决上述的分区问题,在群落生态学也很有用。例如:研究群落的演替,比较不同空间或时间内区系的异同; 用生物群落结构评价河流内不同河段污染情况等,可比较不同河段群落一些属性的异同而予分类。在所研究的实体(如群落或小生境为数少时,可据直观或用较简单的指数,如 Jaccaod指数,Kulezyoki指数,相似商等来比较群落的异同。但若实体数及属性很多,用直观判断或上述诸指数难以比较时,则应考虑用其它方法。近十多年来,很多生态学家对应用多样性指数发生兴趣。但多样性所反映群落的信息仅是组成群落的生物种类数及个体数两种信息,它可使不同数量的分类单位
所成的生物群和优势集中具有相同的多样性。另外,没有任一个共同种类的一些生物群也可具有相同的多样性。在此情况下,聚类分析和其它多元分析不仅可简化繁多复杂的生态学原始数据,且在分类中,系在实体中属性的同一性基础上进行比较,显示实体间的关系,进而将实体按属性分类。它可与多样性指数互为补充。 排序分析原理和应用
群落生态学中的排序,是指将样点在两维或三维空间进行排列,并使样点的空间位置尽可能地反映样点在植物种类组成和发生上的相似性。通过对数据的正分析与逆分析,排序能够反映出群落类型之间、植物种类之间的相互关系,也使排序轴能够反映一定的生态梯度,从而能够解释植被或植物种的分布与环境因子间的关系。生态学上的排序方法有加权平均法、梯度分析、连续带分析、极点排序、对应分析、主成分分析、主坐标分析、相互平均、除趋势对应分析、典范对应分析、除趋势典范对应分析、典范相关分析、无度量多维标定排序等多种。
不同的排序方法对原始数据有不同的要求。象极点排序、主成分分析、主坐标分析需要原始数据呈线性关系,即植物种类的分布随着某一环境因子的变化而呈线性变化。不过,众多情况下,植物分布与环境间的关系不是线性,而是非线性关系。非线性模型一般是指二次曲线模型,比较重要的是高斯模型。高斯模型是正态曲线,含义是某个植物的个体数目随某个环境因子值的增加而增加,但当环境因子增加到某一值时,植物种的数目达到最大值,此时的环境因子即为最适
值,随后,当环境因子值再增加时,植物种的个体数目逐渐下降,最后消失。除趋势对应分析、典范对应分析、除趋势对应分析、无度量多维标定排序是基于高斯模型。
由于排序的结果能够客观地反映群落间的关系,所以它可以与分类方法结合使用。目前,人们在研究植物群落类型和与环境关系时,先用聚类分析、双向指示种分析等方面对所要研究的植物群落进行分类,然后再在排序图上分析群落的界限,反映出各植物群落之间的连续变化的关系。
排序的结果一般用直观的排序图表示,排序图通常只能表现出三维坐标。因此排序的一个重要内容是要降低维数,减少坐标轴的数目,降低维数往往会损失信息。一个好的排序方法应该是由降低维数引起的信息损失尽量少,即发生最小的畸变,也就是说它的低维排序轴包含大量的生态信息。
中国以排序为主要的分析方法的植被数量生态学研究始于2世纪70年代后期(韩逍宇等,2004),在现有的群落与环境生态关系的研究报道中,多数都是用DCA分析,从植物种、植物群落与环境因子方面对研究地进行分析,得出群落与环境的关系(李永宏等,1993)。也有个别是用来分析群落的演替。目前多数研究还有一个若同点是针对一个固定的自然草地群落,布置样方,采集数据,进行分析,得到影响群落变化的主要环境因子,比如对关帝山亚高山灌丛草甸、芦芽山亚高山草甸园、卧龙自然保护区亚高山草甸、山西云项山亚高山草甸、山西五台山蓝花棘豆群落等的研究表明,海拔是影响群落类型变
化的主要环境园子;对新疆呼图壁牛场天然草地、锡林河河漫滩草甸群落、河漫滩草地植被侧等的研究中表明土壤水分与草地类型的形成和分布有着密切的关系;毛乌素沙化草地嘲的研究表明地下水位,沙化厚度,基质类型控制着沙化草地景观生态类型的发生与演化。除了对自然草地群落的研究外。还有对人工草地群落的研究,以便更好的认识人工草地,得到其主要影响因子,促进人工草地的发展。在做上述分析的同时,并得到DCA对亚热带植物分类及景观生态学排序有很好的适用性。
CCA和DCCA是继DCA之后,提出的两种排序方法。由于在研究群落与环境的关系过程中,仅采用DCA排序就能很好的分析群落与环境的关系,所以CCA和DCCA捧序法在草地植被群落研究中没有得到广泛的应用。90年代后,这两种排序方法在藻类群(朱淖等,2004)、森林群落(张峰等,2003)、草地群落等方面都有所应用,不只对单一的一个群落进行分析,并在大的尺度上,直接分析群落与气候(米湘成等,1996)或者土壤(米湘成等,1999)的关系。在数据的选择上,除了传统重要值的选择方式外,并把丰富度、多样性、均匀度(李军玲等,2006)引入到重要值的计算中,这也是一种先进性的表现,但是应用的在草地植被群落的研究过程中,其应用报道仍然较少。为了对不周排序方法的比较,部分作者运用DCA、DCCA和DCA排序对新疆呼图壁盐化草甸群落(潘代远等,1995)、及安太堡矿区人工植被(张桂莲等,2005)进行研究,用以说明它们在分析问题上具有独特的优势,结果表明,三种方法
的结合使用比单独使用的效果好。同时还发现,CCA分析方法简单又直观,有利于在研究中的使用,并且CCA和DCCA采用的排序轴是由所测定环境因子的线性组合得到,即所谓的“环境约束”,因此它们都是限定性排序,所以,CCA和DCCA的应用突出反映了物种与环境的相关性。CCA和DCCA的排序轴不只是反映样方间在种类组成上的相似性,而且反映样方在环境因子组成上的相似性,而这两种相似性往往相互联系,因此,种类组成接近的植物群落,在其环境因子组成上也较接近,这是由植物种、植物群落和环境因子之间相互作用的生态关系所决定的,因此表现在排序图中的样方、种更加集中,群落间的界线变得更加模糊,但这种模糊不利于分析群落与环境的关系,所以。如果要着重反映群落之间的关系,就要采用同分类方法结合使用的DCA,而CCA、DCCA这两种限定排序在分析草地植物群落中,特别在揭示种与环境的关系方面具有明显的优势,并且对它们之间关系的表示既明了又直观,所以在使用的过程中,具有很大的优势。
参考文献
1. Everitt,Brian,etc.Cluster Analysis[M].London:Arnold,2001
2. 刘同明等,数据挖掘技术及其应用[M].北京:国防工业出版社,2001.
3. 刘艳霞,数据挖掘中聚类分析技术的研究与应,《科技情报开发与经济》,2008.6
4. 方开泰,潘恩沛(1982):《聚类分析》,地质出版社
5. [29〕罗可,蔡碧野等.数据挖掘中聚类的研究[]J.计算机工程与应用.2003.加182一185
6.汤效琴,戴汝源.数据挖掘中聚类分析的技术方法〔J〕.微计算机信息,2003,19(1):3-4
7.陈晓春.基于K-Means和EM算法的聚类分析.福建电脑.20()9,(2):79一80.
8.王臻. 基于主成分-聚类分析法的沙埕港海域水质状况评价[J].海洋开发与管理,2014,7:105-108
9.陆云.聚类分析数据挖掘方法的研究与应用:[硕士论文」.安徽大学.2007.
10.秦松柏,欧阳正平,程天舜.分层聚类分析在水文地球化学分类中的应用.地下水,2008,30(1):21一24
11.韩逍宇,张金屯,宫辉丸,等.安太堡矿区植被恢复过程主要种生态位梯度变化研究[J]西北植物学报,2004,24(4):2329-2334.
12.李永宏,刘书滑,张志诚镯林}可{可漫滩草甸群落的结构与生产力及其排序[J].植物生态许与地植物学学报,1993.17(2):243-252 13. 杜峰,山仑,陈小燕.等陕北黄土丘陵撂荒演替序列[J].草地学报,2005,13(4):328-333
14. 朱淖,邱扬.河北坝上草原东淘植物群落生志梯度的数量分析[J]应用生态学报,2004.15(5):799-802.
15. 张峰,张金屯.历山自然保护区猪尾沟森林群落植被格局及环境解释[J].生志学报,2003,23(3):421-4227.
16. 相成,张金屯,张峰,等山西高原植被与气侯的关系分析爰植被 数量区划的研究[J].植物生态学报.1996,20(6):549-560.
17. 米湘成,张垒屯,张峰,等山西高原植被与土壤分布格局关系的研究[J].植物生态学报.1999.23(4):336-344
18. 李军玲,张金屯.太行山中段植物群落物种多样性与环境的关系[J].应用与环境生物学报.2006,12(6):766-771.
19.张桂莲,张金屯,郭逍宇.安太堡矿区人工植被在恢复过程中的生态 [J].应用生志学报,2005,16(I):151.155.
因篇幅问题不能全部显示,请点此查看更多更全内容