赤峰学院学报渊自然科学版冤
Vol.30No.92014年9月JournalofChifengUniversity渊NaturalScienceEdition冤Sep.2014数据挖掘研究现状及发展趋势张
莉
渊合肥工业大学袁安徽
合肥230009曰淮北职业技术学院袁安徽
淮北
235000冤
摘
要院随着网络技术的不断迅速发展袁大型数据库开始不断出现袁而如何从大量数据中获取有特定意义的知识成为了
当前技术需要解决的重要问题袁由此出现了数据挖掘这种新型的信息处理技术.主要从数据挖掘概念出发袁介绍了数据挖掘中的几种比较常见的处理方法的概念与特点曰同时也详细的总结了当前情况下在这一方面的研究现状袁并最终指出了该技术在未来几年的发展方向.
关键词院数据挖掘曰信息处理曰发展方向中图分类号院TP181文献标识码院A文章编号院1673-260X渊2014冤09-0014-021引言
现在运用在数据挖掘技术中的具体算法包含有神经网随着信息时代的到来袁科学技术不断进步袁网络新技术络算法尧决策树算法尧遗传算法尧关联规则等算法袁下面对这不断出现袁社会生活中的各行各业都积累大量的数据袁形成些具体的算法进行简单的介绍.了大数据仓库.而在这些有大量数据组成的大数据仓库中需2.1神经网络法
要通过利用一定的发现方法来对其中对企业或者社会的发神经网络法实际上可以认为是一种通过训练学习得来展有意义的信息进行发现袁以往的信息挖掘的方式一般通的非线性预测模型袁这一模型的建立是在对生物的神经系过信息检索或者数理统计的方法袁但是这样大数据量的条统结构及其功能的模仿的基础之上的袁这一模型能够实现件很难得到希望的结果袁因此我们就迫切的需要可以自动多种数据挖掘的任务袁比如说数据分类分析尧数据聚类尧特地或者智能地把这些等待处理的数据信息转换成为有意义定条件的数据挖掘等袁其主要的学习方式在权值的修改上的参考信息袁而为企业进行决策服务[1].就是在这样一种环境有着明显的体现.利用神经网络法的最为主要的特点就是具下袁一种崭新的技术即数据挖掘技术渊简称DM技术冤开始有较强的抗干扰性尧适应范围广袁另外一个较为显著的优点发展起来.就是有着联想记忆的能力曰但是也存在着一定的缺点袁就是DM是一种涉及到多学科领域的信息处理技术袁其不仅在处理高维变量过程中预测结果不会那么精确袁也不可以仅融合了数据库的技术袁同时也结合了许多当今时代最新直接查看其中间学习的具体过程.在实际应用中神经网络法的研究成果.本文主要对数据挖掘应用中采用的比较重要的一般情况下应用于DM的聚类技术中[2].算法及其缺点进行一一介绍袁并对当前数据挖掘领域的国2.2遗传算法
内外研究现状进行了细致的总结与叙述袁最终指出了数据应用于数据挖掘过程中的遗传算法是机器学习方法袁挖掘领域的发展趋势及主要问题所在.这一方法是以达尔文的生物进化理论作为理论基础.根据生2数据挖掘相关算法
物进化理论中的野适者生存冶的思想袁其最为突出的好处在简单的说所谓的数据挖掘是指从数据信息仓库中提取于能够处理几乎所有形式的数据袁而且也能够采用并行的出有意义尧能够对企业决策提供参考的知识袁而这一数据仓方式来处理不同形式的数据袁并对数据具有较强的适应性曰库一般情况下会具有数据量大尧含有噪声尧模糊尧随机等特不足之处在于实现过程中所需的参数太多袁编码过程困难袁点.利用图形来表示数据挖掘过程如图1所示.计算量大等.在实际应用中一般用遗传算法解决其他技术不能解决的问题.2.3关联规则算法
图1数据挖掘过程
关联规则主要认为是发现事物与事物的相互依赖关系如上图所示袁其数据挖掘的过程主要包含的步骤是袁首及其相互的关联性.在对数据中的关联规则挖掘过程中存在先进行在大量数据中进行目标数据的提取袁在提取出有效着2个重要的参数袁即最小支持度以及最小可信度.从这一数据之后袁要对这些原始数据进行去噪等数据处理操作.之方面的数据挖掘的意义而言袁数据挖掘的最终目的便是要后对数据进行转换处理袁比如说连续的数据转换成离散的从源数据库中提取能够符合以上提到的两种参数要求的关数据袁或者把离散的数据转化成连续的数据曰最终采用数学联规则[3].的或者非数学的方法对数据中存在的知识进行提取曰在完3研究现状成了知识提取之后袁由于其最终面向的是客户袁所以必须对3.1国外研究现状
得到的知识进行解释和评价处理.知识发现渊简称KDD冤和数据挖掘渊简称DM冤在当今的
-14-.com.cn. All Rights Reserved.这一方面研究领域中已经逐渐成为了最为重要的研究方向之一.知识发现技术的概念是在美国上世纪八十年代末一次人工智能会议上提出的.之后在二十世纪九十年代中期在蒙特利尔的第一届知识发现与数据挖掘国际学术会议上袁把数据挖掘技术的主要研究领域定为两个方面袁分别为科研领域的KDD以及工程研究领域的DM.并且从此以后的每一年都会召开一次关于数据挖掘技术研究领域的会议.到本世纪这一时期袁对于数据挖掘这一方面的研究经过这么多年的努力袁已经有了相当大的成果.就目前而言袁国外的对知识发现方面的研究主要集中于理论尧技术以及应用这些方面[4].现如今袁国外对DM方面的最新发展趋势为对KDD的采用算法的更深入的研究.而在实际的应用中主要面向的客户包含有保险公司以及大型数据库的数据挖掘工具研发企业袁截止到目前为止袁对于数据挖掘方面的应用技术已经相当成熟袁已经完成了许多具有较高应用价值的挖掘软件.3.2国内研究现状
就国内在数据挖掘技术研究领域的发展而言袁与国外相比袁国内对此的研究起步较晚并且在很多方面发展缓慢袁没有形成较为成熟的理论或者技术.可以说就现在而言国内这方面的研究与应用还是处于发展阶段[5].当前比较新的发展方向为以下几个方面袁首先在分类分析技术研究过程中袁尝试完成对相关的集合理论的整体体系进行建立工作袁其建立的主要目的就是要对当前现存的海量数据进行处理曰把粗糙集法以及模糊集法这两个不同方面的理论联系在一起应用在该技术中曰构造基于数据挖掘技术的智能专家系
统曰根据相关概念对文本进行挖掘.就现在而言袁国内在这一方面的软件产业相对来说还
不成熟袁原因在于专门对这方面进行研究的人员一般都存在一些具有研究能力的高等院校之中袁这方面的项目几乎都是政府的项目袁由政府进行资助袁而对成果的要求不够严格袁并且研究内容主要集中与DM的学习算法及其相关理论方面知识和实际应用.同时由于这方面研究国外的起步较早袁对于国内如今所研究或者设计的系统在国际市场中还不具有竞争力袁说服力不强.4数据挖掘的研究热点及发展趋势
现如今袁国内外对DM这一领域的主要研究内容集中在对文本的数据挖掘尧对生物信息及其基因的数据挖掘尧以及数据挖掘在网站信息中的应用.对于一些特定网站中的数据挖掘过程表示在这些特定的网站会根据日常点击率的积累而获得大量用户相关数据袁在这些数据中存在着具有利用价值的信息袁而这方面研究的主要目的就是找出通过什么样的方法能够快速准确的识别这些有利用价值的信息.针对生物信息或者生物基因的数据挖掘有着异常重要的意义袁其对人类生活质量即主要是对人类的身体状况的健康与否有着重要的意义.不管人类还是其他动植物它们的基因组合都会有着很多的变化袁其主要解决的问题就是要找出病人含有的基因同正常人的基因的区别是什么袁在找到差别之后通过对相关基因进行改变来达到对病人的治疗效果袁在这个查出差异的过程中就必须采用数据挖掘技术的支持.近年来袁随着这方面研究的不断深入袁数据挖掘技术也已经在社会中的各个方面都得到了广泛的应用[6]袁比如说商业尧医学尧科学研究等各个方面都存在着很多的应用数据挖掘技术的成功的例子.下面对以后数据挖掘研究领域的发展方向与趋势进行简单的介绍院
数据挖掘语言进行标准化描述的研究曰不管是什么语言袁想要使其能够广泛的得到应用袁必须首先对其语言进行标准化.经过标准化之后的数据挖掘语言必将有利于DM系统化的开发与设计袁同时也能够提高多个数据挖掘系统及其功能之间的互操作性.对DM技术中的可视化方法进行研究曰对于这方面的需求已经成为数据挖掘系统必须要解决的一种主要问题.数据挖掘领域中的模型或者系统对特定的数据存储类型的适应问题的研究曰在以后的研究过程中袁对不同的数据的存储类型自身的特点进行针对性的研究是目前流行以及将来一段时间必须面对的问题.DM技术同数据库技术以及网络技术的集成曰其中的数据库与Web数据库是当前形势下有关信息处理的系统中不可缺少的一部分.而理想的DM系统同样与数据库及其web数据库进行紧密结合.5结语
本文主要通过介绍数据挖掘的基本概念袁同时对这方面的主要的挖掘算法进行简单介绍袁对国内外在这一领域的研究现状分别作了总结袁并说明了国内与国外在这方面研究差距的巨大袁在以后的研究过程中袁国内必须勇于面对挑战袁才能够在这一研究过程中有较大的提高.最后根据当前的形式袁对未来数据挖掘的发展方向进行了叙述.总的来说袁数据挖掘技术可以认为是一种功能强大的应用工具袁但是其在发现模型之前需要对其进行相关指导袁同时最终得到的数据模型需要能够在现实生活之中得到验证袁数据的分析人员需要了解选用的挖掘算法的原理同时也要指导它具体是如何正常工作的袁并且也必须深入了解期望解决问题的相关领域袁对处理的数据进行了解得到的过程袁只有经过上述这样一个过程在得到最终结果之后才能够给出正确的评价与解释袁从而在一定程度促进挖掘模型的不断完善与提高袁使数据挖掘能够在真正意义上满足当代人们的需求袁更好地服务社会.要要要参考要要要文要要献要要院
要要要要要要要要要也1页胡[J].侃软,件夏学报绍玮,1998,9(1)..基于大型数据仓库的数据采掘:研究综述淤也2页论谢与榕实.基于数践,2000,4(4).
据仓库的决策支持系统框架[J].系统工程理也3页韩版家炜社,2001.
,坎伯.数据挖掘:概念与技术[M].北京:机械工业出也4页陈息娜技术.数,2006,14(1):46-49.
据挖掘技术的研究现状及发展方向[J].电脑与信也5页王经宏济.出基于版杜粗糙,2006.
集数据挖掘技术的客户价值分析[J].北京:也6页王动惠化中,2011,彭安渊2冤群:29-32.
.数据挖掘研究现状及发展趋势[J].工矿自-15-.com.cn. All Rights Reserved.
因篇幅问题不能全部显示,请点此查看更多更全内容