HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 数据挖掘技术分析论文

数据挖掘技术分析论文

时间:2023-03-24 15:24:47

数据挖掘技术分析论文

数据挖掘技术分析论文范文1

【关键词】 计算机 数据挖掘技术 开发

引言:计算机数据挖掘技术是基于计算机原有的功能基础之上,融入了一些统计学理论,使人们可以利用数据挖掘技术在众多的计算机系统内部的信息中抓取自己需要的信息和数据。计算机数据挖掘技术的出现极大的促进了社会整体的进步,引领了社会各个领域内的数据量潮流,人们要想在无限的数据中采集有用信息,就必须深入计算机数据挖掘技术的开发研究。

一、计算机数据挖掘技术开发流程

1.1明确数据挖掘目的

由于数据挖掘技术的功能是多种多样的,所以在开发具体的计算机数据挖掘技术过程中需要根据自身需要明确数据挖掘目的,进而选择对应数据库。因为在开发过程中,不同的数据挖掘目标需要依靠不同的挖掘技术数据算法,如果目的不明很容易造成最终开发结果的偏差[1]。

1.2数据选择和预处理

明确数据挖掘目标、数据库后还要对所持有的数据进行选择和预处理,数据选择是要将数据中的部分信息纳入数据挖掘研究范围内,预处理是将这些数据中的错误信息进行删除和修正,确保列下有用信息。

1.3数据挖掘

数据挖掘过程中要有两个步骤,其一是根据挖掘目标确定接下来要利用的开发技术和采用的算法,其二是在确定了挖掘技术和数据算法后构建出数学模型,以此来推动挖掘技术的开发。

1.4评估结果

评估结果的最大作用就是对开发出的数据挖掘结果进行科学评估,对数据挖掘技术的开发成果进行检测和验证。如果数据挖掘结果不能够达到数据挖掘开发目的要求,就要及时进行修正,如果数据开发结果符合数据开发目的要求,那么就可以将其投入到实践应用之中[2]。

二、计算机数据挖掘技术开发

1、可视化技术开发。要想得到有效的信息,就需要从计算机系统中获得的信息入手,但是当前的网络信息中存在不少的隐性信息,这些信息的获得就要依靠计算机数据挖掘技术。采用计算机挖掘技术可以有效的抓取隐性信息的某些特征,当利用散点图的方式将这些隐性信息表现出来。所以可视化技术是计算机数据挖掘技术开发项目中的一个重点。

2、联机分析处理。网络是复杂的,其中的网络信息和数据更是十分的庞杂,要想快速、准确的抓取到自己想要的信息,需要依靠联机分析出不同地域和时段的多维数据,联机分析处理方式需要依靠用户的配合。在处理多维数据时,需要所有计算机用户自行的使用或者筛选出分析算法,利用这些分析算法对数据做处理,这样对探索数据也有巨大的推动作用。

3、决策树。计算机数据挖掘技术的开发中需要对决策树进行规则化建立,决策树是一项重要的开发项目,因为决策树的作用是发挥预测和分类的功能,对所处理的数据信息进行具体的预测和分类。目前开发的决策树算法已经有很多种,主要有SLIQ、SPRINT、ID3、C4.5等,SLIQ算法具备连续性属性,还可以对数据做出具体的分类,SPRINT算法与SLIQ算法有同样的功能属性,并且这两种算法可以通过大型训练集对决策时做出归纳[3]。

4、计算机神经网络。计算机数据挖掘技术在开发之中借助了医学神经系统的研究结果,将人体神经元研究脉络通过技术处理形成了计算机网络神经的研究,并且经过一系列的深入探索,目前已经取得了重大的成果。计算机中研发出的神经网络是安全输入、输出和处理单元三种类型进行规划的,这三个层面代表了计算机神经网络系统,当前的开发结果中显示,可以利用计算机神经网络技术实现数据的调整、计算和整理。

5、遗传算法。计算机数据挖掘技术的开发中借鉴了许多其他学科领域中的研究方向和理论,在自然学科中,生物基因可以通过遗传中的不同变化促进后代的自我优化,利用这种思想理论,在计算机数据挖掘技术的开发中也可以通过对不同模型进行组合、演变来创新开发出新的数据算法。

结束语:计算机数据挖掘技术属于当前社会中最重要的分析工具之一,数据挖掘技术已经被各个领域广泛的应用,并且其功能得到验证,极大的促进了社会行业的快速发展。随着科技水平的日益提升,相信计算机数据挖掘技术将会得到更多方面的创新研究和开发,给社会带来更大的促进作用。

参 考 文 献

[1]夏天维. 计算机数据挖掘技术的开发及其应用探究[A]. 《Q策与信息》杂志社、北京大学经济管理学院.“决策论坛――管理科学与工程研究学术研讨会”论文集(下)[C].《决策与信息》杂志社、北京大学经济管理学院:,2016:1.

数据挖掘技术分析论文范文2

【关键词】数据挖掘;关键技术;实际应用

前 言

数据挖掘从一开始的简单查询已提升到从数据中挖掘知识,提供决策支持,它属于一门交叉学科。近年来,国内外许多研究机构都进行了数据挖掘技术的研究和探索。可以说,从大量数据中提取潜在的有用的知识和信息的数据挖掘技术,将在更多的领域得到研究和广泛应用。

一、数据挖掘的关键技术

数据挖掘可以说是一种决策支持过程,分析各组织原有的数据,做出归纳和推理,从中挖掘出潜在有用的、有效的模式,为管理人员决策提供支持。为了有效地挖掘出数据中潜在的信息,需要对数据挖掘技术进行深入研究。由此,下面就对数据挖掘的可视化技术、决策树、遗传算法、模糊技术、最近邻技术这五个关键技术进行详实的论述和分析。

1.可视化技术

数据可视化技术(也称为图形显示技术),就是使用可视化的图形描绘信息模型,然后将显示出的数据趋势很直观的呈现给决策者。和其他的数据挖掘技术,使用这种技术时通常是一个组合,它可以交互地分析数据,我们应该说,这种技术的实用性不容低估。例如,在数据库中的多维数据成各种图形显示数据固有的性质和分布数据的特点发挥了重要作用。总之,将数据挖掘过程可视化,更容易找到数据之间可能存在的模式、关系和异常情况等。

2.决策树

决策树可以说是按照一系列规则导出类值的一种挖掘方法,它可以依靠计算条件概率来构造。具体而言,决策树的基本思想是通过一个树状结构的数据进行分类记录,树的叶节点表示了在一定条件下的一组记录,根据记录建立树枝分支;在每个较低的节点和分支子集中,成立重复的分支子集,从而生成一个决策树。每个决策树都表述了一种树型结构,可以依靠对源数据库的分割进行数据测试。总之,这种挖掘方法可以有效地处理非数值数据,并允许独立的变量,在固有的神经网络以尽量减少组合爆炸,可取得理想的效果。

3.遗传算法

这是一种基于生物进化理论的优化方法,其基本思想是“适者生存”:随着时间的更替,只有最适合的物种才得以进化。它借用了生物遗传学的角度点,通过模仿自然选择、基因突变,改善个体适应的机制。遗传信息通常被称为基因,该基因包含正确的权值,其中包含了该模型的参数。当该基因包含一个隐藏层时,包含每一层的节点数量。例如,创建一个神经网络,遗传算法可以恰当的调整权值,在一定条件下更可以代替反向传播方法。同时,遗传算法还可以用来找到最佳的结构。总之,遗传算法可以处理多种数据类型、并行处理各种数据,能够解决许多其它技术难以解决的问题;但需要的参数较多,算法较复杂,计算量较大。

4.模糊技术

模糊技术一般包含模糊评判、模糊模式识别、模糊决策和模糊聚类分析这几个步骤,多是利用模糊集理论对实际问题进行系统的研究,往往能够取得很好的效果。这种模糊性属于客观现实,与数据挖掘系统存在一种关系,即系统越复杂,模糊性就越强。关于传统的模糊理论和概率统计,在定性定量转换模型不确定性的基础上,李德毅教授提出了云模型,并依据此形成了云理论。而事实上,模糊集理论通常都是用来描述模糊事物的随机性、复杂性。为了表达定性概念,将概念的模糊性和复杂性很好地结合,云模型要充分利用期望值、熵和超熵,在概率模型中寻找参数。可以说,模糊技术是为数据挖掘提供一个概念的形成和知识表达、概念综合和概念层次划分、定性概念和定量表示转换的一个新方法。

5.最近邻技术

数据最近邻技术(也称为K-最近邻方法),就是先利用K个最与之相近的历史记录,然后将这些历史记录组合起来,以确定新的记录的一种数据挖掘方法,它是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。一般情况下,这种技术可用于多种数据挖掘任务,例如,数据聚类、数据偏差分析等。

除上述之外,数据挖掘的关键技术还包括人工神经网络、规则归纳等。经过不断的实践和应用,数据挖掘过程越来越标准化、规范化。可以说,随着新的数据挖掘技术的不断增多,数据挖掘工具的不断推陈出新,数据挖掘技术也越来越显示出其广阔的应用前景。

二、数据挖掘的实际应用

与传统分析方法相比,数据挖掘技术可以发现更有用的信息,这是应用传统分析方法时所不能发现的,因此数据挖掘具有重要的理论意义和实用价值。当前,数据挖掘在人们的实际生活中十分常见,主要是应用于一些需要处理海量数据的重要部门。比如:用于大型零售组织的数据挖掘系统,可以在决策支持过程为制定市场策略、提供决策支持给予有力的技术和工具保证;用于银行金融方面的数据挖掘系统,可以预测存款趋势,帮助相关执行人员更好地进行有促进作用的活动,帮助他们设计新的市场运行方案;用于远程通讯部门的数据挖掘系统,可以了解客户服务使用的结构和模式,便于工作人员作出最佳的投资决策;用于质量监督保证方面的数据挖掘系统,可以自动找出一些不正常的数据分布,并分析出各种影响因素,以帮助质量工程师在最短时间内找出问题的范围,从而能够及时采取相应的解决措施等等。总之,数据挖掘技术已经广泛应用于零售与批发、运输、银行金融、制造、软件开发等多个企事业单位及国防科研上。随着信息技术的不断发展和数据挖掘工具的不断完善,数据挖掘技术将在更多的领域得到应用。

结束语

总的来讲,数据挖掘技术在现实中的应用越来越广泛,能够为用户提供更好的服务。可以说,数据挖掘的研究和应用是一个长期而艰苦的工作。随着数据挖掘技术的不断发展,其必将在更多的领域得到更为广泛的应用,而利用数据挖掘所得的知识帮助人们作出决策,将是一项非常有实际应用前景的工作。参考文献

[1]杨雪.浅析数据挖掘技术[J].金融科技时代,2005,(08).

数据挖掘技术分析论文范文3

关键词 留学生 数据挖掘 关联规则 教学管理 教学计划

中图分类号:G642 文献标识码:A DOI:10.16400/ki.kjdkz.2016.05.012

Abstract This thesis mainly studies on the application of data mining technology in teaching. As the number of students abroad in China grows, we need to find a better way to make Chinese teaching management more efficiency. It combines the technology of data warehouse and data mining with educational management system to rationally utilize the mass data accumulated in the work of teaching and management. Then, in order to acquire the potential decision-support knowledge to guide the work of teaching and enable teaching management to operate with a definite object and thus further improve the quality of teaching, this paper makes research from the following areas. Firstly, it applies the technique of data mining to analyzing the effect and gain and loss in the teaching reasonably, then, it studies a variety of factors which influence the well development of students from multi-angle. Finally, with regard to the primary and secondary factors affecting students' performance, it carries out deep analysis.

Key words data mining; association rules; teaching management; teaching plan

0 引言

近几年来华留学生教育进入快速发展时期,我国已经成为国际学生流动的重要目的地国家之一。随着我校留学生规模的不断扩大,如何更有效地对来华留学生进行教学管理已成为一个重要的研究课题。而运用数据挖掘技术,从大量的留学生相关数据中挖掘出一些有价值的信息,将更有利于构建切合我校留学生实际的培养体系,更好地保证培养质量。

一方面,从招生角度上来讲。目前我校留学生的生源渠道主要分为三类:第一类是由中国国家留学基金委直接分配至我校学习的获中国政府奖学金的学生。第二类是学生自己通过网上申请,我校根据学生提供的材料进行审核录取。第三类是由国外大学或中介机构根据协议推荐来我校学习的学生。由于外国留学生来自不同的国家,之前在各自不同的教育体系中接受高中教育,文化课背景差异很大,这就导致生源的质量参差不齐。运用数据挖掘技术可以找到其中有价值的信息,如哪个国家的教育水平相对较高,来自哪个国家的学生平均申请成绩较好,使用何种母语更容易融入中国高校教学等。这为招生工作提供了参考,从招生源头提高留学生质量。

另一方面,从教学管理角度来讲。目前,我校留学生数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯地记载了数据信息,对学生信息、成绩等数据的处理一般还停留在简单的数据备份和查询阶段,如传统数据库技术可以查询最高分最低分和平均分等表层信息,但却无法发现隐藏数据之间的规律或者说有指导意义的知识。大量有价值的信息被淹没在海量数据中。事实上不论是课程与课程之间,还是课程的设置之间,与学生成绩都存在着千丝万缕的联系,现阶段已有的数据并没有发挥其真正的价值,而运用数据挖掘技术则可能更好地发现隐藏在数据背后的丰富信息。通过对学生成绩数据库中所包含的各种类型数据进行相应的处理,如:抽取、转换、分析和模型化处理,从中寻找影响学生学习成绩的众多因素,以及这些因素所涉及到的相关问题。应用数据挖掘技术分析学生的成绩水平,使学生深入了解其在学生整体中的相对位置,由此来调整个人学习计划。同时,帮助教师和学校决策者洞悉教学过程中存在的问题,进而反思教学质量。还可以根据关联规则挖掘得到的一系列有价值的规则,分析检查课程体系的合理性,比如:相关课程之间的衔接与先后顺序是否恰当等,根据分析结果最大限度地优化培养计划和决策。此外,利用数据挖掘技术还可以发现数据中存在的潜在关系与规则,比如:根据学生的出勤次数和作业的上交情况预测学生成绩发展趋势等。为教师的教学环节提供建设性的意见和建议,为学生管理工作提供有价值的决策支持,从而帮助学校做出实时适时的决策调整,使得学生管理工作有的放矢。

1 数据仓库与数据挖掘

1.1 数据仓库

传统数据库在联机事务处理(OLTP)中获得了较大的成功,而传统数据库中只保留当前的管理信息,缺乏决策分析所需要的大量历史信息,故不能满足管理人员的决策分析要求。为了解决这一问题,进行相关决策分析,数据仓库应运而生。简而言之,数据仓库就是能够满足决策分析所需要的数据环境。数据仓库的概念,由“数据仓库之父”W.H.Inmom博士提出:数据仓库是一个面向主题的,集成的、与时间有关的,非易失的数据集合,为管理部门提供决策支持。它实际上是一个特殊的数据库,这种系统称为OLAP系统。本文中我们就利用留学生成绩数据库中的各种类型的数据建立相应的数据仓库,为数据挖掘提供数据平台。

1.2 数据挖掘

近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由此带动了数据挖掘技术的产生和飞速发展。数据挖掘就是从大量的,不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又有潜在的有用信息和知识的过程,是数据库中的知识发现的核心。可以说,有数据积累的地方,就有数据挖掘技术的用武之地。

数据挖掘的分析方法分为:聚类分析,关联分析,时序模式分析和分类分析。其中聚类分析是指通过数据本身具有的相似特点把海量数据集归纳为若干个簇,即“物以类聚”。同一簇中的数据之间相距小,相似度高;不同簇中的数据之间相距较大,数据相异度高。关联分析是指利用关联规则进行数据挖掘,其主要评价标准有:支持度、置信度、兴趣度等。本文中我们将数据挖掘技术与留学生教学管理相结合,挖掘在留学生教学管理中隐藏的有价值的信息,为留学生管理提供决策指导与决策支持。

2 数据挖掘在教学领域中的应用

数据挖掘与数据仓库相结合,是完成决策分析的关键因素。教务数据主要存储在关系型数据库中,其主要任务是执行联机事务和查询处理,对其中大量的教学信息及数据的应用仅限于某些单方面的分析,而缺乏相关的综合分析,大部分数据难以再次利用,不能满足决策分析的要求,为此需要对各种类型的数据进行抽取,转换、汇总加载到留学生成绩数据仓库中,借助数据挖掘技术,为教学提供决策支持服务。

在留学生成绩数据库中,包含着多种类型的数据,它们既相互独立又相互联系。运用数据仓库的理论和方法,对这些数据进行适当的预处理,即可产生支持教学决策所需要的信息。留学生成绩仓库的应用模型如图1所示。

根据留学生成绩的特点,以学生成绩分析为主题建立星型结构的留学生成绩仓库。星型结构主要由事实表与维度表两部分构成。事实表是星型模型的核心,维度表是事实表的附属表,一个事实表一般拥有一组维度表,每个维度表都通过主键与事实表相连,维度表之间通过事实表的中介相互建立联系。该数据仓库主要涉及到的信息有:留学生基本信息,教师信息,课程信息,试卷信息,知识点信息及专业信息等。星型结构的留学生成绩数据仓库的具体构建情况如图2所示。

2.1 数据挖掘在成绩分析中的应用

定性评价在生活中有着广泛的应用,我们往往把学生成绩硬性地划分为:优、良、中、差四个等级。而这种传统的硬性区间划分法,存在着众多弊端。例如将成绩90分定为“优”,而成绩79分确定为“良”,这往往只是根据经验但却缺乏理论指导,而实际上二者之间并没有那么明显的差距。如果我们利用数据挖掘中的聚类分析法对学生成绩进行适当处理,就可以有效地对学生成绩进行等级划分,为学生学习和教师的教学提供更合理的参考标准。在合理的等级划分基础上,我们就可以利用关联规则挖掘技术对学生成绩进行多角度、多方向的深入分析,获得可以为教学工作提供决策支持的有价值的隐藏规则。比如:学生成绩的好坏跟作业上交情况有着明显的关系,该规则说明教师可以通过及时督促学生上交作业来提高学生成绩。此外,我们也可以采用决策树挖掘技术来分析影响学生某门课程成绩的主要因素。比如:针对学生出勤率,作业上交情况,国籍,学生中英文水平四个因素对学生成绩的影响程度进行决策树挖掘分析,我们发现学生出勤率、作业上交情况以及学生的中英文水平是影响学生成绩的主要因素,而国籍则是次要因素。由此说明较高的出勤率、良好的作业上交情况以及较好的中英文水平是学生取得良好成绩的重要保障。

2.2 数据挖掘在培养计划制定中的应用

培养计划对一个专业的学习至关重要,一个好的培养计划将会获得事半功倍的效果,反之,将会产生事倍功半的结果。目前我校对于本科留学生虽然部分课程有全英文授课模式,但是就培养方案、教学计划来讲,大部分课程与本专业国内学生的几乎一样。而我国大学课程大纲的起点都是按照和国内高中毕业的程度衔接制定的,特别是数理化这样衔接性很强,对基础和选修课程要求很高的课程,大部分留学生不能跟上学习进度,教学效果较差,学习困难较大。

传统的教务系统无法为留学生的培养计划的制定提供建设性的决策支持。然而,利用数据挖掘技术对留学生信息维表,课程维表和学生成绩维表进行关联规则挖掘,则可以找出不同课程之间的关联,从而为留学生单独制定一套行之有效的特殊培养方案,适当调整外国留学生的必修和选修课程,提高教学效果和质量。如对石油工程专业留学生课程成绩进行关联规则挖掘,获得等级为“优”的课程之间存在的有价值的规则,如表1所示。

相应的规则解释有:(1)规则2 表明,“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程的信任度为88.3%,因此“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程比较合理。(2)规则3表明,“理论力学”作为“材料力学”先行课的信任度为90.6%,所以“理论力学”作为“材料力学”的先行课程比较合理。(3)规则4表明,“理论力学”和“材料力学”作为“油田开发地质”的先行课程的信任度为86.0%,所以“理论力学”和“材料力学”作为“油田开发地质”的先行课程比较合理。综合(1)(2)(3)可知,高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质这四门课程的合理开课顺序应该是:(1)高等数学(Ⅱ)(I ,II)(2)理论力学(3)材料力学(4)油田开发地质。如果对上面列出的规则进行多次推导,可以得出“石油工程”这个专业大致合理的开课顺序:(1)高等数学(Ⅱ)I、高等数学(Ⅱ)II;(2)高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质;(3)测井综合解释,钻井工程、油藏工程、气藏工程,石油工程的全面设计;(4)环境保护在石油和天然气领域,强化开采理论。

由上述的关联规则及相应的结果解释,我们可以清楚地看到,相关课程成绩之间存在较高的关联程度,先行课程的学习情况将直接影响其后续课程的学习。我校即可根据上述结论为学习“石油工程专业”的本科留学生合理安排课程顺序,使其获得良好的学习效果。

2.3 数据挖掘在留学生选课方面的应用

高校愈来愈注重个性化人才培养,学校教育方式越来越人性化、多样化,学生自主选课就成为课程改革的必然产物。但由于留学生初到中国对环境的不熟悉,包括一开始的语言障碍、沟通障碍,显然对中国高校的课程设置了解有限,这样有可能致使他们选课仅仅是凭表面感觉来进行。如:学生在选择“中国概况”这门课的时候,可能仅仅是因为对中国历史文化的好奇,而并不了解应如何合理选择其他相关课程来加深对这门课程的理解。“中国概况”这门课程需要有一定中文语言基础,盲目选课将导致留学生对中国概况的学习仅限于皮毛,而不能深入了解中国历史文化。

现有的选课系统不能为学生选课提供建设性意见,但如果利用数据挖掘技术对学生汉语成绩进行关联规则挖掘,找出课程之间的关联,就可以在学生选择某门课时为其推荐相关课程,完善学生在该领域的学习体系。若获得如下规则:“中级汉语”和“中国概况”成绩等级为“优”;该规则说明汉语水平高低与中国概况的了解程度有较强的关联程度,所以我们在学生选择“中国概况”这门课程的时候,就应当向其推荐“中级汉语”,从而加强学生对该课程的学习。

2.4 数据挖掘在教学中其他方面的应用

通过对学生基本信息,学生成绩与留级或退学情况进行关联规则分析,从中分析导致学生留级或退学的因素,从而可由学生的现有情况预测其被留级或退学的可能性,及时对有退学或留级危险的学生进行适时指导,避免退学或留级情况的出现,使每个学生都能享有充实圆满的大学生活。另外,采用关联规则与决策树挖掘技术对学生基本信息,学生成绩与就业情况进行深入分析,比较国籍,专业方向,性别,专业课成绩,英语水平,参赛(参加科技比赛)情况,从中可以获得相关信息,对学校的招生工作提供参考。如:来自巴基斯坦国家的学生普遍成绩不错,就业情况较好,这样对招生部门来讲,可以提高对该国的学生的招收比例,从而提升整个高校的留学生质量。

3结论

数据挖掘技术作为一种新兴的数据分析技术,被充分应用到留学生的教学管理中。从招生管理方面来讲,通过数据挖掘技术,可以了解不同国家的生源质量,从而为学校的择优录取提供理论参考。从教学方面来讲,采用数据挖掘技术可以理性地分析在留学生教学方面的成效与得失,使留学生在学习过程中,更好地掌握理论基础和专业知识,并且可以把获得的基本的中文听、说、读、写能力运用到所学专业领域中。在教育信息化的大趋势下,数据挖掘技术在教育领域内必然有十分广阔的应用前景,而随着数据挖掘技术的发展,它也必将会在留学生教学管理中起到越来越重要的作用。

参考文献

[1] 严华,陈文菁.关联规则在学生成绩分析中的应用.福建医科大学学报(社会学版),2008.9(1):46-49.

[2] 吕爽,陈高云.数据挖掘技术在高校教学评估中的应用[J].广东广播电视大学学报,2006.3(15):24-28.

[3] J.Brachman,T.Anand. The Process of Knowledge Discovery in Databases.A Human-centered Approach,1996:37-58.

[4] 赵辉.数据挖掘技术在学生成绩分析中的研究与应用.大连:大连海事大学,2007:6-10.

[5] 张莉.数据挖掘技术在高校学生成绩分析中应用的研究.青岛:中国石油大学(华东),2009:6-10,56-57.

[6] 潘锋.教务管理系统中的数据挖掘.重庆:重庆大学,2008:36-38.

[7] 彭玉青,张红梅,何华等.数据挖掘技术及其在教学中的应用.河北科技大学学报,2001.22(4):21-24.

数据挖掘技术分析论文范文4

论文摘要:随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,从大型的数据库数据中挖掘一些人们比较感兴趣的知识,本文主要讲了数据挖掘技术的概念、数据挖掘技术在保护设备故障信息中的实现方法以及数据挖掘技术保护设备故障信息管理的基本功能等问题。

数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。

一、数据挖掘技术的概念

随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。

二、数据挖掘技术在保护设备故障信息中的实现方法

1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。

2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。

三、数据挖掘技术保护设备故障信息管理的基本功能

1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。

2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。

四、结语

随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。

参考文献:

[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9

[2]李建业,刘志远,蔡乾,赵洪波.基于web的故障信息系统[j].电力信息化,2007,s1

数据挖掘技术分析论文范文5

关键词:数据挖掘技术;CRM;应用

前言

改革开放以来,我国不断进行市场经济体制改革,从计划经济体制向市场经济体制转型,带动了我国市场经济的蓬勃发展,大量的企业和工厂上市,产品及商品日益丰富,出现同种商品可以有多种厂家选择的局势。企业在市场中的竞争面临重大的挑战。企业本文阐述了数据挖掘的任务及功能,介绍了CRM的概念、内涵及体系结构,从挖掘潜在客户、获取新客户、提升现有客户价值以及留住可能流失的客户四个方面论述了数据挖掘技术在CRM中的应用,进而从确定与分析目标、数据选择与准备、模型构造以及模型评估四个方面分析了数据挖掘在CRM的具体实施,为数据挖掘技术在CRM中的应用提供科学的有效指导。现综述如下。

一、数据挖掘概念、任务及功能

1.概念

数据挖掘技术(Data mining techniques),又称为资料探勘技术或数据采矿技术,是数据库知识发现(Knowledge-Discovery in Databases,KDD)的构成步骤[1]。一般是指利用计算机科学技术,依靠过去的经验法则,通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等众多方法从大量的模糊、随机的实际应用数据中自动搜索隐藏于其中有着特殊关系性且属于关联规则学习的信息的过程[2]。

2.任务

数据挖掘任务主要有两个:描述和预测[3]。描述性数据挖掘技术用来描述数据库中模糊、随机或不完全数据的一般特性;而预测性数据挖掘技术用来对当前所描述的实际应用数据库中的数据的进行推断,以进行预测。

3.功能

数据挖掘技术能够根据用户和应用的不同来进行调整,其功能主要有:首先,它能够对概念进行一般描述(描述对象的共有特征)和差别描述(描述不同对象的差别特征);其次,它能够进行描述对象的关联性分析、通过关联性分析,挖掘对象之间的关联性规则[4];其三,它能够通过对数据库的描述、关联分析,确定规则函数,进而对未知数据进行分类和预测;其四,它能够产生类标记,依据不同的规则对数据进行聚类或分组;最后,它能够对特别的数据和模型进行单独分析。

二、CRM概念、内涵及体系结构

1.概念

客户关系管理(customerrelationshipmanagement,CRM)是指企业通过互联网、数据挖掘、商务智能、电子商务、无线设备等现代化IT信息技术等工具或手段来协调企业与顾客间在销售、营销和服务上的交互,不断提升其管理机制和服务方式,挖掘潜在客户,获取新客户、提升现有客户价值以及留住可能流失的客户,从而提高客户收益率,扩大市场份额,提高市场竞争力的管理过程[5]。

2.内涵

客户关系管理CRM是一种管理理念,是一种信息行业用语,是一种新型管理机制,是一种创新的管理理念,也是一种管理软件和技术。客户关系管理CRM的核心是客户价值管理,通过对客户的资料进行分析、整理以及整合,来提高客户量。其中价值管理体现在通过协调与顾客间在销售、营销和服务上的交互,创新管理模式和运行模式,保持客户价值以及提升客户价值[6]。

客户关系管理CRM的主要内容包括:一方面,针对客户关系,首先体现在对客户关系的认识、选择以及关系建立方面;其次,对已建立的客户关系的维持方面。再次,针对有可能流失的客户关系,如何进行关系恢复以及挽回方面。另一方面,针对可采用的现代化IT信息技术等工具或手段的建设方面,如互联网、软件应用、数据库、资料分析、电子商务以及移动设备客户端等。

3.体系结构

客户关系管理CRM的体系结构主要有操作型CRM、分析型CRM以及协作型CRM[7]。操作型CRM促使企业完成市场、销售到服务的业务流程,并且采集客户数据。分析型CRM对市场、销售到服务的业务流程中的客户数据进行整理和分析。协作型CRM将多种沟通渠道获取的客户信息进行整合,确保沟通渠道的畅通。

三、数据挖掘技术在CRM中的应用

1.挖掘潜在客户

通过数据挖掘技术,按照对企业有意义的潜在客户的标准或原则,对大量模糊、不确定的客户的个性特征(年龄、性别)、消费能力以及购买记录等可得数据进行针对性分析,确定出对企业有意义的潜在客户,作为企业客户关系管理的实施对象。

2.获取新客户

针对对企业有意义的潜在客户进行分析和预测,对不同类型的客户采取不同的营销策略,并且及时根据客户对于营销的反馈情况进行调整,说服潜在的客户使用企业的产品或者服务,发展为企业有意义的确定客户。

3.提升现有客户价值

提升现有客户价值主要是指现有客户获取更过更好的产品或服务的同时,企业获取更高的销售额。通过数据挖掘技术的“交叉销售”和“一对一营销”[8],一方面,“交叉销售”能够分析出最受客户欢迎的产品或服务的最佳配比,从而增加与客户的交易次数。另一方面,“一对一营销”则可以通过专业、具有特色的产品或服务模式保证与客户的长期合作关系以及最大数量的保证每次交易的利润。

4.留住可能流失的客户

如何留住可能流失的客户,应该要对客户进行甄别、预测和分类,挖掘出优质客户并分组,对于可能流失优质客户的个性特征(年龄、性别)、消费能力以及购买记录等做出描述,采用数据挖掘技术中的关联分析等方法分析优质客户可能流失的原因,尤其要确定优质客户可能流失的原因,及时地针对企业的管理模式或经营理念做出调整。

四、数据挖掘在CRM的具体实施

1.确定与分析目标

数据挖掘在CRM的具体实施,首先要确定与分析目标,对于企业而言,也就是说要确定要达成什么样的商业目标,考虑要达成商业目标的具体参考标准或准则,如销售额度、市场份额以及客户数量等等数据。

2.数据选择与准备

对于数据的选择和准备,主要针对数据的来源、数据库的建立、是否能够使用以及有参考的数据等等进行选择,之后,对于选择的数据库需要进行必要的预处理和转换,以便后期可以通过数据挖掘技术进行分析、预测和整合。

3.模型构造

模型构造是数据挖掘技术在CRM的具体实施中的重要步骤。涉及到的具体工作主要有根据预先确定的企业商业目标,选取最合适的数据挖掘技术类型,针对选取的数据挖掘技术类型确定培训数据和测试数据,参照培训数据和测试数据,确定算法或准则,从而构造数据挖掘技术模型。

4.模型评估

数据挖掘技术模式构建以后,能否应用于确定的企业商业目标,需要进行评估。而模型评估的手段是通过测试数据,对构建的模型数据库进行基础测试和比较,计算误差和误差发生的概率。如果误差不大,达到了预期的商业目标,说明构建的模型是满意的,企业可以进行应用。若误差概率较大,没有达到预期的商业目标,则说明构建的模型是不满意的,此时应该分析数据出现出差的原因,重新选择合适的数据挖掘技术类型,确定新的培训数据和测试数据以及新的算法或准则,建立新的模型并且重新评估。但若设定的商业太不切合实际,则需要更改商业目标。

讨论

随着科学技术的发展和经济的进步,产品不断换代和升级,客户享有越来越多的选择权,而企业在市场中的竞争面临重大的挑战。客户价值的发展、保留和提升成为企业有机发展的核心。如何通过数据挖掘技术发现潜在价值的客户,保留已有价值客户以及提升客户的价值,对于提高企业在市场中的竞争实力,促进企业发展具有重要的意义。企业应该认识到数据挖掘技术在客户关系管理CRM中的重要应用价值,在企业完成市场、销售到服务的整个业务流程中,采取有效的数据挖掘技术,为企业的管理及决策提供支持,不断提升其管理机制和服务方式,挖掘潜在客户,获取新客户、提升现有客户价值以及留住可能流失的客户,扩宽市场占有份额,最终达到企业利润最大化的目的,前景广阔。(作者单位:阳光动力能源互联网股份公司)

参考文献:

[1]张天瑞,于天彪,赵海峰等.数据挖掘技术在全断面掘进机故障诊断中的应用[J].东北大学学报(自然科学版),2015,36(4):527-531,541

[2]安存红,高祥晓,韩春丽等.利用数据挖掘技术构建基于审计数据仓库的商业银行新型审计模型[J].中国乡镇企业会计,2014,(4):171-172.

[3]高燕飞,陈俊杰.试析计算机数据挖掘技术在档案信息管理系统中的运用[J].内蒙古师范大学学报:哲学社会科学版,2012,41(4):44-46.

[4]蒋红,朱敏.数据挖掘技术在教师培训需求分析中的应用――以宁波市教师培训项目数据为例[J].宁波教育学院学报,2015,17(3):73-76.

[5]薄奋勇,武瑞庆,韩世良等.基于关联规则的数据挖掘技术在煤化工行业设备中的研究及应用[C].//第22届全国煤矿自动化与信息化学术会议暨第4届中国煤矿信息化与自动化高层论坛论文集.2012:436-439.

[6]宋淑彩,祁爱华,王剑雄等.面向Web的数据挖掘技术在网站优化中的个性化推荐方法的研究与应用[J].科技通报,2012,28(2):117-119.

数据挖掘技术分析论文范文6

关键词:数据挖掘;社会保险;信息分析

据挖掘是人们对数据库技术进行研究和开发的结果,目前已在诸多领域得到了广泛应用,只要该领域拥有具备分析价值和相关需求的数据,就可以利用挖掘工具进行数据挖掘。但现今国内把数据挖掘技术应用于社会保险信息分析领域的研究较少,在各种书籍专著中,目前相关专著仅有由劳动和社会保障部培训就业司、中国就业培训技术指导中心组织编写的,由中国劳动社会保障出版社于2008年3月出版的《社会保障信息分析与数据挖掘》。目前社会保障管理现状所面临的诸多问题中,其中就有对大量已有数据的无视和浪费,而数据挖掘技术可以帮助有关人员从社会保险的大量数据中发现事实背后的规律,通过对参保人员的特征数据分析,应用分类、聚类、关联规则和决策树等数据挖掘方法,界定不同参保人员的信用等级,从而针对不同的参保人员提供相应的服务,为构建和谐社会做出必要贡献。

一、社会保险信息分析概述

社会保险 (Social Insurance) 是由法律规定的专门机构负责实施、面向劳动者建立、通过向劳动者及其雇主筹措资金建立专项基金,以保证在劳动者失去劳动收入后获得一定程度的收入补偿的制度。

我国的社会保险包括养老保险(含城镇职工基本养老保险、企业年金、个人储蓄性养老保险、农村养老保险等)、医疗保险(含城镇职工基本医疗保险、城镇居民医疗保险和新农村合作医疗保险)、失业保险、工伤保险、生育保险五种。主管单位为中华人民共和国人力资源和社会保障部。

社会保险分析就是通过已掌握的社会保险相关信息资料,运用相关分析方法加以分析,反映社会保险的现象并揭示其内在的规律性,为社会保险政策制定、科学决策和规范管理提供咨询意见和对策建议。

通过对社会保险信息进行分析,一方面可以真实客观地反映出社会保险政策的执行情况,确保社会保险目标的实现,并不断总结社会保险事业发展过程中的经验与教训;另一方面,又可为决策层提供反馈信息,为科学决策做好必要准备。

二、数据挖掘技术概述

(一)数据挖掘概念。数据挖掘,又称为数据库中的知识发现,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

并不是所有的信息发现任务都被视为数据挖掘。有些任务虽然重要且涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息,所以并不是我们这里所谈到的数据挖掘。

(二)数据挖掘方法

常用的数据挖掘方法有:

1.决策树方法:用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。

2.遗传算法:它是在生物进化的概念基础上设计的一种优化技术,它包括基因组合、交叉、变异和自然选择等一系列过程,通过这些过程以达到优化的目的。

3.人工神经网络:它从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征挖掘等多种数据挖掘任务。

4.最近临技术:这种技术通过已辨别历史记录的组合来辨别新的记录,它可以用来作聚类和偏差分析。

5.规则归纳:通过统计方法来归纳、提取有价值的规则。规则归纳技术在数据挖掘中被广泛应用。典型的方法有集合论的粗集方法和概念树方法等。另外,还有可视化方法、公式发现方法等。

三、数据挖掘技术在社会保险信息分析中的应用

社会保险是一项关系国计民生的事业。随着我国社会保险事业的不断发展,对多年来积累的大量历史数据进行有效分析,从而为决策工作提供正确的指导、为管理实施找到详实的依据,成为目前社会保险行业最迫切的需求。

(一)社会保险信息分析的程序

第一步:明确分析目的,拟定分析提纲,编制分析计划。

第二步:搜集、鉴别、整理资料。

第三步:编制分析表。

第四步:进行系统的分析研究。

第五步:撰写分析报告。

(二)数据挖掘流程

1.数据清理:消除噪声与不一致的数据。

2.数据集成:多种数据源可以整合到一起。

3.数据选择:从数据库中检索和分析出任务相关数据。

4.数据变换:数据变换或统一成适合挖掘的形式。

5.数据挖掘:选择适当的算法来找到感兴趣的模式。

6.模式评估:根据兴趣度量识别表示知识的有用模式。

7.知识表示:使用可视化和知识表示技术,提供挖掘出的知识。

(三)数据挖掘技术在社会保险信息分析中的应用方式

根据数据挖掘所具备的功能,数据挖掘的技术可以应用到社会保障对象分析、社会保障基金管理及社会保障决策管理的各个不同领域和阶段,具体可应用在以下四个方面:

1.利用聚类对参保群体进行分类分析。近年来,随着数据仓库和数据处理手段的不断发展,这为社保基金的管理提供了更为有效的手段和工具,这意味着,国家社保机构可以利用相应手段对参保群体进行分类,加深对不同参保群体的了解,从而更好地服务于参保对象,提高社会保障服务水平。

2.参保群体背景分析。了解参保群体的背景资料,有助于社保机构对参保对象进行分析,从而更好的制定社会保障策略。数据挖掘的最大优势就在于可以从大量、表面无关的参保信息中发现许多对国家社保整体有用的模式。

3.参保对象信用分析。通过对参保对象的信用了解,从而对其进行等级分类,对社保机构及其管理工作很有意义,对不同信用级别的参保对象,采取不同的监管措施。数据挖掘可从大量历史数据中分析出具体参保对象的信用等级。

4.数据资源的完善与共享。数据挖掘工作对数据的收集和处理提出了更高的要求,这为规范我国社会保障数据收集和整理工作提出了客观的要求,同时为了实现更好地为参保对象服务,需要整合多个数据库平台资源,达到资源的充分利用,节约相应的劳动和成本。

(四)具体实施过程

我们在接触到一个具体的应用问题后,该如何实施呢?大体可按如下过程实施:

1.找准问题的类型。我们在遇到问题时,必须首先明确所面临问题的类型,然后根据类型的不同选择具体的处理方法。例如,当我们要做参保对象的信用分析时,我们应该首先明确该问题类型属于分类。如果该问题类型无法用数据挖掘工具解决,那么就应当选择另外更加适合的方法来进行解决。

2.选择合适的数据挖掘技术。在明确了所要解决的问题属于哪一类应用问题后,就可以选择合适的数据挖掘技术了。例如上面的问题,我们明确了其任务主要是分类,那么可以采用的技术有遗传算法、决策树和人工神经网络等,我们可以选择决策树,在进行了分类之后,还可以确定每个类的信用等级和骗保预测。选择合适的挖掘技术和工具,对于未来系统的性能和可靠性有重大影响,应该认真分析挖掘目的,慎重选择。

3.准备数据。在已获取的数据基础上,数据的数量和质量对挖掘结果有重大影响,因此我们应从大量的参保数据中找到与分析问题有关的样本数据子集,从而减少处理的数据量,但必须保证其样本子集具有典型的代表性。然后进行数据预处理、分析,尽可能的对问题解决的要求进一步明确化、进一步量化。按问题要求对数据进行增删或组合生成新的变量,以体现对问题状态的有效描述。

4.建立模型和知识发现。在选择好数据挖掘的技术和方法后,下面就要对其建立模型,这是数据挖掘的核心环节。不同的技术方案产生的结果模型有很大不同,而且模型结果的可理解性也存在较大差异。例如,用决策树方法产生模型结果就比用神经网络技术的结果易于理解。另外,对结果的分析和描述也很关键,不恰当的描述会造成误导。

5.证实和评价。通过上面的处理之后,就会得到一系列的分析结果和模式,它们是对目标问题的多侧面的描述,这时需要对它们进行验证和评价,以得到合理的完备的决策信息。可以采用的方法有直接使用原来建立模型的样本数据进行检验,或另找一批数据对其进行检验,也可以在实际运行中取出新鲜数据进行检验。

四、数据挖掘技术在社会保险信息分析应用中的未来趋势分析

数据挖掘是一门新兴的学科,其技术发展还不够成熟,它的功能应用也未得到充分的实现;同时鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性的课题。

(一)可伸缩的数据挖掘方法。由于数据挖掘必须能有效地处理大量数据,而且,应是交互式的。由于数据量是在不断地激增,因此针对单独的和集成的数据挖掘功能的可伸缩算法显得十分重要。

(二)数据挖掘语言的标准化。数据挖掘语言的标准化工作将有助于数据挖掘的系统化开发,改进多个数据挖掘系统和功能间的互操作,促进数据挖掘系统作用的更好发挥。

(三)可视化数据挖掘。可视化数据挖掘是从大量数据中发现知识的有效途径。系统研究和开发可视化数据挖掘技术有助于推进数据挖掘作为数据分析的基本工具。

(四)Web挖掘。由于Web上存在着大量信息,并且Web在当今社会扮演越来越重要的角色,有关Web内容挖掘,和因特网上的数据挖掘服务,将为社会保险信息分析提供新的信息支持。

本文对数据挖掘技术在社会保险信息分析中的应用做了初步的探索,从理论和逻辑上论证了社保管理中数据挖掘技术应用的可行性,并给出了具体的应用流程和方法。但是本文依旧存在一些不足,由于社保数据的特殊性质,未能以真实的社会保险数据为对象,通过相关数据挖掘软件,如SAS等对其进行分析和处理得出相关结论以验证本文的基本假设和观点,这一点是相关研究以后待改进之处,是值得后来研究继续深入挖掘的地方。

参考文献:

[1]Margaret H.Dunham.郭崇慧等译.数据挖掘教程[M] .北京:清华大学出版社,2004

[2][美]Michael.A.Berry、Gordon S. Linoff.别荣芳等译.数据挖掘技术:市场营销、销售与客户关系管理领域应用[M].北京:机械工业出版社,2006

[3][加]Jiawei Han、Micheline Kamber. 范明、孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2001

[4]田光哲,安燕.社会保障信息分析与数据挖掘[M].北京:中国劳动社会保障出版社,2008

[5]张兴会等.基于对角Elman神经网络的失业预测模型[J].南开大学学报(自然科学),2002,6

[6]李勇等.数据挖掘技术在管理中的应用[J].重庆大学学报,2002,8

[7]黄琨等.基于数据仓库的社会保险业务信息查询统计系统分析[J].河北省科学院学报,2004,12

[8]武建华.基于数据仓库的失业保险决策支持系统的研究与实现[J].计算机工程与应用,2004,4

[9]Franklin Maxwell Harper.Data warehousing and the organization of governmental databases[J].Digital government: principles and best practices,2004,1

[10]Chidanand Apte,Pbing Liu,Edwin P.D.Pednault. Business applications of data mining[J].Communications of the ACM,2002,45,8

作者简介:

数据挖掘技术分析论文范文7

1.1数据挖掘的概念

数据挖掘(DataMining[1])是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘可粗略地理解为三部分:数据准备(DataPreparation)、数据挖掘,以及结果的解释评估(InterpretationandEvaluation)。将数据挖掘技术应用到医学信息数据库中,可以发现其中的医学诊断规则和模式,从而辅助医生进行疾病诊断,实现临床决策支持的效果。

1.2数据挖掘的功能[2-6]

1.2.1关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律,就称为关联。关联可分为简单关联、时序关联、因果关联。

1.2.2分类

分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。

1.2.3聚类

数据库中的记录可被化分为一系列有意义的子集,即聚类。

1.2.4概念描述

对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述。

1.2.5预测

数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

1.2.6异常检测

一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型,那些不符合大多数数据对象所构成的规律的数据对象就被称为异常数据。

1.3数据挖掘的过程

数据挖掘过程[7-9]是在设计者的主动参与下进行的知识发现过程,是在积累了大量的数据后,从中识别出有效的、新颖的、潜在的、最终可以理解并加以有目的运用的知识。一般分为以下步骤:问题定义:清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。数据准备:①数据理解---将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。②数据的选择及简化—是根据用户的需要从原始数据库中抽取的一组数据。③数据的预处理--研究数据的质量,为进一步的分析做准备。数据挖掘:对所得到的经过转换的数据进行挖掘。结果分析:解释并评估结果。知识的优化:将分析所得到的知识集成到业务信息系统的组织结构中去。

2医院信息系统中数据挖掘的研究

2.1医疗数据挖掘主要分类

2.1.1从数据挖掘的处理过程、功能模型、算法研究,可以将医用数据挖掘按功能模型和挖掘对象两个方面进行如下分类[10-14]。

2.1.1.1按照功能模型分类:常用的数据挖掘技术可以分成统计分析类、知识发现类、和其他类型的数据挖掘技术三大类。①统计分析类:统计是数据搜集和描述数学的一个分支。在医疗数据挖掘中的应用如:聚类分析方法可以对DNA分析、医学影像数据自动分析、多生理参数监护数据分析、中医诊断和方剂的研究、疾病危险因素分析等。②知识发现类:知识发现是用一种间接的方式从数据中抽取信息的一种技术,而这些信息是隐含的、未知的,并且具有潜在应用价值。其中可分为:a.关联规则型知识挖掘技术,是医用数据挖掘的一种主要形式。b.神经网络型知识挖掘技术。c.遗传算法型知识挖掘技术。d.粗糙集型知识挖掘技术。如关联分析可以用来分析预测手术术后和药物治疗的效果,可以对某种疾病的相关发病因素进行分析以指导患者如何预防该疾病;可以对带病DNA和健康组织的DNA基因序列进行比较,以识别出两类基因的差别,从而得出致病因素;可以对患者的生理参数进行分析,分析各种生理参数之间的关系进而得出有意义预防与治疗方案等。e.机器学习类,归纳学习方法又可分为决策树、规则归纳等。如决策树用于前庭区与头晕有关的疾病诊断规则的提取。③其他类型:除以上陈述的数据挖掘技术外,近年来,随着各种数据处理工具、先进的数据库技术与因特网技术的迅速发展,还出现了一些其他数据挖掘技术。如文本挖掘技术、Web挖掘技术、分类分析技术、地理信息系统与空间数据挖掘技术以及分布式数据挖掘技术等。

2.1.1.2按照挖掘对象分类:按照不同的数据类型,数据挖掘研究在时间序列数据、空间数据、文本数据、多媒体数据等方面展开。①时间序列数据(TimeSeriesData)是与时间有关的一系列数据。对时间序列数据的挖掘主要是发现序列中事物出现的周期和规律,以及不同时间序列间的同步关系。如应用时间序列预测方法可以对医院药品进、销、存产生的数据进行统计分析。②序列(Sequential)模式序列模式与关联模式相仿,其目的也是为了挖掘数据之间的联系,但是序列模式分析的侧重点在于分析数据之间的前因后果。如:对医院门诊和住院患者量进行预测,可以分析某种疾病发病率的变化趋势,病死率预测等。③文本数据(TextData)就是我们一般的文字,如报刊杂志、设备维护手册、故障描述等的内容。④多媒体数据(MultimediaData)是随着多媒体技术而日益涌现的声音、图形、图像、超文本等数据。应用领域例如针对大量CT、MR图像的存储和查询问题而兴起的基于内容的图像问题。由于与传统的文本数据不同,因此必须采用新的挖掘手段来发现内容和形式间的内在联系。

2.1.2按应用层面可医院数据挖掘可分为诊疗信息挖掘和管理信息挖掘。诊疗应用如:中山大学肿瘤防治中心的研究人员通过肿瘤分子信息和数据挖掘方法可以预测早期非小细胞肺癌5年内是否死亡,这一预测的总正确率达87.2%,该技术一旦成熟,今后每个肺癌患者开刀做完手术后,可借此预测其5年存活情况,而且检测费用远比国外的基因检测便宜;上海同济大学附属医院分析糖尿病患者肌肉组织和脂肪含量与骨密度之间的联系,得出高肌肉和高脂肪含量可以降低患者髋骨骨折的危险性;第四军医大利用数据库和数据挖掘技术建立了恶性血液病数据库分析系统等。管理应用如:北京协和医院开展数据挖掘在临床医疗管理上的研究,为医院业务管理等提供支撑,并辅助领导决策;广州南方医院采用数据挖掘查询系统查询医生有否开大处方,患者是否花了不该花的医药费,且患者有望提前治愈出院。

2.2医疗数据挖掘的应用研究

2.2.1诊疗信息挖掘

诊疗信息挖掘主要目的是通过患者信息分析,提供有参考作用的医疗方案。①建立患者随访信息库。②临床疾病分析、辅助诊断:如:a.判别分析:用于心脏疾病的分类;用于阑尾炎4种不同类型的判别。b.人工神系统网络:用于颅内星形胶质细胞瘤良、恶性的影像诊断;用于肺内孤立结节的影像鉴别诊断。c.决策树:糖尿病分类规则建立;前庭区与头晕有关的疾病诊断规则的提取。

2.2.2管理信息挖掘

2.2.2.1财务管理[15,16]

①患者费用构成分析:患者费用由药品、治疗、检查、手术、化验等组成。利用数据挖掘技术可以分析医院、科室乃至各个病区专科内的患者费用构成,从而能有针对性地控制费用比例,探究医疗费用项目结构的合理性,使医院管理者有针对性的控制医疗费用。②同期费用对比分析:利用数据挖掘技术可以按不同的时间对各个科室或各个病区同期的各种费用进行对比分析,并以各种专业报表、视图的形式反映给医院管理者,分析变化趋势及可能原因。③成本效益分析:利用数据挖掘技术可以把各个不同系统如物资设备系统、财务系统等的数据汇总到数据仓库,然后对医院的成本效益情况进行全面分析,以便能真正把握医院的经营状况,提高医院的经济效益。例如:对医院资金运转情况作财务分析,了解医院财务状况和资金流向,分析医院运营风险,利用数据挖掘中的环基比和定基比技术分析医院财务资金的增长速度,并用曲线拟合来预测未来的资金需求量,为管理者决策和促进资源的有效配置提供依据。④医保费用构成分析:利用医院业务数据结合医保中心返还数据对医保分科的定额结算进行分析,指导医院各科室合理、高效的利用医保资源,在医保定额下提供更好的医疗服务。

2.2.2.2医疗质量管理[17-19]

①单病种分析:以ICDlO疾病分类为标准,利用数据挖掘技术对单病种进行分析,包括住院费用、住院天数、转归、病情、治疗方案等方面,为医疗质量管理提供依据,使医生能够及时总结经验,找出最佳治疗手段,既缩短了患者的就诊住院时间,减轻了患者的负担,同时提高了医疗工作效率,增加了医院经济效益。②手术室感染管理:a.手术室无菌物品及一次性用品智能备库系统;b.总结消毒灭菌工作与消毒效果的规律;c.预测术后切口感染合理安排手术并防止抗生素的滥用;d.利用HIS中知识解决消毒灭菌难点并杜绝差错;e.对参观手术人员和进修生实习生的管理;f.对手术室消毒灭菌和医院感染常规工作动态监测。③药学管理:a.备药量预测:用时间序列预测方法,对HIS中现有的药品用量信息进行计算模拟,得出药品消耗模型。b.制剂最佳批生产量预测:在分析医院制剂历年用量及近期消耗趋势下,得出该制剂效期内用量,并通过计算得出该制剂的最佳批生产量预测模型。c.治疗药物监测:对药物监测(TDM)历史数据分析、提取、加工、整合,更深层次挖掘(或发现)一些新知识,如开展药物群体药动学研究、药物浓度影响因素相关度分析等,为临床提供更多有价值的资料,实现给药个体化、提高药物疗效、降低药物毒副反应等。d.抗生素合理应用自动监控:对HIS中相关信息进行提取、分析、挖掘,对抗生素的用量、耐药性、联合用药、疗程、围手术期用药、预防用药、用药途径及治疗效果等指标实行自动监控,从而实时、有效地监测抗生素使用情况。

2.2.2.3医院经营目标管理[20]

①患者构成分析:运用数据挖掘技术中的秩和比法对医院门诊和住院患者的地区分布、性别分布、身份分布、职业分布、年龄分布等方面进行分析,从而得到不同类型患者的经济状况、需求的主要医疗服务类型等信息,了解患者差异对医院收益的影响,从而能够有针对性的采取措施来提高服务质量,增加门诊量和住院量。②患者流动情况分析:该功能可以分析门诊患者从挂号到取药再到离开医院的时间分布以及住院患者从入院到出院各个就医环节的时间分布。分析出患者的就医瓶颈,掌握影响患者诊疗效率的因素,以便能针对这些因素采取措施来帮助医院管理者进行业务流程的更新和改进,提高患者的就诊效率。

2.2.2.4经营决策管理[21]

①患者就诊时间分析:由于患者的入院季节性较强,可以通过分析每月、每季度的门诊人次、住院人次、床位周转率,通过时间维度分析,建立灰色预测模型,来预测下一时期的门诊和住院人次。根据预测信息,医院管理者可以提出有针对性的措施,确定最优的服务项目时间表,从而作出终止或开拓某种医疗服务项目的决定,实现对人力资源、医疗设施、医疗设备的适当配置。②医疗工作量影响分析:科学合理地评价医疗工作量,找出影响医疗工作量变化的主要因素,是进行医疗工作量影响分析的目的。例如:医院收治患者数是医院工作量的重要指标之一,直接影响医院的经济效益和社会效益。利用数据挖掘技术中的灰色关联分析方法对医院收治患者数的影响因素进行分析:病床周转次数、住院患者手术人次、年收治患者人数、平均开放病床数和年平均医生人数与年收治患者数关联程度等。

2.2.2.5医院资源管理

①科室综合评价分析:利用数据挖掘技术对医院各科室进行综合评价分析,选出代表性强、独立性好,能反映科室工作效率、治疗质量、经济效益、综合管理等的多项指标进行综合评价分析,找到科室的薄弱环节,并采取相应的措施,以提高科室的综合水平。②医疗设备绩效预测分析:从HIS中的患者信息中提取病种、数量、诊疗类别等信息后与医疗设备使用信息相关联,利用数据挖掘技术对所得到的信息进行深层次的数据挖掘,构建数据挖掘模型,利用已建立的数据挖掘模型,在医疗设备购置前对其绩效进行预测,使医院领导的决策更为准确、科学;在医疗设备投入使用后,对其绩效进行准确评价,提高医疗设备的完好率和使用率。通过进一步的数据挖掘,实现对医疗设备从购置前的可行性论证到淘汰报废的全程决策支持,使医疗设备的全寿命期都纳入管理者的统筹管理之中,较好地解决医疗设备效益、代价、风险等互相制约的管理难题,充分发挥医疗设备的社会效益和经济效益。因此本研究具有明确的推广应用前景及重大应用意义。

2.3医疗数据挖掘的热点及前景

当前,数据挖掘的研究方兴未艾,其研究与开发的总体水平相当于数据库技术在20世纪70年代所处的地位,迫切需要类似于关系模式、数据挖掘系统和SQL查询语言等理论和方法的指导,才能使数据挖掘的应用得以普遍推广。其研究可能会集中到几个方面,而生物信息或基因的数据挖掘则是热点之一。数据挖掘在医院管理中的应用将会涉及医疗及管理的各个部分及层面,数据挖掘将形成系统,并通过广泛深入的数据挖掘产生医疗方案数据库,为合理诊断、完善临床路径,提供有效帮助;通过数据挖掘分析达到人力资源合理配置;通过数据挖掘为区域性卫生系统构建提供有效依据等。

数据挖掘技术分析论文范文8

[关键词] 经济与管理;本科生;数据挖掘;教学探索

[中图分类号] G642.3 [文献标识码] A [文章编号] 1005-4634(2013)04-0082-03

0 引言

数据挖掘技术能从大量数据中发现和学习有价值的和隐藏的知识,因而近年来在国内外受到极大重视,在电信业、零售业和银行业等生产大数据的行业中正获得越来越广泛的应用[1]。因此,近几年数据挖掘这门课程已越来越多的走进了高校课堂。但是,数据挖掘又是一门综合性较强的交叉学科,它涉及到统计学、数据库技术、数据仓库、人工智能、机器学习和数据可视化等学科知识,对学生的专业知识背景和前期所学课程有较高的要求,这在一定程度上限制了数据挖掘作为一门既有理论价值又有实践价值的学科的应用和推广。笔者结合自己的教学实践研究经管类专业本科生开设数据挖掘课程的教学探索。

1 经管类专业本科生开设数据挖掘课程的必要性和可行性分析

从经管类各专业的培养目标角度分析。以南京邮电大学经管类专业为例,该专业包含信息管理与信息系统、电子商务、市场营销、经济学和工商管理等专业,这些专业的培养计划都把培养学生具备市场分析、经营和管理决策能力作为专业的基本培养要求之一。数据挖掘作为商务智能的核心技术,是辅助管理者进行决策分析的有效工具,在激烈的商业竞争中发挥的作用越来越大。因此,为经管类专业本科生开设数据挖掘课程可以更好地实现专业培养目标。

从经管类专业本科生的就业角度分析。经管类专业本科生毕业后,有相当一部分同学会从事营销岗位或者信息管理、网站设计与维护等技术岗位。对于从事营销岗位的同学来说,由于现在的市场营销概念已经发展到精细营销理念,即企业恰当而贴切地对自己的市场进行细分,对各种客户群进行深入的分析和定位,并根据不同的客户群特点,采取精耕细作式的营销操作方式,将市场做深做透,进而获得预期效益。数据挖掘技术是实现精细营销的重要工具;对于从事技术岗位的同学来说,学习数据挖掘课程,掌握数据挖掘的思想和方法对培养学生的系统思维和解决实际问题的能力、提高学生的信息素养很有必要。因此,学习数据挖掘课程对学生未来的工作也是非常有帮助的。

数据挖掘是一门交叉学科,课程理论性强,且对学生的计算机基础要求较高。经管类专业只有信息管理与信息系统、电子商务两个专业开设了较多的计算机课程。但是所有经管类专业都开设了统计学必修课程和数据库原理与应用必修或选修课程,这两门课程是数据挖掘的核心。因此,适当地调整教学目标,将数据挖掘作为一门选修课程为经管类专业本科学生开设是完全可行的。

2 教学过程中存在的问题

笔者在为经管类专业本科生开设数据挖掘课程的过程中,往往遇到两个问题。

1)课程较强的理论性与学生知识结构缺陷之间的矛盾问题。数据挖掘这门课程涵盖了统计学、数据库原理、机器学习、信息论和时间序列等众多内容,课程教材中有较多的公式推导和算法分析,因此课程的理论性较强。然而,经管类专业本科生之前只是学习了统计学和数据库原理与应用两门课程,机器学习等其他课程知识均没有涉及到,因此在学习数据挖掘课程时会感到内容难度较大,障碍较多[2]。

2)理论教学与实验教学学时合理分配的问题。由于数据挖掘课程通常是作为选修课安排在经管类专业本科生培养计划中,总学时数相比学位课程要少,只有32学时。正如前文所述,这门课程包含的内容多、难度大,因此必须要保证足够的理论教学学时数量。同时,数据挖掘又是一门应用性较强的课程,特别是对于经管类专业本科生来说,一定要安排足够的实验教学学时,让学生在实践中提高分析问题和解决问题的能力。在较少的总学时约束条件下,如何合理地分配理论教学学时和实验教学学时是课程教学遇到的又一个问题。

针对经管类专业本科生开设数据挖掘课程时遇到的矛盾问题,将这门课程的教学目标确定为:掌握数据挖掘基本流程和经典算法的基本原理,熟练运用数据挖掘软件工具,分析和解决商业应用问题。课程教学目标指出,为经管类专业本科生开设数据挖掘课程的目的是培养学生利用数据挖掘这种工具去分析和解决商业应用问题的能力,而不是要求学生具备数据挖掘算法设计能力。因此,对于经管类专业本科生来说,实验教学和理论教学同等重要。在课程教学大纲中应将理论教学学时和实验教学学时设置为各16个学时。

3 教学内容设计

用16个学时来介绍数据挖掘课程的理论知识点,这就要求教师能够为经管类专业本科生精心挑选知识点,“量身定做”教学内容。

1)以应用为目的设计教学内容。根据经管类专业本科生数据挖掘课程的教学目标,本门课程在教学过程中应注重培养学生应用数据挖掘分析问题和解决问题的能力,这就要求教师能够围绕数据挖掘的整个应用过程来安排教学内容。数据挖掘的应用过程包括数据收集、数据预处理、模型构建和知识评价四个主要步骤。数据收集步骤是指准备数据挖掘的对象——数据源,有的数据源是一个数据文件或者是数据库中的一张关系表,但对于具体的商业应用来说,数据源往往是来源于同一个或不同数据库中的多张关系表,或者是多个数据文件,这时需要对数据源进行集成,甚至是构建数据仓库;数据预处理步骤是指通过数据清洗、数据集成、数据变换和数据归约等操作为数据挖掘任务提供干净、准确和简洁的数据,提高数据挖掘效率和挖掘结果的质量,它是数据挖掘中非常重要的环节;模型构建步骤是指选用数据挖掘算法在预处理后的数据集上构建挖掘模型的过程,关联、分类、聚类和回归分析是数据挖掘中四个主要的挖掘任务,每个挖掘任务又对应了多个挖掘算法;知识评价步骤是指采用各种统计指标对挖掘结果进行评价,以发现有价值的知识。由于不同挖掘算法得出的挖掘结果表现形式不同,知识评价应针对具体挖掘算法进行,因此知识评价步骤要安排在每个挖掘算法介绍完之后。

2)重点介绍经典算法。针对经管类专业本科生在学习数据挖掘课程时感到内容难度较大这一问题,且考虑到课程的理论授课学时有限,笔者对原有的数据挖掘内容进行了适当的精简。数据挖掘包含数十种挖掘算法,删除复杂和难度大的数据挖掘算法,针对每种挖掘任务重点介绍其经典算法。例如,关联挖掘中的Apriori算法,实现分类挖掘的决策树算法,实现回归分析的最小二乘法以及聚类分析的k-means算法。对于神经网络、贝叶斯分类、时间序列挖掘和Web数据挖掘等难度较大或内容拓展性算法,在介绍相关章节时略提一下,并鼓励有兴趣的学生在课余时间自学。

3)增加商业案例。数据挖掘是一门技术性较强的课程,一般的教材往往注重理论,相关案例较少,因而不容易激发学生的学习热情[3]。为了帮助经管类专业本科生增加对课程中各种挖掘任务的感性认识,同时也是为了激发学生对本门课程的学习兴趣,笔者在讲授过程中增加了若干关于数据挖掘的幽默故事、经典案例和在各行业中的应用案例,通过分析案例加深学生对算法应用的理解。例如,在介绍关联挖掘任务时给学生们引入“啤酒与尿布”的故事;在介绍分类挖掘任务时讲解客户流失分析的应用案例;在介绍聚类挖掘任务时分析客户细分的应用案例。

基于上述分析,笔者为经管类专业本科生开设的数据挖掘课程教学内容具体如下。

第一章为绪论,主要是对数据挖掘技术作概括性描述,让学生对数据挖掘定义、与数据仓库的关系、研究热点以及发展趋势形成感性认识。本章内容分配2个理论教学学时。

第二章为数据仓库,主要内容包括数据仓库的定义与特征、数据仓库的数据组织、数据模型、总体结构和设计等原理性知识点,以及联机分析处理(OLAP)的基本概念和分析操作等基本知识。本章内容分配2个理论教学学时。

第三章为数据预处理,主要介绍数据清洗、数据集成、数据转换以及数据归约等数据预处理的基本步骤和常见方法。本章分配3个理论教学学时。

第四章至第七章围绕数据挖掘的4个重要任务——关联、分类、聚类和回归分析,在介绍每种挖掘任务基本概念的基础上,重点介绍经典算法的基本原理和挖掘结果评价方法,以及每个挖掘任务在具体行业的应用案例。第四章至第六章每章内容分别分配3个理论教学学时,第七章内容分配2个学时。

4 实验项目设计

数据挖掘是一门与实际应用结合紧密、实践性较强的课程。为了加深学生对数据挖掘理论知识点的理解,锻炼和提高学生的实际动手能力,必须结合实验进行教学。数据挖掘课程的理论教学和实验教学构成一个完整的整体,缺一不可[4]。实验教学要充分调动学生的主动积极性,而不是简单地让学生进行验证式的操作实验或仅仅局限于机械地使用、熟悉某种软件工具。

笔者针对课程知识点设计了4个实验项目,每个实验项目分配4个实验学时。

第一个实验项目为数据仓库构建,实验软件是SQL Server 2000,它提供了一套完全的数据库和数据分析解决方案,其中的Analysis Service 组件支持数据仓库的创建和应用,并提供OLAP联机分析操作。构建数据仓库的数据源来自SQL Server 2000的样例数据库Northwind,Northwind是一家虚构的公司,从事世界各地的特产食品进出口贸易。Northwind数据库包含有这家公司的销售数据,数据内容多,数据量大,数据结构贴近企业的真实数据,符合实验要求[5]。实验包含4个步骤:(1)理解业务数据,确定分析主题。Northwind数据库中的表非常多,需要理清各关系表的内容及其相互间的关联,在此基础上确定感兴趣的主题;(2)围绕分析主题,将主题相关的关系表通过企业管理器中的DTS进行清洗和转换,为数据仓库提供合适的数据;(3)使用Analysis Server向导,建立多维数据集;(4)基于构建好的多维数据集,对数据进行切片、切块、钻取、聚合和旋转等各种OLAP分析操作。

第二至第四个实验项目均是基于Clementine12.0等数据挖掘工具,通过构建数据挖掘模型分析具体商业问题。其中,第二个实验项目为关联挖掘的综合实践,要求学生运用关联挖掘经典算法Apriori分析移动产品交叉销售;第三个实验项目为分类挖掘的综合实践,要求运用决策树算法进行电信客户流失分析;第四个实验项目为聚类挖掘的综合实践,要求运用聚类经典算法K-means进行电信客户细分分析。上述三个综合实验项目都要求学生首先能够分析具体应用问题,然后进行数据预处理、构建数据挖掘模型,并对挖掘结果进行分析和讨论,以锻炼学生数据挖掘的思维体系和数据分析能力。

5 教学方案实施

在教学方案实施过程中,着重营造活跃的课堂教学氛围,重视对课后作业的指导,以期提高课堂教学效果。考虑到经管类专业本科生的知识背景和本门课程的特点,在每次课堂上都会抛出一个思考题,要求学生们运用所学理论联系身边实际展开讨论。例如,在介绍完第一章后设计了一个讨论题:如何运用数据挖掘帮助电信企业提高竞争优势?学生讨论得很热烈,也得出了多个答案。由于本门课程课堂讲授学时较少,为了帮助学生复习、巩固及应用所学内容,课程每章节后都安排了课外作业,并就其中的难点进行指导和讲解。实验过程中,着重培养学生的独立性和数据分析能力。首先向学生讲授清楚实验具体要求和注意事项,然后放手让学生自己去做,遇到问题先鼓励学生自己思考解决,实在有困难再稍加指点。实验结束后,要认真分析实验结果,完成实验报告。选择实验数据时要考虑到数据是否符合现实情况且能够突出所分析的问题。除实验以外,其它实验项目均采用SPSS产品培训过程中所用的相关数据,数据量大小适中,适合在实验课上使用,而且这些数据与真实数据的差异小,有助于提高学生解决现实问题的能力。数据挖掘课程的教学方案已实践了5年,其间不断进行经验总结和探索,无论从近几年选修本门课程的学生人数还是从课堂上学生的反映和学习气氛看,本门课程都取得了很好的课堂教学效果。

6 结束语

数据挖掘作为一门技术性和应用性较强的课程,对优化经管类专业本科学生的知识结构、扩展学生的专业应用领域有着重要的作用。笔者结合自己的教学经验,对经管类专业本科生数据挖掘课程的教学内容和实验环节等方面进行了积极的教学探讨和实践,学生反映非常好。在今后的教学工作中,要不断实践,不断总结,进而不断改进和提高数据挖掘课程的教学质量。

参考文献

[1]刘云霞.统计学专业本科生开设“数据挖掘”课程的探讨[J].吉林工程技术师范学院学报,2010,26(6):20-22.

[2]李志勇,王翔,喻军.信息管理专业数据挖掘课程教学探讨[J].管理工程师,2012,(4):66-68.

[3]刘昆宏.浅谈本科阶段数据挖掘课程设置[C]//In Proceedings of 2010 Third International Conference on Education Technology and Trainning,Wuhan,2010:4-5.

数据挖掘技术分析论文范文9

[关键词]Web数据挖掘;学科馆员;科研协同服务

DOI:10.3969/J.issn.1008—0821.2012.05.013

[中图分类号]G250.7

[文献标识码]A

[文章编号]1008—0821(2012)05—0051—04

随着我国科技水平的不断发展,高等学校生源和就业问题的加剧,高校生存和发展的竞争变得日益激烈。在全方位的竞争当中,教师的科研实力是衡量学校办学水平的最重要砝码,已经成为高校争取排名的坚强武器。教师科研项目或课题的申报越来越需要强有力的论据材料和论证方法来支撑,其项目研究也不断尖端化细致化。一些骨干教师在繁忙的教学工作中,担负着部级自然科学基金或社会科学基金等重大项目的研究任务。在其项目申报、项目研究、项目结题过程中,迫切希望高校图书馆的学科馆员能为其项目研究提供合理的信息导航和信息过滤等服务工作。因此,研究如何在网络环境下,以“用户为中心”,采用恰当的Web数据挖掘技术,挖掘出科研教师用户急需的信息资源,协助其解决科研过程中遇到的实际问题,是学科服务深层次化、个性化的一个新领域,具有独特的研究优势。

1 Web数据挖掘鲜活科研协同服务

1.1Web数据挖掘

1.1.1Web数据挖掘的概念及研究方法

Web数据挖掘(Web Data Mining),简称Web挖掘。是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的人们事先不知道但又是潜在有用的信息和知识过程。它是数据挖掘技术在Web环境下的应用,是从数据挖掘发展过来的集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项技术。Web数据挖掘可分为3类:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用模式挖掘(Web Us-age Mining)。其主要研究方法包括访问路径分析、关联规则发现、序列模式分析、分类规则发现、聚类分析等。其所处理的对象包括静态网页、Web数据库、Web结构、用户使用记录信息等。

1.1.2国内外Web数据挖掘的研究现状

20世纪90年代以来,数据挖掘技术已在国内外掀起了研究热潮。国外的IBM、NEC等机构对Web数据挖掘进行了大量的研究,并取得了一定的成果。S.Charkrabarti对超文本数据挖掘进行了研究,并指出基于知识的算法将会在Web数据挖掘中扮演重要角色;加州理工学院喷气推进实验室与天文科学家开发的SKICAT系统,能够帮助天文学家发现遥远的类星体。而国内对数据挖掘技术研究虽然较迟,但依然持续升温。有研究者将数据挖掘的因子分析法和聚类分析法相结合,分析我国各地区船舶工业发展的现状,为决策者决策提供科学合理的依据,指导我国船舶工业经济发展的规划和战略,缩小各地区我国船舶工业发展的差异。清华大学对科技文献检测算法进行大量研究,并开发了一套面向计算机领域的英文科技文献监测系统——AmetMiner。该系统从公开的文献数据库(如:DBLP、Citeseer等)抓取相关的文献数据,从Web上抽取研究者的Profile信息,然后将其集成在一起,并在此基础上根据合作关系构建学术网络,并进行深入挖掘,提供如权威专家/期刊/会议发现、关联路径发现等服务;中国人民大学开发的KBDL系统也是通过数据挖掘技术研制成功的仅供本馆使用的个性化服务系统。

1.2协同理论与协同科研服务

协同理论一词来自希腊语,意指关于“合作的科学”。创始人是前西德理论物理学家赫尔曼·哈肯。协同理论研究各种完全不同的系统在远离平衡时通过子系统之间的协同合作,从无序态转变为有序态的共同规律。其在自然科学和社会科学的各个领域都有广泛的作用,强调人的合作能力和合作精神。而Web个性化服务实际上是指以用户需求为中心的Web服务,图书馆利用现代技术、人工智能技术和专家系统等,主动获取图书馆用户个性化的特定信息需求,以及特定用户群体的共同信息需求,针对用户需求检索网络信息和馆藏数字信息,并根据用户要求把用户所需信息推送给用户的一种综合服务机制。在网络环境下,Web数据挖掘技术是实现个性化信息服务的关键技术,它将开创个性化协同服务的新局面。因此,我们认为,基于Web数据挖掘的科研协同服务是指为了提高学科化服务的质量和效率,学科馆员与科研教师协同工作,以Web挖掘为基础,以协助科研用户圆满完成研究项目为目标,根据科研教师在前期准备、研究过程和成果3个阶段中所必须的关于Web数据挖掘方面的帮助,直接融入用户并实际解决问题,挖掘具有前沿性和权威性的信息资源,提供有针对性的、符合其科研要求的个性化知识挖掘服务。

2 基于Web数据挖掘的科研协同服务平台的构建

2.1科研协同服务平台的设计

在协同服务平台设计方面,我们以湖北师范学院教师申报的自然科学基金项目中个性化Web数据挖掘信息服务需求为中心;以提供专业化、智能化、深层次化的知识服务为原则;以实现用户在科研过程中不同阶段的隐性知识转化为显性知识为目标;分析用户所提供的数据,创建符合用户特性的访问模式;结合用户的特性,向用户提供符合其特殊需求的信息服务为宗旨。在网络环境下,构建科研协同服务平台如图1:

2.2平台研发的原理

基于Web数据挖掘平台研发的原理为:科研用户通过身份验证进入个性化信息服务系统,通过用户接口模块提出科研项目中自己需要定制的信息请求。学科馆员收集信息请求,明确科研项目的主题和要求挖掘的目标,建立信息挖掘系统,确定Web数据挖掘的方法,并采用先进、合理的数据挖掘技术、计算机技术、数据分析技术等对收集的信息进行过滤、处理、集成。再把这些新获取的信息集合到用户信息库中,最后推送给科研用户,并得到用户的反馈,以便改进和完善个性化、学科化信息服务工作,协助用户进行科学研究。

3 基于Web数据挖掘的科研协同服务平台的运行

3.1运用URL挖掘,集成科研用户定制的特色信息源

统一资源定位符(URL,英语Uniform Resource Locator的缩写),也被称为网页地址,是因特网上标准的资源地址。它最初是由蒂姆·伯纳斯一李发明用来作为万维网的地址。法国图书馆的“网络文献采集项目”BnF就利用了Web结构挖掘的发现功能。它首先利用Web挖掘技术,获得包含相关主题的网络资源的一系列网址,经过分析处理,BnF把这些网址发送给有关专家,以评估是否进行采集;国内清华大学计算机系智能技术与系统国家重点实验室的马亮等设计了智能Web中文主题信息收集系统IRobot,该系统在对已搜集页面的主题相关度评价时综合考虑了页面的标题、段落标题、Anchor文本(所引用URL的说明文本)等对于页面评价具有较高价值的特征区域,并赋予了相对较高的权重系数,以此期望提高评价的准确性。Web上信息量庞大,要想挖掘科研用户定制的重要性较高的信息资源,学科馆员在收集科研教师定制的信息请求后,必须利用Web结构挖掘(Web—Structure Mining)中的URL挖掘方法,通过加权的启发式搜索算法来搜集对用户有利用价值的URL,自己加工处理,尽量使用目录短的、参数少的、关键词靠前的、已经过滤的URL,这些UP&都和科研项目主题息息相关,以便用户能快速地、有选择性地搜集网络空间,发现或下载与研究主题相关的信息,提高科研信息资源采集的速度。因此,根据实际,笔者所在的湖北师范学院教师在申报国家自然科学基金项目过程中,相应院系的学科馆员除了在图书馆现有的外文资源EBSCOhost(全文/文摘)、WordSciNet电子期刊(全文)、SprringerLINK电子期刊(全文)等数据库中找到与申报主题相关的文章或文摘的链接地址推荐给用户外,还在运用URL挖掘过程中,主动预测可能有价值的URL来增加信息发现的主动性;在URL被加入自建数据库时,结果插入进程调用过滤函数对URL进行过滤,同时也对IP地址进行过滤,避免重复的访问和冗余的信息。

3.2使用超链接挖掘,获取研究项目的发展新动态

Web上成千上万的WWW服务器通过网页之间的链接构成海量的信息。通常情况下,网页抓取的步骤是:从任务池中取一个任务地址URL,通过DNS得到其IP地址,用该IP地址与Web服务器建立TCP/IP连接,发出HTTP请求,等待接收HTTP应答,关闭TCP/IP连接,分析收到的网页,将其中包含的新链接加入到任务池中,将网页存放到磁盘数据库中。学科馆员使用超链接挖掘的目的是找出与科研项目主题相关的中心页面和权威页面,减少用户搜索网页的时间,降低重要信息遗漏的几率。因为从页面的作用来看,中心页面是相关信息的链接契合点,通过它很容易找到大批与科研项目相关的链接;权威页面是科研过程中用户必须了解的核心,通过权威页面的浏览,用户能够了解自己所研究项目领域的最新动态、科研进展、成果和思想、发展趋势等。为了协同科研教师了解其所申报主题的新颖性和发展的新动态,湖北师范学院的学科馆员为每个科研用户建立了个性化MyLibrary系统后,该系统采用的是目前主流的Web服务模式。用户通过Cookie的浏览器登录MyLibrary系统,设置账号和密码,并根据自己的知识结构、信息需求对馆藏数字资源和其他网络资源进行筛选、整理。用户完成设置后,动态建立MyLibrary,进入中心页面或权威页面定制自己所需求的内容。定制的内容包括我的教育与研究资源、我的数据库、我的图书馆链接、最新资源通报等。

3.3巧用Web日志挖掘,鼓励科研用户参与互动

Web日志挖掘过程可分为4个阶段:①数据采集阶段;②数据预处理阶段;③模式发现阶段;④知识获取阶段。Web日志挖掘的主要数据来源于服务器端日志,其中服务器日志尤为重要,是目前Web日志挖掘的主要研究对象。由于Web多级缓存机制导致服务器端无法记录用户的访问行为,因此,学科馆员对Web访问日志进行分析和挖掘时,必须经过一系列的数据准备和建模工作。首先,学科馆员应对端和客户端的日志数据进行采集,获取完整的科研用户访问信息,提高数据信息采集的完整性和全面性;然后把采集到的日志数据、内容和结构信息转换成数据挖掘阶段所需要的抽象数据;再对经过预处理的日志数据进行挖掘,获取隐藏在这些数据之中的规律或模式;最后通过选择和观察把发现的规则、模式和统计值列举出来,利用模式分析或模式转换成对用户有利用价值的知识,推荐给科研用户并得到反馈。学科馆员巧用Web日志挖掘技术,对担任重大科研项目研究的用户有两个好处:第一,能根据用户的需求对网页的内容、结构、布局进行个性化的定制;对数据负荷进行有效管理,鼓励用户参与信息资源的选择、评价,并允许用户根据个人的需要对学科馆员挖掘并推荐的信息资源进行注释,使馆员和用户的互动性变强,方便馆员对推荐的信息资源进行优化处理,协助教师获取重要的研究资源,提高学科化主动服务的效率;第二,学科馆员通过分析Web页面的缓存模式和访问流量特征,协同高校数字图书馆技术部,采用相应的策略,改善Web服务器的预读机制和负载均衡机制及数据分析机制,从而优化网站服务器的性能,方便教师远程校外访问图书馆数字资源库,提高用户随时访问湖北师范学院数字图书馆的满意度。

3.4选用多媒体挖掘,协助科研用户成果

多媒体信息挖掘(Multimedia Mining)就是从大量多媒体数据集中,通过综合分析视听特性和语义,发现隐含的、有效的、有价值的、可理解的模式,得出事件的趋向和关联,为用户提供问题求解层次的决策支持能力。多媒体信息挖掘主要涉及数据挖掘和多媒体信息处理两个研究领域。如何把数据挖掘的基本理论和方法与对多媒体特性的分析结合起来,从多媒体的内容着手,利用多媒体的时间、空间、视觉特性、视听对象及运动特性,挖掘出有价值的隐含的信息线索和知识,已经在国内外多个领域得到应用和发展。如利用多媒体中数据描述与内容通过对相似数据的搜索在医疗诊断、气象预报、TV制作及电子商务等领域得到广泛的应用;多媒体数据的分类和预测分析常被应用于天文学、地震学、地理科学领域;多媒体关联规则挖掘能从大量数据项集中发现有趣的关联或相关联系,从而在商务决策、行为分析、模式匹配等领域被广泛应用。学科馆员利用多媒体数据挖掘技术,结合信息过滤技术,从多媒体数据库选择恰当的文本、图像、视频、音频等数据的目的是为了协同科研用户完成重大项目成果的公开,使项目成果能生动形象地得以宣传、演示和实施等,并希望得到合理的评估和奖励。

4 结语

为了应对日益复杂的科学研究问题,科研用户对学科化服务工作的要求越来越高。基于Web数据挖掘的科研协同服务不但使用户在信息检索、信息过滤、数据分析、成果等多方面的研究工作效率得以提高,而且使学科馆员真正融入高校科研一线,成为学科服务工作的一个新亮点。但是,由于项目研究具有开创性和尖端性;Web数据挖掘工作具有复杂性和技术性。因此,学科馆员在协同服务工作时应注意两点:

数据挖掘技术分析论文范文10

摘要:随着科学技术的快速发展以及互联网、云计算、数据挖掘等技术的广泛应用,生产过程中的海量数据不再是一种负担,而已经成为了一种资源。物流人逐渐认识到,如果不能对海量的数据进行有效的分析、研究和应用,那将是巨大的资源浪费。本文以数据挖掘技术作为切入点,分析数据挖掘技术的特点及功能,提出了数据挖掘技术在物流主要环节中的应用,对于改良物流企业管理、提高各环节工作效率、搭建信息共享平台充分利用零散数据、降低物流营运费用等方面具有一定影响。

关键词:数据挖掘;物流;应用

随着科技和经济的快速发展,物流市场日趋完善,在国内及国际物流市场的竞争机制的作用下,物流企业对于数据挖掘技术的应用表现出了极大的兴趣。大多数生产型企业与零售企业为了快速发展经营规模、迎合当前物流市场的发展,迫切的需要借助数据挖掘技术来分析企业存在的问题并据此优化企业规划,提升企业的市场竞争力。深入研究数据挖掘技术及其在物流管理、仓储、运输、配送、信息共享等环节的中的应用势必会进一步加快物流行业的快速发展。

一、数据挖掘概述

1.数据挖掘的历史。互联网的快速发展及计算机技术的广泛运用,使人们获取信息及搜集数据的能力得到了极大提高,数以万计的数据库被运用于工程开发、企业管理、政府办公、科学研究等领域,并愈演愈烈,与此同时也产生了一个新的挑战:如何面对信息爆炸时代的海量信息。如果海量信息不能被及时的整理、分析并加以利用,便成为企业的拖累,也将成为新形式下的巨大资源浪费。在人工智能取得重大进展的前提下,数据库中的知识发现(KDD:KnowledgeDiscoveryinDatabases)应运而生,从而产生了数据挖掘技术,并很快得以蓬勃发展,越来越显示出其强大的生命力。1989年8月召开的第11届国际联合人工智能学术会议上首次提出了数据挖掘这一概念。在随后的1991年、1993年和1994年分别举行KDD专题讨论会,集中讨论海量数据分析算法、数据统计、知识运用、知识表示等问题[1]。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。2.数据挖掘的概念。数据挖掘(英语:Datamining),又译为资料探勘、数据采矿,它是数据库知识发现(KDD)中的一个步骤[2]。一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,它将人们应用数据的方式从原本简单的查询提升至在数据里挖掘与发现知识以对决策行为提供支持。数据挖掘技术是面向应用的,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。3.数据挖掘的特点。根据数据源挖掘的目的可将数据挖掘的特点总结为:(1)分析的数据信息量非常巨大;(2)面向对象(用户)一般是随机查询,难以达成精确的查询要求;(3)在数据快速变化时,需要反映动态数据,以提供决策支持;(4)数据挖掘服从大样本的统计规律,其分析结果难以适用于所有数据。4.数据挖掘的功能。预测/验证功能:指用数据库的若干已知字段预测或验证其他未知字段值。预测方法有统计分析方法、关联规则和决策树预测方法、回归分析预测方法等。描述功能:找到描述数据的可理解模式。描述方法包括以下几种:数据分类、回归分析、簇聚、概括、构造依赖模式、变化和偏差分析、模式发现、路径发现等。

二、数据挖掘技术在物流主要环节的应用

1.数据挖掘在物流管理中的应用。对于物流管理而言,妥善处理每个环节所产生的大量数据信息,能够让决策者做出更为适合企业发展的决定,掌握更为科学的解决问题的方法。数据挖掘技术的引入,可以通过建立大型数据库,利用数据挖掘技术及时、准确的分析各种信息,并从中获取新颖且有效的信息,再通过可理解的模型进行深层次处理,进而为客户提供个性产品和服务,提高客户满意度。一般应用步骤为:(1)建立大型数据库;(2)搭建相关系统模型;(3)进行大数据分析并获得潜在信息;(4)获得最适合企业发展的决策。2.数据挖掘在物流仓储中的应用。物流仓储涉及入库、出库、盘点、库存控制等多个环节,而这些环节都将产生大量数据,这些数据看似是仓储管理的负担,却也蕴藏着对优化库管极为有价值的信息,利用数据挖掘技术对有价值的信息进行处理,从而解决库存管理中存在的问题。具体表现为:(1)根据总成本最小化原理解决仓库的选址问题;(2)采用关联模式分析解决合理安排货位问题;(3)采用神经网络算法解决拣选最佳路径问题;(4)采用分类算法解决库存成本控制问题;(5)分析客户个性需求解决提高客户满意度问题。3.数据挖掘在运输配送中的应用。物流运输配送管理,包括运输配送计划编制、运输配送路径的选择、车辆的选择、混搭配载等问题,利用数据挖掘技术从运输配送大数据中提取出潜在而有价值的信息,从而指导运输配送各个方面的改进及优化。具体应用的方面包括:(1)通过现有数据进行顾客消费分析及预测;(2)根据历史同期水平比较进行经营成效分析及评价;(3)通过动态数据研究掌握车辆状态及事故预测;(4)通过对线路数据分析优化运输配送路径。4.数据挖掘在信息共享中的应用。物流信息管理系统的建立在物流企业管理中发挥了巨大的作用,但因建设需求、建设时间及管理体制的不同,各物流企业间形成了自成体系、各自独立的信息孤岛,导致信息资源的巨大浪费[4]。数据挖掘技术的引入能够促进建立完善的信息共享机制,进而提高物流企业信息共享程度,可以从以下三个方面来分析:(1)政府牵头搭建基于数据挖掘技术的城市物流资源共享平台,对城市物流进行有效监督,实现一体化规划管理;(2)行业牵头搭建基于数据挖掘技术的行业物流资源共享平台,物流信息及先进技术得以共享,达到提高物流效率的目标;(3)互联网公司牵头搭建基于数据挖掘的大数据共享平台,将政府、企业及客户的信息全部整合,以实现大数据共享要求。

作者:张贵彬 单位:陕西科技大学镐京学院

参考文献

[1]朱扬勇.数据挖掘技术现状[J].中国传媒技术,2006,(12):11-14.

[2]张贵彬,吕纪荣,郭小艳.数据挖掘技术在物流企业信息共享中的应用[J].企业改革与管理,2016,(5X):58-59.

数据挖掘技术分析论文范文11

【关键词】 现代商业领域 计算机 web数据挖掘技术 应用实践 略述

现代商业领域经营实践规模的不断增大以及信息技术形态发展事业的蓬勃推进,使得现代商业领域的实务人员,在开展基本化的日常经营实践活动的过程中。难以避免地要时刻面对规模不断加大的数据信息资源对象,这种现实发展条件,使得探索和应用行之有效的大规模数据信息处理技术实现路径具备了极其重要的实践意义。近年来,web数据挖掘技术的应用为现代商业领域的稳定有序发展发挥了不可替代的实践助力作用,有鉴于此,本文将围绕现代商业领域中计算机web数据挖掘技术的应用实践展开简要的分析论述。

一、计算机Web数据挖掘技术的概况分析

所谓的Web数据挖掘技术,就是基于现实存在的Web数据信息资源,实现对所需求的特定知识或者是信息对象的抽取操作。这一技术实现了传统数据信息挖掘基本思想以及实施方式在现代Web技术形态体系中的有效应用,能够将Web活动或文档记载结构存在的有用的、隐藏的、或者是潜在的信息资源对象,完整而有序地提取出来。

将Web数据挖掘技术应用于现代电子商务事业的发展过程中,能够实现对用户群体基本特征的分析和理解,举例而论,可以通过对客户访问电子商务网站过程中的内容、频率,以及行为等记录信息的分析和研判,初步实现对特定用户对象消费行为特征的提取和研判,从而针对特定客户实施有针对性的产品推销行为。

二、Web数据挖掘技术在现代商业领域中的应用

2.1针对对潜在客户群实施查找和分析

想要针对Web访问日志记录里中呈现的数据信息规律,展开科学而系统的研究和解析,应当预先对已经保存的电子商务访问者的基本线上行为信息展开分类,并将分类过程中实际面对的关键属性以及数据关系结构进行有针对性的明确化处理行为。

对于电子商务网站的新访问者,技术人员在实际开展Web访问日志记录信息分类的过程中,必然能够通过对已有信息结构的对照而实现及时地捕捉和发现,并实现对新访问者个体基本网络实践行为属性特征的正确归类。针对可能成为潜在化新客户的新访问者实施有针对性的商品线上推销实务行为。

2.2实现已有客户对象的保留操作

在电子商务模式的发展路径中,销售商与消费者之间的空间距离已经不再明显,在网络销售平台背景之下,所有销售方开展的商品销售对象的呈现和展示行为,在消费者的观察视野之下都具备着明显的平等性,电子商务销售方想要切实提升访问者在自身商品呈现网页中的停留时间,就必须对网页访问者实际具备的网页浏览实践行为习惯实现真切而科学的了解,并在此基础上真切感知潜在客户的消费需求特征以及兴趣指向,并有针对性地改变商品推销的呈现内容与呈现模式,提升商家对客户的保留时间。

2.3实现对客户的聚类操作

针对客户群体中的个体化对象展开聚类操作,是现代电子商务产业发展实务过程中的一个极其重要的实践环节,透过针对具备相似化网页浏览访问实务行为的线上浏览者,进行分组归类操作行为,并针对分组之后各组内部组成成员的消费行为特征的具体分析,商务销售组织的有关人员,将会逐步实现对潜在消费者构成群体的深切了解,从而能够极具针对性地给客户提供更加全面且更具针对性、以及适当性的产品销售和售后保障。

举例论之,网站访问记录日志数据信息分析实务技术人员,如果发现某一类型的网站访问者有意识地将其网络浏览时间用于特定网络信息界面的浏览和分析行为之上,通过将这一类型的网站信息浏览者划分为一个独立小组,并依照科学化的分析方法,获知这一小组内的网页信息访问者实际具备的聚类信息,销售商便可将这一人员小组视作潜在客户群,并在针对这一小组的构成人员,开展实际化的商业交易活动的过程中,施加专门性的区分处理操作,对商品推销网络页面的内容和呈现模式,及时开展有针对性的调整实务行为,实现对消费者实际消费需求的充分满足。

结束语:针对现代商业领域中计算机web数据挖掘技术的应用实践问题,本文选取两个具体角度展开了简要的论述分析,文中涉及了较多的技术性与应用性内容,预期为相关领域的实践人员提供借鉴意义。

参 考 文 献

[1]牛红惠,金显华.Web数据挖掘技术在电子商务中的应用[J].濮阳职业技术学院学报,2006,03:16-17+24.

数据挖掘技术分析论文范文12

关键词:数据挖掘;高校图书馆;决策;图书采购;信息服务

中图分类号:TP399 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02

数据挖掘技术是计算机领域和人工智能领域的关键技术。数据挖掘技术可以将大量的数据转换为有用的知识和信息,因此引起了信息产业界的广泛关注。近年来,在作为信息和知识的集散地和发源地的高校图书馆,数据挖掘技术的应用更为广泛。

1 数据挖掘概述

数据挖掘(Data Mining),就是从存放在数据库、数据仓库或其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。在人工智能领域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤[1]。作为数据库中的知识发现的一种先进技术,数据挖掘通过总结要查询的内容的模式,对其间存在的规律进行搜索,辅助决策者对当前数据及历史数据进行分析,发现其中隐藏的模式和关系,进而对未来可能发生的事情进行预测。因此,数据挖掘技术在高校图书馆中有着广泛的应用。

2 数据挖掘技术在高校图书馆的应用

2.1 提高图书馆的决策能力

由于数据挖掘技术能够从众多的数据中发现有用的知识和信息,因此被广泛应用在图书馆的管理中,领导通过对挖掘出的有用信息进行分析,可以提高决策的准确性和可行性。比如,通过数据挖掘技术可以对图书馆的图书借阅情况进行挖掘和分析,分析每类读者的借阅行为特征,发现借阅规律,为图书馆的管理提供可行的合理的建议[2]。数据挖掘技术可以将图书馆管理系统中的内部数据和外部数据结合起来进行分析,为领导提供灵活的、随时可用的决策信息。数据挖掘技术可以从历史数据中找出某种规律,发现某种潜在的模式,以此预测未来,提供决策信息[3]。

2.2 辅助图书馆的图书采购

此外,通过对数据挖掘技术的结果进行分析和总结,可以提供各种预测性信息和分析报告,可以科学合理的指导图书馆采购图书,从而降低图书采购人员的主观因素带来的影响,可以科学的、准确的和全面的提高决策的能力,提升决策的水平。数据挖掘技术应用于图书采购的过程包括原始数据的收集、预处理、数据变换、数据挖掘、结果分析和采购计划的制订五个步骤[4]。

1.原始数据的收集。这一过程是基础,可以为下面几个环节提供一定的数据源,提供的数据源可以用在后期的数据挖掘中。在实践应用中,这一环节主要收集图书馆办公自动化系统数据库里的相关业务数据,主要包括以下内容:①读者基本信息数据。比如读者的姓名、性别、所在院系、借阅证号等。②流通借阅数据。利用数据挖掘技术获得的这部分信息,可以反映图书馆的文献利用情况,通过分析、统计和总结这些数据,有助于掌握读者的需求和书刊的使用情况,进行提供一定的预测信息。③文献信息检索数据,这些数据的主要功能在于如实地向数据挖掘人员反馈用户的实际需求和借阅倾向,并挖掘读者需求数据。④图书馆所藏的图书数据:主要包括书的题名、作者、出版社、出版日期、索书号、馆藏位置、购入日期等数据。

2.原始数据的预处理。这一环节就是在数据挖掘前对一些有问题的数据进行处理,这些数据大多数是不完整的、不一致的或有噪声的,这些数据是图书馆自动化系统数据库数据中的一部分。在数据挖掘前处理这些问题数据是非常有必要的,可以从根本上提高数据挖掘的效率和所获知识的质量。

3.数据变换。这一过程就是对前面两个环节所获得的有效数据进行总结、分析、聚集和归纳,使数据更适合于挖掘,满足不同的数据挖掘的需求。

4.数据挖掘。数据挖掘过程的主要工作就是设计选择一种合理的算法,使当前的数据情况和挖掘的目标相匹配,使其一致,比如遗传算法等。通过分析读者基本信息数据和流通借阅数据之间的关联关系,某类读者和某类图书之间的关联度会更加清晰的被数据挖掘人员所理解。

5.结果分析和采购计划制订。一般情况下,数据挖掘所获得的结果并不是可视化的,需要通过一些工具比如可视化工具和知识表示技术对其评估和解释。通过数据挖掘,可以获得检索频率和借阅频次较高的图书信息。借助这些信息,可以对各类文献的利用率和需求状况进行科学合理的分析,从而辅助采购人员科学地筛选文献种类。

2.3 提升图书馆的信息服务水平

图书馆的信息服务一般是被动服务,也就是图书馆员定期向用户提供一些资料,比如课题资料、项目资料等;除此之外,图书馆员还要逐一解答用户的信息请求。由于当前的科技发展日新月异,知识更新速度快,而这种被动服务模式反应较慢, 不能满足现实发展的需要。数据挖掘技术的广泛应用,使图书馆由被动服务转为主动服务,使传统图书馆转变为主动性、智能型的信息服务机构。

3 数据挖掘技术对高校图书馆带来的挑战

(1)从异构数据源中挖掘信息。笔者认为,从异构数据源中挖掘信息也就是从多个不同的相关的数据源系统的集合中挖掘相关的信息并对其分析综合,从而产生有用的信息和知识。在当今的网络时代,信息技术日新月异,新技术层出不穷,这就要求图书馆的专业技术人员能够驾驭新兴技术,能够从被各种网络连接起来的具有不同语义的多种数据源构成的分布式异构数据库中挖掘相关信息。

(2)数据挖掘结果的不同形式表示。由于当前图书馆通过数据挖掘技术获得的数据具有不确定性,所以数据挖掘的结果会有多种类型,其表示形式也不同。图书馆的用户也许会要求挖掘出不同知识,这就需要图书馆工作人员从一个大规模的数据集中挖掘出不同的知识,并从不同的角度来审视,并以不同的形式表示挖掘的结果[5]。

(3)在不同的抽象层次上进行交互式挖掘。在数据挖掘之前,很难从一个大规模的数据库中预测出能挖掘出什么信息,因此,应该以一个搜索过程来处理复杂的数据挖掘查询,对于必要的中间结果务必保留,以供进一步挖掘使用。在挖掘过程中,用户通过不断地修改其查询请求,对挖掘目标进行动态调整,能使挖掘过程得到有效地推进。因此,系统需要对挖掘的中间结果以不同的角度进行观察,并提供用户观察数据的灵活性。

4 结语

数据挖掘技术在高校图书馆的应用范围很广,除了上述应用外,在学科管理、馆藏资源建设、信息咨询、图书馆的现代化建设与管理等方面都有广泛的应用。通过对高校图书馆各种数据、信息的挖掘,可以揭示隐藏在期间的各种重要关系,图书馆员应该学习这方面的新技术、新发展,为图书馆的发展做出更大的贡献。

参考文献:

[1]邱晓辉.知识发现与数据挖掘分析[J].情报探索,2011,(1).

[2]张炜,洪霞.基于读者利用挖掘的图书馆决策与应用分析[J].现代情报,2009,29(7).

[3]罗仕健,朱光磊.数据挖掘技术在网络环境下图书馆中的应用[J].情报杂志,2004(6).