0
首页 精品范文 数据挖掘技术应用

数据挖掘技术应用

时间:2022-04-15 16:45:10

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据挖掘技术应用,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

数据挖掘技术应用

第1篇

数据挖掘(DataMining,DM),是随着数据库和人工智能发展起来的新兴的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。

2、数据挖掘技术

2.1关联规则方法

关联规则是一种简单,实用的分析规则,描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是。并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价。筛选出用户真正感兴趣的。有意义的关联规则尤为重要。

2.2分类和聚类方法

分类就是假定数据库中的每个对象属于一个预先给定的类。从而将数据库中的数据分配到给定的类中。而聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。

2.3数据统计方法

使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。传统的统计学为数据挖掘提供了许多判别和回归分析方法。贝叶斯推理、回归分析、方差分析等技术是许多挖掘应用中有力的工具之一。

2.4神经网络方法

神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。这些优点使得神经元网络非常适合解决数据挖掘的问题。因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类;用于分类、预测和模式识别的前馈式神经网络模型;用于联想记忆和优化计算的反馈式神经网络模型;用于聚类的自组织映射方法。新晨

2.5决策树方法

决策树学习是一种通过逼近离散值日标函数的方法,把实例从根结点排列到某个叶子结点来分类实例。叶子结点即为实例所属的分类,利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段。建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。

第2篇

[关键词]数据挖掘技术;分析方法;企业;应用

doi:10.3969/j.issn.1673-0194.2015.02.044

[中图分类号]F270.7-TP311.13 [文献标识码]A [文章编号]1673-0194(2015)02-0058-01

1 数据挖掘技术的分析方法

现在作为数据挖掘的主要工作就是分析方法,只有科学、可信赖的算法才能够帮助数据进行挖掘工作,找寻数据中隐藏的一些规律。只有利用不同的分析方法,才能解决各种不同的问题。而现在常见的分析方法有聚类分析、分类和事先推测、关联分析。

1.1 聚类

聚类分析是将一组数据分类成相近性及有异性这样几个种类,这样做的目的就是将同一种类型的数据之间的相近性发展到最大化,不同种类之间数据的相近性尽可能的降低。这项分析方法可以用到客户团体的分类、客户背景分析、客户购买的事先推测、市场细分等。聚类分析广泛的存在于心理学、医学、数据识别等领域中。

1.2 分类及事先推测

分类是将数据库里面的数据对象的相同点按照分类的形式将其归为不同的类型。这样做的目的就是经过分类的形式把数据库中的数据项反射到特点的一个类型。这可以用到客户的分类、特性、满意程度、购买趋势等。而事先的推测是建立连续值函数模型,常见的方法有局势外推测法、时间序列法、回归分析的方法。

1.3 关联分析

在自然界中,每个事物之间都有一定的联系,如果发生一件事情,肯定会关联到其他的相应事件。关联分析就是利用到来事物之间存在的联系和相互之间的依赖性的规律,对于这些事件进行的预测。在数据库中的表现就是数据项之间存在的问题之间的关联,就是一个事物中的某一项事物可能会导致其他一系列事项的出现。对于企业的客户管理有着非常大的帮助,对于数据库中的数据进行挖掘,找出影响市场的因素,为各种活动提供依据。

1.4 特征

特征分析方法就是将数据库里面的一组数据抽取出有关这组数据的特征式,这种特征式能够表现出数据的整体的特征。就像营销工作人员对于客户流失数据的提取能够了解到原因,利用这些数据找到原因后就能帮助挽留客户。

2 数据挖掘在企业中的应用

2.1 市场营销和经营

数据挖掘最早应用的行业就是市场营销,市场营销行业利用数据挖掘技术对于用户进行分析挖掘来获得客户的消费习惯和特征,这样做的目的是来提升销售的业绩。当然,现在数据挖掘不仅是在超市购物上被利用,还普及到很多的金融行业。

经营上使用的具体实例:一些邮件类的广告上,可以根据数据挖掘帮助确定客户可能会购买的产品,这样可以节约很多的邮资,还能够帮助管理客户之间的关系,也就是经过分析那些可能走向竞争对手的客户的特点,这样就能针对性的来留住顾客。购买方式:利用数据挖掘技术给零售商提供方便,零售商能够通过这一技术确定顾客会购买哪些商品,还有就是在商店中该放那样的商品供顾客选择,目的是方便顾客购买,这样能够帮助销售量的提高。当然数据挖掘技术还能够帮助用户分析、评判促销活动会产生的成效。

2.2 电力、电信行业

随着数据挖掘技术的发展,电网业务在不断的进步和丰富。而电信行业快速的发展,电信技术和服务成为一个巨大的混合载体,对于市场关系、技术服务有极大的影响。对于企业的资源进行有效的整体和结合,形成一个非常大的关系网和信息数据系统。对这些数据进行挖掘成为解决各种问题的有效方法,为企业的发展有着非常重要的推动作用。

2.3 互联网和云计算机

互联网对于数据挖掘有很多的应用,比如搜索引擎、电子商务等。这些都是利用数据挖掘技术在庞大的数据海洋中找寻能够符合客户要求的信息。常见的就是根据预测分类算法来预测出客户应该需要的信息。

2.4 金融行业

银行、通信公司、保险行业这些在评估客户的信用等级上需要注意安全。数据挖掘的利用在金融行业是非常的重要,当然数据挖掘技术在这方面取得了很好的成绩,可以帮助这些金融企业正确的识别出诈骗行为、控制风险。如2003年春天,广东分行在进行信贷电子数据分析的时候,发现了一些异常的现象,发现除了南海华光公司的冯某对于银行进行的诈骗行为,其中有74亿元被骗取,这并不是通过举报而获得线索,而是经过数据挖掘技术,发现冯某公司信贷出现的异常,然后被审计人员发现并验证这一诈骗行为,若不是数据挖掘要想发现这一诈骗可谓是难上加难。

3 结 语

大数据时代的到来给现在社会的发展带来极大的帮助,各种挖掘技术也在不断的出现,给数据这种财富的存储、解决、分析带来极大的帮助,如更加的便宜、迅速。将数据转换成财富,变成现在企业发展的利器,这是现在企业面临的一个重要的转型。若想适应时代的发展,企业应该了解数据挖掘的基本方法以及应用,这能够帮助一个企业快速的发展和生存。

第3篇

关键词:数据挖掘;医院信息;应用

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)04-0687-02

1 数据挖掘的定义

数据挖掘技术是指通过对模糊信息及边沿信息的数据内容加以挖掘,使内容中隐含的数据得以展现,并通过在隐含数据之间建立合理的数据关系,总结出数据所表达深层内容。数据挖掘技术在现代数据管理中主要应用于数据间的关联分析,通过对分析数据间的内在联系并加以运算,挖掘出信息中隐藏的信息内容。由于数据挖掘能够对信息进行更为全面的分析与处理,因此,在当下社会发展中,数据挖掘技术被广泛应用于医院信息处理,通信信息服务及商务信息分析等领域中。

2 数据挖掘技术的优势

在医院资源的数据挖掘过程中,通过计算机技术对医疗资源进行整合处理,建立起有效的信息集合,使得医院信息智能化服务能够高效展开。数据挖掘过程中,通过对信息资源中含糊信息的有效挖掘,能够进一步实现医疗内容的明确划分,并通过建立起明细的检索信息对医院信息资源进行有效处理。在医院资源建设过程中,数据挖掘对信息资源的组建起到了重要调整作用,对信息数据的深层挖掘,使得医院信息资源更为丰富,精确的数据分也为医院信息服务提供了更多便利。通过数据挖对医院信息资源进行科学整合,不仅保证了医院信息智能化服务的有效开展,还有理推动了医院服务的发展与进步。

现代医院的构建将会向着数字化模式发展,信息技术将会成为数字医院的主要技术力量。数字医院是能够采用计算机科学管理,避免了人工的繁重的工作。高效能计算机能够将复杂的信息有效的整合组织起来,这里需要特别指出的是数字化医院不是向一般人认为的在一个医院的主页上就能实现所有的需求。数字化医院是有一套完整的高效的数字分析系统,能够实现医院资源的高效整合利用。数字化医院不再按照传统的按照医疗来区分各个科室的分布模式,而是采用将医院的功能按照设备类型进行区分,也可实现按照患者的爱好进行归纳总结。因此将数据挖掘技术应用到数字医院的建设中是必然选择。数据挖掘技术的应用能够改变传统观念上的资源处理思维和模式,对于大型超大型医院的建设能够起到巨大的推动作用,数据挖掘技术主要是在现有的医疗资源基础上进行深层次的挖掘和网络层次上的进一步开发利用。

2.1 数据挖掘可实现医院的信息资源优化

数据挖掘技术最本质的应用就是通过数据分析来综合全方为的了解到医院现有资源的利用情况,为医院的未来建设提供参考。数据挖掘技术能够有效的使医院资源得到较大程度的优化。首先对于检索记录进行分析,再者就是把传统模式上的人工数据转变为电子数据记录。最大的特点就是利用网络技术更加全面的分析总结数据库资源。帮助医院管理人员对于医院信息的补充和调整提供实际参考依据,也为大型医院的医疗工作建设提供有效的引导。

2.2 数据挖掘应用于医院的多媒体数字资源

随着现代医院构建规模的不断扩大,传统的检索系统已经无法满足用户的需求,越来越多的用户希望从多媒体数据库中获得更加高效的服务,数据挖掘技术与多媒体技术的有机结合形成所谓的多媒体挖掘技术。多媒体数据挖掘技术能够更为快捷和准确的为用户提供相应的服务,这对于超大型医院的建设具有强大的促进作用,这也是信息技术发展的客观要求。

2.3 数据挖掘在数字医院个性化服务中的应用

相对于信息量庞大的医院资源而言,用户的目的就是在最短的时间内了解到自己所需要的知识。医院个性化服务就是为了方便用户更加快捷的了解到自己所需的知识。根据患者和医务工作者直接提出的要求或者是按照平常的习惯来主动分析患者和医务工作者的需求爱好,以此来实现医院服务的个性化。

2.3.1 多种数据挖掘技术应用于个性化服务

所谓的数据挖掘技术的个性化服务主要是体现在对数据进行挖掘的同时体现出对数据处理的智能化,比如关联资源的挖掘。关联挖掘也是个性化服务的主要组成部分。再者就是对于网络电子图书资源的智能化调取,这也是个性化服务的体现。利用患者和医务工作者平常在网络上的浏览习惯而记录分析其个人爱好,为患者和医务工作者提供更加个性化的服务。

2.3.2数据挖掘应用于个性化服务两个方面

现代化数字医院满足用户的个性化读书要求是其建立原则之一,因此数据挖掘技术也必须向着个性化服务方向发展。所谓的个性化服务是充分培养用户的个性化优势。通过这种科学的引导方式使用户的使用方向向着科学的方向拓展。数据挖掘技术应用与个性化服务主要有两个方面,其中一个是数据挖掘技术能够满足患者和医务工作者针对自身的实际需求来选择自己所需要的信息,再者就是数字医院会根据患者和医务工作者的选择需要有针对性的提供相关资源服务。第一个方面主要是指用户的主观能动性的发挥,第二个方面指的是医院智能化建设。从一定程度上讲数字挖掘技术就是为了更好的服务于现代数字化医院的智能化建设,未来的医院将会是用户个性化与医院智能化双重发展的综合体。个幸化服务是服务的最高标准,也是公共服务模式发展的最终目标。

3 常用数据挖掘技术的分类

3.1自组织神经网络的数据挖掘

自组织神经网络数据挖掘是在无医生指导下完成的,整个数据挖掘过程基于数据组的特征或数据内容的内在关联而展开,通过挖掘不同数据之间的相互关联,分析数据组间的相互作用,最终判定数据类别的性质。如在进行数据特征挖掘过程中,能够通过分析数据组中数据分布特征,并搭建起神经网络结构的数据单元,以此检验不同数据组之间的性质差异。由于神经结构具有低纬度层次的结构空间,因此在进行数据组搭建过程中,应选择对应的神经网络结构,以保证自组织神经网络的数据信号处理速率,使数据特性能够得到及时的组织映射。

3.2模糊神经网络的数据挖掘

受神经结构自身条件的限制,神经网络无法对数据挖掘结果给出直观的说明,这也在一定程度上滞缓了数据挖掘技术的开展。为提升神经网络输出数据的直观性,通常引入模糊神经网络数据挖掘技术,通过对BP网络数据输出节点加以控制,以有效简化网络结构的数据输出模式,以此使数据更为直观的输出。模糊神经网络结构的数据挖掘方式保留了神经网络结构自身记忆,分析和联想的能力,因此在数据挖掘过程中,不会因BP网络结构的引入而对神经网络的基本能力产生影响。在模糊BP网络中,数据样本的期望值通过0和1两数值直观的表现出来,这种方式提升了数据类型的隶属性,使得数据挖掘能够更具针对性的展开,并通过对数据组中的权系数进行模糊处理,进一步拓宽数据挖掘范围,保障了模糊神经网络的数据挖掘效率。

4 医院数据挖掘技术的应用

4.1医务工作者工作评价

数据挖掘技术在医务工作者工作评价系统中的应用主要也是利用关联规则,首先先对数据进行预处理工作,数据的预处理是数据挖掘技术的关键步骤,并且直接影响着数据挖掘技术的应用效率。数据预处中要将医生的基本信息、医生主要负责科室以及医生的职称、学历、患者信息以及患者课表相关信息进行数据初始记录。对于医生的评价内容根据医院自身的条件和需求而定,医院工作管理部门登录医院管理系统后,将患者所选择的选项对应转换为医生的分值,通过计算机计算总分后得出医生的总体评价。由于医务人员工作评价系统不是一成不变的,而是一个动态过程,每个季度都要进行测评,因此评价完后的数据清理工作就显得尤为重要。数据清理主要是填补数据库中遗漏的数据,在实际使用过程中可以发现,患者对于医生的评价并不是固定的几个方面,数据清理系统能够根据患者的兴趣补充相应的选项,在医务工作者工作评价系统中,通常要设置两个极端数据,其一就是零分,再者就是满分。患者对于医生教学的评价在一定程度上也反映了自己的就医情况,如果对医生的评价为零分,则说明患者也否定了自己的就医效果。而满分是另一个极端数据,医院管理者要对这两种数据进行特殊记录和处理。

4.2患者信息管理系统

医院患者信息管理系统中管理要素主要是医院的领导、医生、患者以及患者家属。系统的功能要包括:对不同的用户设置不同的使用权限;对患者的基本信息以及患者浏览管理网站的记录要做到明确记录;各个科室不同方面的的患者信息要能准确公布并允许患者根据实际情况修改;病情管理要能实现大批量添加及修改;数据挖掘技术在医院患者信息管理系统中的应用主要是利用决策树的方法。患者信息管理的基本数据就是患者入学时填写的基本信息表,内容包括患者的姓名、床位号、病情以及治疗情况等,这些都是患者特有的属性,患者信息管理利用决策树方法就是将患者的这些属性作为决策元素,监理不同的决策节点,实现对患者全方位的考核和评价,完整的了解到每位患者的具体信息。

5 结束语

现阶段对于数字挖掘技术的研究大部分都只是停留在理论研究阶段,换句话说就是对于数字挖掘技术在医院的具体应用技

术研究还不算深入。因此相关研究人员在日后的研究工作中要注意结合具体应用来研究数字挖掘技术,为现代数字化医院的建设提供良好的技术基础和发展空间。

参考文献:

[1] 钱强.数据挖掘技术在医院用户分析中的应用[J].医院情报,2009(6):121-124.

[2] 张志刚.数字医院用户信息挖掘系统构建的建设[J].长春师范学院院报,2010(8):149-151.

[3] 潘晓峰.数据挖掘技术及其在数字医院建设中的运用[J].医院理论与实践,2006(4):105-106.

[4] 王艳.数据挖掘在数字医院中的应用[J].现代图书情报技术,2002(5):8-10.

第4篇

关键字:数据挖掘;HIS;特点;任务

1 引言

近年来,随着电子信息技术的迅速发展,医院信息系统(HIS)、数字医疗设备和医药企事业单位信息系统的广泛应用,各医疗卫生单位计算机中的数据容量不断膨胀。数据库技术的发展在不断地解决海量数据的存储和数据检索的效率问题,但无法改变“数据爆炸但只是贫乏”的现象,如何充分应用这些宝贵的医学数据资源来为疾病的诊断和治疗提供科学的决策,促进医学研究,已成为人们关注的焦点。

数据挖掘(Data Mining,DM)是一个近些年才发展起来的信息处理技术,它是从大量数据中提取出可信的、新颖的、有效的并最终能被人理解的信息模式处理过程,它涉及数据库、人工智能、统计学、模式识别、可视化技术、并行计算等众多领域知识。医学数据挖掘是一门涉及面广.技术难度大的新兴交叉学科,它需要从事智能信息处理、计算机、应用数学的科研人员与医务工作者通力合作,将数据挖掘技术应用到医学数据库中,用以发现其中的医学诊断规则和模式,从而辅助医生进行疾病诊断,帮助管理者发现并创造新的管理方法和手段。

2 数据挖掘的定义

从商用角度来看,数据挖掘可定义为一种类深层次的数据分析方法,是按照企业既定业务目标,对大量企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,为企业决策提供真正有价值的信息,并进而获取利润的一种模型化的先进方法。

从技术角度来看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又有潜在有用的信息和知识的过程。

由定义可看出,数据挖掘与传统数据分析(如查询、报表、联机应用分析等)的本质区别在于数据挖掘是在没有明确假设的前提下挖掘信息、发现知识,换言之,数据挖掘所得到的信息应当具有预知未知、有效和可实用3个特征。

3 数据挖掘技术在医院信息系统中的应用

数据挖掘技术的产生时间不长,但其在商业、产业、电信等领域的应用已相当广泛,并取得了客观的经济和社会效益。由于医疗卫生系统本身具有的复杂和时变的特性,导致数据挖掘技术在医疗卫生领域的应用尚处于起步阶段。但医学技术作为一门验证性的科学,因此在该领域的数据挖掘具有较强的实用价值和广阔的应用前景。

3.1 医院信息系统的数据特点

医院信息系统中包含了医疗过程和医患活动的全部数据资源,既有临床医疗信息,又有医院管理的相关信息。这些信息反映了医学的独特性。

3.1.1 多态性

医院信息系统中的数据包括纯数据(如体征参数、检验结果等)、影像(如CT、B超等)、信号(如ECG、EEG等)、文字(如患者检查检验结果、病历记录等)等,因此其具有模式的多态性,这也是其区别于其他领域的显著特征。

3.1.2 不完整性

医院信息系统中的数据是在对患者进行诊疗的过程中收集的,是以对患者进行诊断并最终治愈为目的,并非以研究为目的,再加之人为因素也可导致数据记录的偏差和缺失,因此搜集的数据具有疾病信息的客观不完整性和描述疾病的主观不完整性。

3.1.3 冗余性

医院信息系统是一个特殊的系统,系统中的某些数据关乎患者的健康安全,如发药信息、检查检验结果数据等,为进行数据校验,保证数据的正确性,系统会保存大量重复的、甚至是相互矛盾的数据记录。

3.1.4 隐私性

医院信息系统中保存了患者的所有信息,包括身份信息、诊疗信息、费用信息等,也不可避免地会涉及到患者的隐私,一旦这些隐私信息被暴露,并对患者的日常生活造成侵扰,就会涉及到较多的伦理、法律等问题。

3.2 医院信息系统数据挖掘的步骤

数据挖掘可分为预处理和挖掘分析两个阶段如图l所示。由于医学数据具有前文所介绍诸多特性,需要对带挖掘数据进行筛选、清洗、匿名化、标识转换等操作,因此通常需要花费较多时间,通常约占总时间的60%。

3.3 医院信息系统数据挖掘的任务

3.3.1 分类

分类是指根据一个可预测属性将事例分为多个类别,是最常见的数据挖掘任务之一。医生根据望闻切诊以及辅助检查对患者进行疾病诊断,实际就是一个疾病分类的过程,即根据患者的疾病特征,将其划分为某个疾病或某类疾病。典型的分类算法有决策树、神经网络和贝叶斯算法。

3.3.2 聚类

聚类也称细分,是基于一组特定的属性对事例进行分组的数据挖掘方法。利用聚类分析工具分析患者的疾病诊断数据,进行探索性的数据分析,生成聚类结果,并考察其意义。例如,对糖尿病患者,可按照年龄、性别、体重和血压指数等产生聚类模式,得到糖尿病患者典型分型,在临床上具有重要意义。

3.3.3 关联

关联规则最典型的商用案例就是一家连锁店通过数据挖掘发现了尿片与啤酒之间有着惊人的联系。使用关联规则,可以发现临床数据间的关联性,通过病历系统中患者的诊断信息、用药情况等,可以挖掘出某种疾病的常规用药方案,并形成临床路径。

3.3.4 预测

预测是医学数据挖掘最重要的―项任务。预测技术使用的是时间序列数据集,即有时序关系的一组观察值,而患者的诊疗过程所记录的数据也是具备时序性的,应用预测技术对这些诊疗数据进行分析,可预测患者疾病的发展趋势甚至预后情况,并根据预测结果对诊疗方案进行修正,以获得最佳的疗效和预后。

第5篇

关键词:商务智能数据挖掘第三方物流研究

在当今竞争日益激烈的市场环境中,第三方物流企业都希望能够从浩如烟海的商务数据以及其他相关的物流业务数据中发现带来巨额利润的商机。只有那些利用先进的信息技术成功地收集、分析、理解信息并依据信息进行决策的物流企业才能获得竞争优势,才是物流市场的赢家。因此,越来越多的物流管理者开始借助商务智能技术来发现物流运营过程中存在的问题,找到有利的物流解决方案。

商务智能技术应用现状

我国加入了WTO,在许多领域,如金融、保险、物流等领域将逐步对外开放,这就意味着许多第三方物流企业将面临来自国际大型跨国物流公司的巨大竞争压力。国外发达国家各种企业采用商务智能的水平已经远远超过了我国。美国PaloAlto管理集团公司1999年对欧洲、北美和日本375家大中型企业的商务智能技术的采用情况进行了调查。结果显示,在金融领域,商务智能技术的应用水平已经达到或接近70%,在营销领域也达到50%,并且在其他应用领域对该技术的采纳水平都提高约50%。现在,许多第三方物流企业都把数据看成宝贵的财富,纷纷利用商务智能发现其中隐藏的信息,借此获得巨额的回报。

据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的第三方物流企业采用,使更多的物流管理者得到更多的商务智能。

商务智能技术的组成

具体地说,商务智能技术有数据仓库(datawarehousing)、联机分析处理(on-lineanalyticalprocessing,简称OLAP)、数据挖掘(datamining),包括这三者在内的用于综合、探察和分析商务数据的先进的信息技术的统称就是商务智能技术。

数据仓库是一个面向主题的、集成的、随时间变化的主要用于决策支持的数据的集合。一般来说,大的物流公司或企业内存在着各种各样的信息系统,这些应用驱动的操作型信息系统为企业不同的物流业务系统服务,具有不同接口和不同的数据表示方法,互相孤立。利用数据仓库技术可以动态地将各个物流企业子系统中的数据抽取集成到一起,进行清洗、转换等处理之后加载到数据仓库中,通过周期性的刷新,为物流用户提供一个统一的干净的数据视图,为数据分析提供一个高质量的数据源。

对于数据仓库中的数据,可以使用一些增强的查询和报表工具进行复杂的查询和即时的报表制作,可以利用OLAP技术从多种角度对物流业务数据进行多方面的汇总、统计、计算,还可以利用数据挖掘技术自动发现其中隐含的有用的物流信息。

数据挖掘又称知识发现(KnowledgeDiscoveryinDatabase,简称KDD),是从大量数据中抽取有意义的、隐含的、以前未知的并有潜在使用价值的知识的过程。数据挖掘是一个多学科交叉性学科,它涉及统计学、数据库、模式识别、可视化以及高性能计算等多个学科。利用数据挖掘技术可以分析各种类型的数据,例如结构化数据、半结构化数据以及非结构化数据、静态的历史数据和动态数据流数据等。

数据挖掘技术在第三方物流企业的应用分析

数据挖掘是从大量的、不完全的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的数据中发现其潜在规律的技术,是当前计算机科学研究的热点之一。随着信息技术的高速发展,积累的有关物流行业的数据量剧增,如何从大量的物流数据中提取有用的知识成为第三方物流企业当务之急。数据挖掘就是为顺应需要应运而生发展起来的数据处理技术。

数据挖掘的对象

关系数据库(relationaldatabase)中通常存储和管理的是结构化的数据,它将一个实体的各方面信息通过离散的属性进行描述。而文本数据库(textdatabase)或文档数据库(documentdatabase)则通常存储和管理的是半结构化的数据,例如新闻稿件、研究论文、电子邮件、书籍以及WEB页面等都属于半结构化数据。空间数据库、多媒体数据库中存放的是非结构化数据,例如地图、图片、音频、视频等都属于非结构化数据。相对于半结构化和非结构化数据来说,针对结构化数据的数据挖掘技术比较成熟,市场上有很多的商品软件可以使用,用的较多的包括IBMIntelligentMiner、SASEnterpriseMiner、SGIMineSet、ClementineSPSS以及MicrosoftSQLServer2000等。关于半结构化和非结构化的数据挖掘软件尚不多,相应的算法相对还较少。从另一个角度来说,数据挖掘的分析对象分为两种类型:静态数据和数据流(datastream)数据。现在的多数数据挖掘算法是用于分析静态数据的。

数据挖掘的分析

无论要分析的数据对象的类型如何,常用的数据挖掘分析包括关联分析、序列分析、分类、预测、聚类分析以及时间序列分析等。

关联分析关联分析是由RakeshApwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。对于结构化的数据,以物流客户的采购习惯数据为例,利用关联分析,可以发现物流客户的关联采购需要。例如,对于第三方物流企业来说,一个托运货物的货主很可能同时有货物的包装、流通加工等物流业务的需求。利用这种知识可以采取积极的物流运营策略,扩展物流客户采购物流服务的范围,吸引更多的物流客户。通过调整服务的内容便于物流顾客采购到各种物流服务,或者通过降低一种物流业务的价格来促进另一种物流业务的销售等。

分类分析分类分析是通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。利用这些规则和方法对未知类别的样本分类时应该具有一定的准确度。分类分析可以根据顾客的消费水平和基本特征对物流顾客进行分类,找出对第三方物流企业有较大利益贡献的重要的物流客户的特征,通过对其进行个性化物流服务,提高他们的忠诚度。

聚类分析聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。

以第三方物流企业的客户关系管理为例,利用聚类分析,根据物流客户的个人特征以及物流业务消费数据,可以将客户群体进行细分。例如,可以得到这样的一个物流业务消费群体:生产企业对物流业务中运输需求占41%,对物流业务中仓储业务的需求占23%;商业企业对物流业务中运输需求占59%,对物流业务中仓储业务需求占77%。针对不同的客户群,可以实施不同的物流服务方式,从而提高客户的满意度。

数据挖掘流程

定义问题:第三方物流企业首先清晰地定义出各种物流业务问题,确定数据挖掘的目的。

数据准备:首先第三方物流企业在大型数据库和数据仓库目标中提取数据挖掘的目标数据集进行数据选择;其次进行数据的预处理,包括检查数据的完整性及数据的一致性、填补丢失的域,删除无效数据等。

数据挖掘:第三方物流企业根据数据功能的类型和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

结果分析:第三方物流企业对数据挖掘的结果进行解释和评价,转换成为能够最终被理解的知识。

知识的运用:第三方物流企业将分析所得到的知识集成到物流业务信息系统的组织结构中去。

评价数据挖掘软件需要考虑的问题

越来越多的软件供应商加入了数据挖掘这一领域的竞争。第三方物流企业如何正确评价一个商业软件,选择合适的软件成为数据挖掘成功应用的关键。评价一个数据挖掘软件主要应从以下四个主要方面:

计算性能:如该软件能否在不同的物流业务平台运行;软件的架构;能否连接不同的数据源;操作大数据集时,性能变化是线性的还是指数的;算的效率;是否基于组件结构易于扩展;运行的稳定性等;

功能性:如软件是否提供足够多样的算法;能否避免挖掘过程黑箱化;软件提供的算法能否应用于多种类型的数据;第三方物流企业能否调整算法和算法的参数;软件能否从数据集随机抽取数据建立预挖掘模型;能否以不同的形式表现挖掘结果等。

可用性:如用户界面是否友好;软件是否易学易用;软件面对的用户是初学者、高级用户还是专家;错误报告对用户调试是否有很大帮助。

第6篇

引言

一、数据挖掘技术的含义

数据挖掘是从数据当中发现趋势和模式的过程,它融合了现代统计学、知识信息系统、机器学习、决策理论和数据库管理等多学科的知识。它能有效地从大量的、不完全的、模糊的实际应用数据中,提取隐含在其中的潜在有用的信息和知识,揭示出大量数据中复杂的和隐藏的关系,为决策提供有用的参考。

二、数据挖掘的方法和基本步骤

(一)数据挖掘的主要方法

常用的数据挖掘方法主要有决策树(Decision Tree)、遗传算法(Genetic Algorithms)、关联分析(Association Analysis)、聚类分析(Cluster Analysis)、序列模式分析(Sequential Pattern)以及神经网络(Neural Networks)等。

(二)数据挖掘的基本步骤

SAS研究所提出的SEMMA方法是目前最受欢迎的一种数据挖掘方法,其描述的数据挖掘的大致过程包括取样(Sample)、探索(Explore)、修改(Modify)、模型(Model)和评价(Assess)。

1.数据取样

在进行数据挖掘之前,首先要根据数据挖掘的目标选定相关的数据库。通过创建一个或多个数据表进行抽样。所抽取的样本数据量既要大到足以包含有实际意义的信息,同时又不至于大到无法处理。

2.数据探索

数据探索就是对数据进行深入调查的过程,通过对数据进行深入探察以发现隐藏在数据中预期的或未被预期的关系和异常,从而获取对事物的理解和概念。

3.数据调整

在上述两个步骤的基础上对数据进行增删、修改,使之更明确、更有效。

4.建模

使用人工神经网络、回归分析、决策树、时间序列分析等分析工具来建立模型,从数据中发现那些能够对预测结果进行可靠预测的模型。

5.评价

就是对从数据挖掘过程中发现的信息的实用性和可靠性进行评估。

三、数据挖掘在管理会计中的运用

(一)数据挖掘在管理会计中运用的重要意义

1.提供有力的决策支持

面对日益激烈的竞争环境,企业管理者对决策信息的需求也越来越高。管理会计作为企业决策支持系统的重要组成部分,提供更多、更有效的有用信息责无旁贷。因此,从海量数据中挖掘和寻求知识和信息,为决策提供有力支持成为管理会计师使用数据挖掘的强大动力。例如,数据挖掘可以帮助企业加强成本管理,改进产品和服务质量,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。

2.赢得战略竞争优势的有力武器

实践证明数据挖掘不仅能明显改善企业内部流程,而且能够从战略的高度对企业的竞争环境、市场、顾客和供应商进行分析,以获得有价值的商业情报,保持和提高企业持续竞争优势。如,对顾客价值分析能够将为企业创造80%价值的20%的顾客区分出来,对其提供更优质的服务,以保持这部分顾客。

3.预防和控制财务风险

利用数据挖掘技术可以建立企业财务风险预警模型。企业财务风险的发生并非一蹴而就,而是一个积累的、渐进的过程,通过建立财务风险预警模型,可以随时监控企业财务状况,防范财务危机的发生。另外,也可以利用数据挖掘技术,对企业筹资和投资过程中的行为进行监控,防止恶意的商业欺诈行为,维护企业利益。尤其是在金融企业,通过数据挖掘,可以解决银行业面临的如信用卡的恶意透支及可疑的信用卡交易等欺诈行为。根据SEC的报告,美国银行、美国第一银行、联邦住房贷款抵押公司等数家银行已采用了数据挖掘技术。

第7篇

关键词:大数据 数据挖掘 数据分析

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)11-0000-00

随着我国网络技术的快速发展,大数据挖掘技术越来越成为影响影响网络信息发展的重要因素,而大数据挖掘技术的主要内容以及经常采用的主要方法直接影响了我国未来网络技术的发展方向。因此,这一技术的发展直接影响了网络的发展。本文从大数据挖掘技术的角度出发,研究大数据挖掘技术的应用情况。

1大数据挖掘技术的概念分析

大数据挖掘及时是KDD的一个重要的过程,这种技术是从许多数据中还有一些不完整的应用中,以及一些比较纯净的应用或者是模糊不清的应用中随机抽取出来的。这些抽取出来的数据都是潜在存在的,但是不为人所发现的信息内容。那么什么叫做KDD(Knowledge Discovery In Database)呢?KDD是发现知识的一个过程。

通常情况下,大数据挖掘系统主要包含七方面的内容:用户图形界面接口、模式评估、数据挖掘引擎、数据库或数据仓库服务器、数据基地、数据仓库以及知识储备库(如图1所示)。由图1可知,数据库还有数据仓库服务器有大量的信息和数据,这些数据对很多用户都有着吸引力。图1中的知识储存库是一个简单的应用,用这个知识储存库来进行知识的探索和评价,从而确定总体的模式是不是有意义。数据挖掘引擎是整个大数据挖掘系统中十分重要的组成内容。它能够对数据的特征、关联、类别、价值等进行分类。模式评估的主要功能是在对数据进行评价的同时还要和大数据挖掘技术相互联系,从而把大数据挖掘的技术全面的应用到系统中。模型的进口是用户图形界面的接口。能够方便使用者使用这一模型。并且利用大数据挖掘技术进行信息的查询和分析。

2大数据挖掘技术的应用与挑战

2.1挖掘对象

大数据的挖掘技术面对的主要对象为大的数据库。这样一来能够有效的进行信息的搜索和查询。

2.2大数据挖掘技术体现形式局限性

当前,大数据挖掘技术在处理数据以及信息的时候所使用的方法比较有限,具有一定的局限性。通常情况下,这种技术能够分析数值型的数据,数据内容比较简单,可是仍然不能够对文本文件、公式、图片等这种没有结构或者是无结构的数据形式开展数据挖掘的工作。

2.3使用人员参加的过程和相关领域的信息

通常情况下,大数据挖掘技术的过程常常要进行信息和数据的交流。当前,所实用的数据挖掘系统很难让使用者参与到信息以及数据的筛选过程中。使用人员自身的知识能力以及经验对挖掘的开展速度有着直接的影响。而且能够顺利的获取大量的利用度十分高的数据信息等。

2.4进行知识的表现和内容的解析

很多应用程序中主要的内容都是用户自己发现并分析出来的知识。这就需要大数据技术在挖掘信息的时候不但要有分析数字还有符号的能力还需要对图片、语言等理解分析的技术。

2.5帮助保护知识内容和信息的更新换代

伴随着知识量的增多,以往旧的知识会逐渐的失去自己的作用,被新的知识内容所取代。所以知识需要不断的保护和进行及时的更新换代。当前采取的主要更新知识的方法包括维护关联规则的增量算法等。

2.6支持局限性的系统发展

当前的大数据挖掘系统还不能够在广大的系统平台上进行推广使用。一些应用程序是应用在PC上面的,还有一些应用是针对大型的主机系统中的。除此之外,还有一些是专门针对用户的。

3结语

数据挖掘技术是近几年新产生的网络技术,可是它的广泛应用性受到了很多公司以及研究人员的喜爱。这些年来,伴随着时间的推移以及网络技术的不断发展大数据挖掘技术不断的被更新,开发,而且在金融、管理、教学等行业中都得到了广泛的应用。我相信随着网络技术的不断发展,大数据挖掘技术的应用面将会越来越广。

参考文献

[1]吕竹筠,张兴旺,李晨晖 等.信息资源管理与云服务融合的内涵即共性技术体系研究[J].情报理论与实践,2012,35(09):26-32.

[2]《中国电子科学研究院学报》编辑部.大数据时代[J].中国电子科技研究院学报,2013(01):41-43.

[3]淮晓永,熊范伦,赵星.一种基于粗集理论的增量式分类规则知识挖掘方法.南京大学学报(自然科学版,计算机专辑),2000,(11):203~209.

[4]方开泰.实用多元统计分析[M].上海:华东师范大学出版社,1992:189~193.

第8篇

关键词:数据挖掘技术;CRM;应用

前言

改革开放以来,我国不断进行市场经济体制改革,从计划经济体制向市场经济体制转型,带动了我国市场经济的蓬勃发展,大量的企业和工厂上市,产品及商品日益丰富,出现同种商品可以有多种厂家选择的局势。企业在市场中的竞争面临重大的挑战。企业本文阐述了数据挖掘的任务及功能,介绍了CRM的概念、内涵及体系结构,从挖掘潜在客户、获取新客户、提升现有客户价值以及留住可能流失的客户四个方面论述了数据挖掘技术在CRM中的应用,进而从确定与分析目标、数据选择与准备、模型构造以及模型评估四个方面分析了数据挖掘在CRM的具体实施,为数据挖掘技术在CRM中的应用提供科学的有效指导。现综述如下。

一、数据挖掘概念、任务及功能

1.概念

数据挖掘技术(Data mining techniques),又称为资料探勘技术或数据采矿技术,是数据库知识发现(Knowledge-Discovery in Databases,KDD)的构成步骤[1]。一般是指利用计算机科学技术,依靠过去的经验法则,通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等众多方法从大量的模糊、随机的实际应用数据中自动搜索隐藏于其中有着特殊关系性且属于关联规则学习的信息的过程[2]。

2.任务

数据挖掘任务主要有两个:描述和预测[3]。描述性数据挖掘技术用来描述数据库中模糊、随机或不完全数据的一般特性;而预测性数据挖掘技术用来对当前所描述的实际应用数据库中的数据的进行推断,以进行预测。

3.功能

数据挖掘技术能够根据用户和应用的不同来进行调整,其功能主要有:首先,它能够对概念进行一般描述(描述对象的共有特征)和差别描述(描述不同对象的差别特征);其次,它能够进行描述对象的关联性分析、通过关联性分析,挖掘对象之间的关联性规则[4];其三,它能够通过对数据库的描述、关联分析,确定规则函数,进而对未知数据进行分类和预测;其四,它能够产生类标记,依据不同的规则对数据进行聚类或分组;最后,它能够对特别的数据和模型进行单独分析。

二、CRM概念、内涵及体系结构

1.概念

客户关系管理(customerrelationshipmanagement,CRM)是指企业通过互联网、数据挖掘、商务智能、电子商务、无线设备等现代化IT信息技术等工具或手段来协调企业与顾客间在销售、营销和服务上的交互,不断提升其管理机制和服务方式,挖掘潜在客户,获取新客户、提升现有客户价值以及留住可能流失的客户,从而提高客户收益率,扩大市场份额,提高市场竞争力的管理过程[5]。

2.内涵

客户关系管理CRM是一种管理理念,是一种信息行业用语,是一种新型管理机制,是一种创新的管理理念,也是一种管理软件和技术。客户关系管理CRM的核心是客户价值管理,通过对客户的资料进行分析、整理以及整合,来提高客户量。其中价值管理体现在通过协调与顾客间在销售、营销和服务上的交互,创新管理模式和运行模式,保持客户价值以及提升客户价值[6]。

客户关系管理CRM的主要内容包括:一方面,针对客户关系,首先体现在对客户关系的认识、选择以及关系建立方面;其次,对已建立的客户关系的维持方面。再次,针对有可能流失的客户关系,如何进行关系恢复以及挽回方面。另一方面,针对可采用的现代化IT信息技术等工具或手段的建设方面,如互联网、软件应用、数据库、资料分析、电子商务以及移动设备客户端等。

3.体系结构

客户关系管理CRM的体系结构主要有操作型CRM、分析型CRM以及协作型CRM[7]。操作型CRM促使企业完成市场、销售到服务的业务流程,并且采集客户数据。分析型CRM对市场、销售到服务的业务流程中的客户数据进行整理和分析。协作型CRM将多种沟通渠道获取的客户信息进行整合,确保沟通渠道的畅通。

三、数据挖掘技术在CRM中的应用

1.挖掘潜在客户

通过数据挖掘技术,按照对企业有意义的潜在客户的标准或原则,对大量模糊、不确定的客户的个性特征(年龄、性别)、消费能力以及购买记录等可得数据进行针对性分析,确定出对企业有意义的潜在客户,作为企业客户关系管理的实施对象。

2.获取新客户

针对对企业有意义的潜在客户进行分析和预测,对不同类型的客户采取不同的营销策略,并且及时根据客户对于营销的反馈情况进行调整,说服潜在的客户使用企业的产品或者服务,发展为企业有意义的确定客户。

3.提升现有客户价值

提升现有客户价值主要是指现有客户获取更过更好的产品或服务的同时,企业获取更高的销售额。通过数据挖掘技术的“交叉销售”和“一对一营销”[8],一方面,“交叉销售”能够分析出最受客户欢迎的产品或服务的最佳配比,从而增加与客户的交易次数。另一方面,“一对一营销”则可以通过专业、具有特色的产品或服务模式保证与客户的长期合作关系以及最大数量的保证每次交易的利润。

4.留住可能流失的客户

如何留住可能流失的客户,应该要对客户进行甄别、预测和分类,挖掘出优质客户并分组,对于可能流失优质客户的个性特征(年龄、性别)、消费能力以及购买记录等做出描述,采用数据挖掘技术中的关联分析等方法分析优质客户可能流失的原因,尤其要确定优质客户可能流失的原因,及时地针对企业的管理模式或经营理念做出调整。

四、数据挖掘在CRM的具体实施

1.确定与分析目标

数据挖掘在CRM的具体实施,首先要确定与分析目标,对于企业而言,也就是说要确定要达成什么样的商业目标,考虑要达成商业目标的具体参考标准或准则,如销售额度、市场份额以及客户数量等等数据。

2.数据选择与准备

对于数据的选择和准备,主要针对数据的来源、数据库的建立、是否能够使用以及有参考的数据等等进行选择,之后,对于选择的数据库需要进行必要的预处理和转换,以便后期可以通过数据挖掘技术进行分析、预测和整合。

3.模型构造

模型构造是数据挖掘技术在CRM的具体实施中的重要步骤。涉及到的具体工作主要有根据预先确定的企业商业目标,选取最合适的数据挖掘技术类型,针对选取的数据挖掘技术类型确定培训数据和测试数据,参照培训数据和测试数据,确定算法或准则,从而构造数据挖掘技术模型。

4.模型评估

数据挖掘技术模式构建以后,能否应用于确定的企业商业目标,需要进行评估。而模型评估的手段是通过测试数据,对构建的模型数据库进行基础测试和比较,计算误差和误差发生的概率。如果误差不大,达到了预期的商业目标,说明构建的模型是满意的,企业可以进行应用。若误差概率较大,没有达到预期的商业目标,则说明构建的模型是不满意的,此时应该分析数据出现出差的原因,重新选择合适的数据挖掘技术类型,确定新的培训数据和测试数据以及新的算法或准则,建立新的模型并且重新评估。但若设定的商业太不切合实际,则需要更改商业目标。

讨论

随着科学技术的发展和经济的进步,产品不断换代和升级,客户享有越来越多的选择权,而企业在市场中的竞争面临重大的挑战。客户价值的发展、保留和提升成为企业有机发展的核心。如何通过数据挖掘技术发现潜在价值的客户,保留已有价值客户以及提升客户的价值,对于提高企业在市场中的竞争实力,促进企业发展具有重要的意义。企业应该认识到数据挖掘技术在客户关系管理CRM中的重要应用价值,在企业完成市场、销售到服务的整个业务流程中,采取有效的数据挖掘技术,为企业的管理及决策提供支持,不断提升其管理机制和服务方式,挖掘潜在客户,获取新客户、提升现有客户价值以及留住可能流失的客户,扩宽市场占有份额,最终达到企业利润最大化的目的,前景广阔。(作者单位:阳光动力能源互联网股份公司)

参考文献:

[1]张天瑞,于天彪,赵海峰等.数据挖掘技术在全断面掘进机故障诊断中的应用[J].东北大学学报(自然科学版),2015,36(4):527-531,541

[2]安存红,高祥晓,韩春丽等.利用数据挖掘技术构建基于审计数据仓库的商业银行新型审计模型[J].中国乡镇企业会计,2014,(4):171-172.

[3]高燕飞,陈俊杰.试析计算机数据挖掘技术在档案信息管理系统中的运用[J].内蒙古师范大学学报:哲学社会科学版,2012,41(4):44-46.

[4]蒋红,朱敏.数据挖掘技术在教师培训需求分析中的应用――以宁波市教师培训项目数据为例[J].宁波教育学院学报,2015,17(3):73-76.

[5]薄奋勇,武瑞庆,韩世良等.基于关联规则的数据挖掘技术在煤化工行业设备中的研究及应用[C].//第22届全国煤矿自动化与信息化学术会议暨第4届中国煤矿信息化与自动化高层论坛论文集.2012:436-439.

[6]宋淑彩,祁爱华,王剑雄等.面向Web的数据挖掘技术在网站优化中的个性化推荐方法的研究与应用[J].科技通报,2012,28(2):117-119.

第9篇

【关键词】数据挖掘 市场应用 关联规则 聚类 知识发现

一、引言

随着我国市场经济环境下信息技术的迅速发展,数据库的规模不断扩大,从而产生了大量的数据。为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。

二、数据挖掘的概念

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘的功能主要包括关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。下图描述了数据挖掘的基本过程和主要步骤。

各步骤的大体内容如下:

1、确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

2、数据准备。首先是数据的选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。接下来对数据进行预处理。研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。此外,还要对数据进行转换,将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

3、数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。

4、结果分析。使用可视化技术等分析方法解释并评估结果。

5、知识的同化。将分析所得到的知识集成到业务信息系统的组织结构中去。

三、数据挖掘常用技术

1、人工神经网络。神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网络常用于分类和回归两类问题。

2、决策树。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。常用的算法有CHAID、 CART、 Quest 和C5.0。决策树很擅长处理非数值型数据,这与神经网络只能处理数值型数据比起来,就免去了很多数据预处理工作。有些决策树算法专为处理非数值型数据而设计,因此当采用此种方法建立决策树同时又要处理数值型数据时,反而要做把数值型数据映射到非数值型数据的预处理。

3、遗传算法。基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。

4、聚类分析和模式识别。聚类分析主要是根据事物的特征对其进行聚类或分类,即所谓物以类聚,以期从中发现规律和典型模式。这类技术是数据挖掘的最重要的技术之一。除传统的基于多元统计分析的聚类方法外,近些年来模糊聚类和神经网络聚类方法也有了长足的发展。

5、统计学。统计学虽然是一门“古老的”学科,但它依然是最基本的数据挖掘技术,特别是多元统计分析,如判别分析、主成分分析、因子分析、相关分析、多元回归分析等。

6、可视化技术。可视化技术是数据挖掘不可忽视的辅助技术。数据挖掘通常会涉及较复杂的数学方法和信息技术,为了方便用户理解和使用这类技术,必须借助图形、图象、动画等手段形象地指导操作、引导挖掘和表达结果等,否则很难推广普及数据挖掘技术。

四、数据挖掘的市场应用

目前,数据挖掘技术在各个领域引起了广泛的关注,特别是在科学研究、市场行销、金融投资、欺诈甄别、产品制造、通信网络管理、INTERNET应用等许多方面已经开发了比较成熟的应用软件。

1、在科学研究中的应用。随着先进的科学数据收集工具的使用,实验数据量越来越大,传统的数据分析的工具有时会无能为力,因此必须有强大的智能自动数据分析工具才行。数据挖掘在科学研究中的一成功应用实例是Fayyad和他的同事们在加利福尼亚Pasadena的JePropulsion实验室,应用决策树和基于规则的方法发现了16个新的极其遥远的类星体。

2、在零售行业上的应用。这是数据挖掘技术应用最早也是最重要的领域,如用于顾客购货篮的分析可以协助货架布置,促销活动时间,促销商品组合以及了解滞销和畅销商品状况等商业活动。通过对一种厂家商品在各连锁店的市场共享分析,客户统计以及历史状况的分析,可以确定销售和广告业务的有效性。

3、在金融投资领域的应用。金融方面:银行信用卡和保险行业,预测存/贷款趋势,优化存/贷款策略,用数据挖掘技术将市场分成有意义的群组和部门,从而协助市场经理和业务执行人员更好地集中于有促进作用的活动和设计新的市场运动。

4、在过程控制/质量监督保证方面的应用。数据挖掘技术协助管理大数量变量之间的相互作用,数据挖掘能自动发现出某些不正常的数据分布,暴露制造和装配操作过程中变化情况和各种因素,从而协助质量工程师很快地注意到问题发生范围和采取改正措施。

5、在远程通讯部门的应用。基于数据挖掘技术的分析协助组织策略变更以适应外部世界的变化,确定市场变化模式以指导销售计划。在网络容量利用方面,数据挖掘能提供对客户组类服务使用的结构和模式的了解,从而指导容量计划人员对网络设施作出最佳投资决策。

6、化学/制药行业的应用。从各种文献资料总自动抽取有关化学反应的信息,发现新的有用化学成分。在遥感领域针对每天从卫星上及其它方面来的巨额数据,对气象预报,臭氧层监测等能起很大作用。

7、军事方面的应用。使用数据挖掘技术进行军事信息系统中的目标特征提取、态势关联规则挖掘等。

五、数据挖掘技术未来研究方向

数据挖掘技术未来的几个研究热点包括网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘。

1、网站的数据挖掘(Web site data mining)。需求随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。

在对电子商务网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。

就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。

2、生物信息或基因的数据挖掘。生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。

对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。

需求牵引与市场推动是永恒的,数据挖掘技术将首先满足信息时代用户的急需,大量的基于数据挖掘技术的决策支持软件产品将会问世。只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。

【参考文献】

[1] Han,J.Kamber,M.Data Mining:Concepts and Techniques.MorganKaufmann Publishers,2000。

[2]BerryMichael.DataMiningTechniques[M].NewYork:JohnWiley&Sons,Inc, 1997。

[3] Jiawei Han Micheline Kamber.Data Mining Concepts and Techniques[M]. Morgan: Kaufmann Publishers 2001。

第10篇

通过计量检验业务管理系统的实施,对于单位提高工作效率和快速的有针对性的反应能力,加强计量所的标准化、规范化管理,增强单位在检测和校准方面竞争能力有着极其重要的意义。

计量检验业务管理系统的核心就是关系型数据库。而在数据库方面,数据挖掘技术又是不可或缺的一方面技术,但是纵观现今的各种计量检验业务管理系统,针对数据挖掘技术所进行的数据结构方面的优化却是少之又少。计量检验系统可以利用数据挖掘的相关技术来实现需求规划、需求预测、检定过程的质量状况模式和预测、短期监控分析、各种检定数据和信息的长期走势分析、过程异常模式分析、质量分析、市场预测、检定成本需求预测、检定收入预测等。

因此,本文主要针对数据挖掘技术在计量检验业务管理系统数据处理中的应用前景进行讨论。

数 据挖 掘是在 人工智 能领域,习惯上又称为数 据库中的知 识发 现(Knowledge Discovery in Database, KDD), 也有人 把 数 据 挖掘视为数 据库 中知 识发现过程的一个基 本步骤。知识发现过 程由以下三个阶 段组成:

(1)数据准备。

(2)数据挖掘。

(3)结果表 达和解 释。

并且,数 据挖掘可以与用户或知识库交互。

数据挖掘是通过分析海量数据,从中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。

关联分析、异常分析、分类分析、聚类分析、演变分析和特异群组分析等构成了数据挖掘主要的任务结构。

并非所有的信息发现任务都叫做作数据挖掘。例如说使用数据库管理系统或者结构化查询语句查找个别记录,或通过互联网的搜索引擎查找特定的站点页面,则是信息检索(information retrieval)任务。虽然这些也是非常重要的,同样会涉及到复杂的算法和数据结构,但是它们还是主要依赖传统的计算机技术和数据明显的特征来创建索引结构,从而可以有效地组织和检索信息。尽管如此,数据挖掘技术也已经被用来增强信息检索系统的能力。

依据计量检验管理系统的一般数据库结构,数据挖掘模型的应用,可简单的表示为下面的样例。

首先,通过数据源。这里做数据挖掘模型,要用到两张表,一张表是用户,用用户ID号来代替;另一张表是那个用户送检了什么设备。应用Microsoft SQL Server的Data Mining工具,建立数据挖掘模型。

具体步骤如下:

首先定义数据源。选取的为客户送检记录为数据源。其次定义数据源视图。在此建立好数据挖掘中事例表和嵌套表,并定义两者之间的关系,定义用户信息为事例表(Case Table),委托单为嵌套表(Nested Table)。再次选取Microsoft Association Rules(关联规则)算法,建立挖掘模型。然后设置算法参数,部署挖掘模型。最后浏览察看挖掘模型。

对于关联规则算法来说,有三个可见的选项卡。

1.项集:“项集”选项卡显示被模型识别为经常发现一起出现的项集的列表。在这里指的是经过关联规则算法处理后,发现关联在一起的计量器具的集合。

2.规则:“规则”选项卡显示关联算法发现的规则。“规则”选项卡包含一个具有以下列的网格:“概率”、“重要性”和“规则”。概率说明出现规则结果的可能性。重要性用于度量规则的用途。尽管规则出现的概率可能很高,但规则自身的用途可能并不重要。重要性列就是说明这一情况的。例如,如果每个项集都包含属性的某个特定状态,那么,即使概率非常高,预测状态的规则也并不重要。重要性越高,规则越重要。

3.关联网络:节点间的箭头代表项之间有关联。箭头的方向表示按照算法发现的规则确定的项之间的关联。

通过以上的步骤,我们可以建立起一个简单的数据挖掘模型。这个模型在计量检验业务管理系统中的实际作用可以描述如下。

如果XX县的一个电缆厂送检了一台型号为QJ36的直流电桥的话,那么通过数据挖掘技术我们计量测试所就可以得到如下信息在XX县有计量器具检定事件的100家企业中电线电缆方面的企业有85家,其中有73家送检过直流电桥,在这73台直流电桥中QJ36型直流电桥有54台,并且送检QJ36型直流电桥的企业中有53家同时送检了直流标准电阻器。

数据挖掘技术可以给我们的信息就是:

1.XX县工业以电线电缆行业为主。

2.直流电桥是电线电缆行业中普遍存在的计量器具。

3.该县电线电缆企业中使用的直流电桥型号以QJ36为主。

4.QJ36型直流电桥应与直流标准电阻器配套使用。

根据以上情况,计量测试所的相关业务科室就可以有针对性的对XX县的电线电缆企业计量器具的检定工作做出集中的安排。并且对大部分企业中使用的计量器具的种类和相关信息由一个大致上的了解,可以对检定工作进行详尽的准备。这样我们就很容易提升检定工作的质量,提高客户的满意度,并且大大的降低了检定成本。

综上所述,数据挖掘技术在计量检验业务管理系统中的应用前景是十分广阔的,通过对海量数据进行数据挖掘,可以使得我们计量系统在技术和管理上达到一个更高的层面,并且极大的方便了送检计量器具的企业用户。从而能够构建一个和谐的局面,并且稳定的发展下去。

参考文献:

第11篇

关键词:数据挖掘;物流;应用

中图分类号:F253.9 文献标识码:A

Abstract: Finding useful information and rules from a large number of existing data which hidden in is defined as data mining. Most of the current logistics enterprises have achieved information construction. With the advancement of logistics management, it will produce large amounts of data and how to effectively make use of these data is the key to logistics enterprise modernization. This paper first introduces some data mining methods which commonly used, then expounds the application of data mining technology in the logistics industry, finally points out problems that the logistics enterprises needing attention in the application of data mining technology.

Key words: data mining; logistics; application

随着科学技术的迅猛发展,信息化程度快速增长,信息过量就成为人们不得不面对的问题。如何在海量的信息中及时发现有用的知识,提高信息利用率,显然成为人们当前亟待解决的问题。数据挖掘技术应运而生,并越来越显现出其强大的生命力。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又潜在有用的信息和知识的过程[1]。即数据挖掘产生的前提是需要从多年积累的大量数据中找出隐藏在其中的、有用的信息和规律。某些具有特定应用问题和应用背景的领域是最能体现数据挖掘作用的应用领域,例如运输业、金融业、保险业、零售业、医疗、行政司法、工业部门等社会部门以及科学和工程研究单位等。

由于数据挖掘技术的不断成熟,其逐渐开始被物流企业所重视。目前,很多物流企业内部都实现了信息化,伴随着物流业务的处理过程会产生大量的数据,数据存储技术越来越成熟,对物流信息的处理速度也越来越快,还有现阶段已产生大量数据挖掘算法,如聚类检测、决策树方法、人工神经网络、遗传算法、关联分析方法、基于记忆的推理算法等,这些为数据挖掘在物流业中的应用提供了基础保证。

物流企业竞争异常激烈,要想在众多企业之中脱颖而出,就要实现企业的信息化建设,并有效利用数据挖掘技术,收集大量数据,帮助企业实时了解市场的动态,及时针对快速变化的环境做出响应,通过分析预测,抓住各种重要商机。如利用收集的数据可以预测客户行为,推算当前物品种类的流通数量、客户与物品间的内在关联等,便于物流企业的管理人员及时制定决策,有利于在对物品的数量准备、存储方式、合理配送等一系列物流过程中有效利用资源,最大限度地提高物流信息管理的工作效率,节约成本,缩短配送周期,更透彻了解客户来改善并强化对客户的服务。数据挖掘技术还能有效促进物流企业的业务处理过程重组,实现规模优化经营。通过合理使用数据挖掘技术,企业可以提高自身的竞争力,促进我国物流行业向更高水平发展。

1 数据挖掘的常用方法

1.1 聚类检测方法

聚类检测方法是最早的数据挖掘技术之一,也称为无指导的知识发现或无监督学习。聚类生成的组叫簇,簇是数据对象的集合。聚类检测的过程就是使同一个簇内的任意两个对象之间具有较高的相似性,不同的簇的两个对象之间具有较高的相异性。用于数据挖掘的聚类检测方法有:划分的方法、层次的方法、基于密度的方法、基于网络的方法和基于模型的方法等。

1.2 决策树方法

决策树主要应用于分类和预测,提供了一种展示类似在什么条件下会得到什么值的规则的方法,一个决策树表示一系列的问题,每个问题决定了继续下去的问题会是什么。决策树的基本组成包括决策节点、分支和叶子,顶部的节点称为“根”,末梢的节点称为“叶子”。数据挖掘中决策树是一种经常采用的技术,常用的算法有CHAID、CART、Quest、ID3和C5.0等。决策树适合于处理非数值型数据,但如果生成的决策树过于庞大,会对结果的分析带来困难,因此需要在生成决策树后再对决策树进行剪枝处理,最后将决策树转化为规则,用于对新事例进行分类。

1.3 人工神经网络

神经网络方法越来越受到人们的关注,主要因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。人工神经网络方法主要用于分类、聚类、特征挖掘、预测等方面。它通过向一个训练数据集学习和应用所学知识,生成分类和预测的模式。对于数据是不定性的和没有任何明显模式的情况,应用人工神经网络算法比较有效。人工神经网络方法仿真生物神经网络,其基本单元模仿人脑的神经元,被称为节点;同时利用链接连接节点,类似于人脑中神经元之间的连接。人工神经网络方法主要有:前馈式网络、反馈式网络和自组织网络。

1.4 遗传算法

遗传算法模仿人工选择培育良种的思路,从一个初始规则集合开始,迭代地通过交换对象成员(杂交、基因突变)产生群体(繁殖),评估并择优复制(物竞天择、适者生存),优胜劣汰逐代积累计算,最终得到最有价值的知识集。遗传算法能够产生一群优良后代,这些后代力求满足适应性,经过若干代的遗传,将得到满足要求的后代,即问题的解。

1.5 关联分析方法

世界上的许多事物相互间都存在着“关系”,如四通八达的铁路、公路将城市连接在一起;处方将医生与病人联系在一起等。关联分析方法特别适合于从关系中挖掘知识。关联分析方法包含关联发现、序列模式发现和类似的时序发现等。

1.6 基于记忆的推理算法

基于记忆的推理算法使用一个模型的已知实例来预测未知的实例,使用基于记忆的推理算法时,要求预先已有一个已知的数据集(称作基本数据集或训练数据集),并且已知这个数据集中记录的特征。当需要评估一条新记录时,该算法在已知数据集中找到和新记录类似的记录(称为“邻居”),然后使用邻居的特征对新记录预测和分类[1]。

2 数据挖掘技术在物流中的应用

2.1 对市场进行预测

随着市场竞争的加剧、企业精细化管理愿望的增强,以及先进技术方法的开发应用,对数据进行挖掘利用已成为物流企业推出商品、争取客户、增加利润、提升自我竞争力的突破口。物流企业产生的数据量庞大、更新快,并且来源多样化,通过对这些数据进行有效挖掘,可以确定客户群,并推出有竞争力的商品。商品具有一定的生命周期,一旦该商品进入市场,其销售量和利润都会随时间的推移而发生变化。不同阶段,商品的生产、配送、销售策略各不相同,这需要提前进行生产计划、生产作业安排及提前配置库存和提前制定运输策略,即物流企业要注重商品的生命周期,合理地控制库存和安排运输,对不同的商品对象建立相应的预测模型。物流企业可以通过聚类分析作为市场预测的手段,为决策提供依据[2]。

2.2 对物流中心的选址

物流中心选址是构建物流体系过程中极为重要的部分,其主要是求解运输成本、变动处理成本和固定成本等之和的最小化问题。选址需要考虑中心点如何分布和中心点数量等,尤其是多中心选址的问题。多中心选址是指在一些已知的备选地点中选出一定数目的地点来设置物流中心,使形成的物流网络的总代价(主要指费用)最低。在实际操作中,当问题规模变得很大或者要考虑一些市场因素(如顾客需求量)时,数学规划就存在一些困难。针对这一问题,可以用数据挖掘中分类树的方法来解决。

2.3 物流管理中的仓储

电子商务的快速发展,使得现代物流管理对仓储的要求越来越高。合理安排商品的存储、摆放商品,提高拣货效率、压缩商品的存储成本、提供更多客户自定义产品和服务、提供更多的增值服务等是当前物流管理者必须思考的问题。利用数据挖掘技术中的关联分析方法可以帮助优化仓库的存储。关联分析方法的主要目的就是挖掘出隐藏在数据间的相互关系。

2.4 优化物流的配送路径

配送路径的选取直接影响着物流企业的配送效率。物流配送体系中,管理人员需要采取有效的配送策略以提高服务水平、降低整体运输成本。首先,要解决配送路径问题。配送路径是车辆确定到达客户的路径,每一客户只能被访问一次且每条路径上的客户需求量之和不能超过车辆的承载能力。其次,提高配送车辆的有效利用率。如果在运输过程中车辆空载或不能充分利用车辆的运送能力,就会增加物流企业的运输费用。最后还要考虑商品的规格大小和利润价值的高低。遗传算法可以对物流的配送路径进行优化,它可以把在局部优化时的最优路线继承下来,应用于整体,而其他剩余的部分则结合区域周围的剩余部分(即非遗传的部分)进行优化,输出送货线路车辆调度的动态优化方案。

2.5 客户分析

物流管理也是实现对客户服务的一种管理活动,所以有必要对客户进行分析,使企业能对目标客户群采取有针对性的且高效的促销措施,以更快的速度更高的准确度和更出色的客户服务,满足客户个性化的需求,建立并保持客户忠诚度,增加企业的销售额,降低企业的营销成本。客户分析是依据收集到的关于客户的数据来了解客户的需求,分析客户特征,评估客户价值,从而为客户制定相应的营销策略与资源配置计划。通过定性与对比的应用,对客户特征进行准确的概念描述,物流企业能够充分挖掘出客户价值。通过数据挖掘还可以找到流失客户的共同特征,可以在那些具有相似特征的客户未流失之前进行针对性的弥补。

3 运用数据挖掘技术时应注意的问题

在物流业中,可以有效利用数据挖掘技术解决很多问题,但其不能解决物流决策中出现的所有问题。如果不能将特殊领域的物流业务逻辑与数据挖掘技术结合起来,数据挖掘的分析效果和效益就不可能达到最佳值。数据挖掘技术在物流业中的应用,一般需要考虑以下三个因素:熟练掌握数据挖掘技术的专业人才;选择适合的数据挖掘工具和方法,建立适合企业的数据挖掘系统;保证数据挖掘中数据源具有准确性及代表性。具体运用数据挖掘技术时还应该注意以下问题:

3.1 数据挖掘工具的选择

当前流行的数据挖掘工具,很多是由国外公司研发,如IBM开发的QUEST系统、SGI开发的Mineset系统等。由于国内外物流环境存在差异,直接引进这些挖掘工具,可能会与我国的市场和企业不太适应,所以物流企业的管理人员要从保证这些工具可以准确反应本企业的经营状况角度出发,在引进国外的相关系统时着重考虑定制问题,只有这样才能充分发挥数据挖掘技术的潜能。

3.2 系统集成问题

数据挖掘的本质是从大量已有的数据中找出有价值的信息,这些数据存储在数据库中。物流企业一般在建立管理信息系统时就已经选择了某一数据库产品。因此,应用数据挖掘技术首先要考虑数据挖掘系统与已有数据库系统是否集成,这样便于利用该企业已有的数据库中的数据。也只有这样才能充分利用已有数据,降低企业成本,更好地服务于物流企业的经营活动。

3.3 技术人员的影响

数据挖掘技术人员在工作中所选用的技术和方法会直接影响到数据模型的准确度,其专业素养和能力对于数据挖掘的实施起到至关重要的作用。所以相关技术人员的综合素质能力决定了数据挖掘工作能否顺利开展。因此,要求这类技术人员一般具备很高的综合素质,首先要有良好的计算机、统计等知识的功底;其次要熟悉掌握一定的物流知识,懂得物流行业的基本流程和运作理念。但目前很多物流企业对这样的技术人员没有足够的重视,所以作为物流企业的决策者要注重高素质人才的引进,加强技术人员的培训教育。

3.4 数据质量的影响

目前,很多物流企业业务种类繁多,旗下都包含多个不同的业务子系统,这些业务子系统会产生大量数据,致使物流企业必须建立庞大的数据库,这虽然会给日后的数据挖掘提供很好的数据源,但随之也出现了一些问题,如数据的质量、数据完整性和数据一致性问题等,会导致数据挖掘技术人员不得不投入大量的时间和精力去净化和处理所提取的数据,很难集中精神去构建模型。如何保证数据质量,是企业成功实施数据挖掘的一个技术关键点。

4 结束语

数据挖掘技术在物流业中应用不断普及,更多的物流企业意识到数据挖掘对于决策支持的重要性,尤其在对市场预测、解决选址、仓储、配送和客户分析等问题方面发挥出很大的作用。我国物流企业在数据挖掘应用方面还处于起步阶段,但这些企业可以结合自身的实际情况,从最基本的数据挖掘技术应用做起,随着物流行业的不断发展,数据挖掘技术将会为管理决策提供更加强大的支持功能,为物流企业的发展保驾护航。

参考文献:

[1] 安淑芝. 数据仓库与数据挖掘[M]. 北京:清华大学出版社,2005.

第12篇

 

关键词:数据挖掘;客户关系管理;银行CRM;客户生命周期

一、引言

在当前市场环境中,作为提供金融服务产品的银行业, 面临着多方面的压力和挑战。银行服务的客户数量是衡量银行业务开展的重要指标,当前的客户已不再是被动的身份,面对诸多的选择,服务不好就会导致客户的流失。从国内银行的竞争上看,在现行的市场游戏规则下,各家银行都提供相似的服务,在人员、资金和技术上已不是决定竞争实力的关键,重点在于管理, 特别是基于对客户了解和分析的客户关系管理。

二、CRM与数据挖掘技术简介

客户关系管理(CRM)不仅是一种通过完善的客户服务和深入的客户分析来满足客户的需求,保证实现客户终身价值的管理理念,而且是一种旨在改善企业与客户之间关系的新型管理机制,使企业从“以产品为中心”向“以客户为中心”的模式转移,即企业关注的焦点是从内部运作转移到客户关系上来。

很多银行花大力气去积累有关客户的信息,但并不能有效地进行客户关系管理。因为信息只是一些原材料,需经过组织、分析并理解后,才可以用来构建有关客户的知识,进而指导银行的市场、销售、客户服务等各个环节,提高银行的效率和效益。但银行如何管理和分析大量、复杂的客户信息,从中找出对自身管理决策有价值的信息和知识,则需要有先进的技术和工具的支持,数据挖掘等新兴技术的出现,则为银行CRM的实现提供了良好的支持。

数据挖掘(DM)是个比较广泛的概念。广义的数据挖掘指的是一般性数据分析,它既包括统计分析方法,也包括挖掘方法。狭义的数据挖掘则是指基于非线性关系的数据分析方法。数据挖掘是信息技术发展到一定阶段的必然产物,是从数据库、数据仓库或其他信息库的大量数据中,挖掘出有用的知识的一个过程。

如果从银行角度说,数据挖掘则是一种新的客户信息处理技术,其主要特点是对银行数据库中的大量业务数据进行抽取、转换、分析和其他模式处理,从中提取出能辅助银行决策的关键性数据。因此,数据挖掘可被定义为:是提取有用信息和知识的数据产生过程,是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,并能够根据已有的信息对未来所发生行为做出预测,为银行经营决策提供依据的过程。

三、数据挖掘技术在银行CRM中的应用

在银行CRM 中,数据挖掘应用广泛。如金融市场分析和预测、账户分类、信用评估等。这些金融业务都需要收集和处理大量数据,数据挖掘可通过对这些已有数据的分析和处理,找到数据对象的特征和对象之间的关系,并可观察到金融市场的变化趋势,然后利用挖掘出的知识进行合理地分析预测,进而发现潜在客户及现有客户的金融和商业兴趣等。数据挖掘在银行CRM中的应用模型如下图所示:

CRM最简单的含义可理解为:管理所有与客户的相互作用。在实践中,需要在客户关系的各个阶段使用与客户相关的信息来预测客户的行为。我们将客户关系的各个阶段定义为客户生命周期。客户生命周期包括四个阶段:一是获取客户,二是提高客户价值,三是保持高效益客户,四是防止客户流失。数据挖掘技术在CRM的不同生命周期具有不同的作用:

(一)利用聚类分析方法进行客户分类,获取客户

发现和开拓新客户对于任何一家银行来说至关重要。客户分类又称为客户细分,是将大量的客户分成不同的类型,同一类型的客户拥有某些相似的属性,如背景资料、盈利能力、消费偏好等。通过客户细分,可使银行准确把握现有客户的状况,针对每类客户使用不同的营销方式或提供不同的服务,使银行以最小的投入获得最大的回报。

聚类分析方法是通过无指导学习,按最大化类内部的相似性、最小化类之间的相似性的原则,自动对数据分类。对于客户关系管理系统中的大量数据,管理人员常常希望能得到有意义的提示,以做出正确的客户分类判断。此时,使用聚类分析结果,先给出多个不同的相对较大的类划分,然后再进行精确划分。通过聚类分析,银行往往可以发现客户的群体行为,发现客户的共性,掌握他们的投资理念,从而提供针对性的服务,提高银行服务的成功率。还可以通过分类或聚类分析对客户进行群分后,再由模式分析预测哪些人可能成为其客户,以帮助管理人员找到潜在客户。例如,银行如果要进行一次直接邮递推广活动,我们可以根据对目标市场客户群体的识别更加具有针对性,只寄出少量的信件,就可得到很高的回应率。由于避免了传统的撒网式促销,虽然减少了直接邮递的数量,却能增加盈利。这样,我们不仅减少了对那些不符合特征客户的打扰,而且还能够极大地增加投资的回报率。

(二)利用关联分析方法进行交叉销售,提高客户价值

交叉销售就是指银行通过和客户交流,向现有客户提供新产品和新服务,从而保持现有客户资源、提升现有客户价值的销售方式,它建立在银行和客户双赢的基础之上。关联分析则是给定一组或一个记录集合,通过分析记录集合,推导出其相关性,目的是为了挖掘出隐含在数据间的相互关系。银行利用关联分析方法分析客户的交易行为与其他属性(如客户的年龄、性别、教育程度、职业等)的关联关系,即寻找影响客户交易行为的因素,并建立预测模型对客户将来可能发生的交易行为进行预测,分析哪些客户最有可能对银行的服务感兴趣,会对哪些金融产品感兴趣,哪些理财产品或服务通常会一起发生在同一次交易里,从而实施有效的交叉销售,提高银行的客户价值。

如果银行通过交叉销售方式来实现销售量的增加,以下两个步骤通常是必须要遵循的。一是通过聚类分析实现客户细分,锁定交叉销售所要面对的目标客户;二是通过关联分析确定最优的销售组合,并向相应的客户展开交叉销售。

(三)利用分类法保留客户,提高客户忠诚度