0
首页 精品范文 数据挖掘论文

数据挖掘论文

时间:2022-08-16 10:32:01

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据挖掘论文,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

数据挖掘论文

第1篇

数据挖掘技术是延伸和扩展了传统分析方法,可以发现传统分析方法不能发现的内容和规律,并且它将人们从单调、枯燥的阅读专利文献的工作中解放出来,使用计算机代替了人类劳动,这样不仅提高了效率,而且提升了准确度。因此,数据挖掘作为一个专利分析的强有力工具被引入到专利分析中来,并且得到快速的发展应用。专利数据挖掘流程应考虑的问题:一是用数据挖掘解决什么样的问题;二是为进行数据挖掘所做的数据准备;三是数据挖掘的各种分析算法。故专利数据挖掘的一般过程通常按照以下步骤来完成:领会数据挖掘的目的,获取分析所用的数据集合,探索、清理和预处理数据,选择要使用的数据挖掘技术,使用算法解决问题,解释算法的结果。而其一般流程可简化为三个阶段:数据准备数据挖掘结果解释和评价。本文采用简化的流程进行实证分析。

二、石家庄地区制药企业专利数据挖掘

本文对石家庄地区制药企业的专利数据进行挖掘分析,挖掘对象是华北制药集团公司、石家庄制药集团有限公司、石家庄神威药业股份有限公司、石家庄四药股份、河北以岭药业股份有限公司、石家庄市华曙制药集团、河北医科大学制药厂、河北圣雪大成制药有限责任公司等地址在石家庄且具有一定代表性的药企,希望通过这些药企数据能够找到石家庄地区制药领域的核心组成,并能为药企更好地发展提供有力的信息支持。IPC号是目前权威的专利技术主题的标识编码之一,基本包含了各行各业的专利信息,是一个庞大的专利信息体系。目前国内外很多分析方法及技术大部分是基于专利的IPC分类号来分析专利技术主题的,此分析方法有一定的参考价值和科学性,而且对于具有大量专利信息的分析具有很好的总结概括效果。本文以专利全部IPC号为分析对象,并且构建IPC号之间的关联规则,在最大程度上揭示隐含的专利技术关联性,从而为石家庄地区制药企业专利技术的发展提供参考。

1.数据准备。数据来源的准确与否是数据分析与挖掘的基础,是数据分析与挖掘的根本。本文所使用的石家庄地区制药领域专利数据由万方数据公司提供,以制药企业地址为石家庄为检索条件,搜索出了包括从1985—2014年间石家庄地区制药领域专利644条,分别分布在A、B、C、D、E、F、G、H八个大部。对专利数据库中的644条专利进行筛选,根据“分类号”字段限制,它涉及专利信息的分类,有些IPC所涉及的范围与石家庄地区制药领域没有联系或联系很小,不宜保留。根据“申请人(专利权人)”字段的限制,剔除与石家庄地区制药不相关或制药企业地址不在石家庄地区的专利。最后筛选出590条最符合该领域特点的专利。由于IPC号在几乎所有现存数据库中均是以一个字段存储一个专利的所有IPC分类号的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每个专利一般都有好几个分类号,而每个企业又研究大量的专利,所以在进行专利分析之前,需要对专利IPC号进行数据整理。由于过于细致的IPC分类号并不利于专利主题的分析与揭示,所以本文中采用专利小类分析,就是取IPC号的前4位。并将申请人与其对应的多条IPC号进行拆分,拆分后的数据项有773条,即显示每个申请人对应的一条IPC分类号。

2.数据挖掘。本文数据挖掘过程将采用Excel和SQLsever2005软件,首先对所得到的数据导入SQLserver2005进行挖掘,利用SQLserver2005可以直接进行IPC号的关联规则挖掘,然后对专利信息进行分析。

3.数据挖掘结果与分析。基于关联规则制作依赖关系网络图,可以更加直观地看到各个IPC号之间的关联和依赖状态。

(1)以A61K、C12N、C12P、C07D、C07C为中心的核心专利技术群。这些专利的IPC分类号是关键部分药物组成的各种化合物即药物主要成分的重要聚集组。A61K(医用、牙科用等的配置品)是项集次数最多的,即支持度较高的,C12P(发酵或使用酶的方法合成目标化合物或组合物或从外消旋混合物中分离旋光异构体)、C12N(微生物或酶;其组合物)、C07D(杂环环合物,例如邻氯苄星青霉素的合成)、C07C(无环和碳环化合物)通过专利相关知识我们已经知道这些都是药物的合成成分,即土霉素、链霉素、青霉素等多种抗生素和维生素的主要成分组成,是制药领域的核心。这也是和石家庄地区制药企业的核心领域相符合的。另外这些专利主题的相互关联、依赖说明了石家庄地区制药企业在该领域具有很好的布局网络,在研发数量上也占有一定优势,所以说是石家庄地区制药企业的主要研究领域。

(2)以B65G、C12M为中心的辅助设备专利技术群。药品的生产离不开设备的支持,所以设备方面的专利也能体现制药企业的技术水平。在图1中也能体现出来,专利间有着很强的依赖性和关联性,在核心专利周边有B65G(运输或贮存装置,例如装载或倾斜用输送机、车间输送机系统、气动管道输送机)、C12M(酶学或微生物学装置),这些是制药的辅助技术手段,与中心专利是相互联系的,也是制药过程中必不可少的,在这些方面的提高有利于制药核心领域的发展。先进药品的研制离不开先进制药设备支持,所以设备水平的提高也是关键的。如图3所示,石家庄地区制药企业在这一方面的技术依赖网络也已经形成,说明在此技术领域也已经拥有较强实力。但与中心主要专利相比,辅助设备专利技术还是需要不断提高的。

三、总结

第2篇

1.1数据挖掘技术

关联分析即找出两个或以上变量之间同时出现的规律、因果结构,即通过其他事物可对某个与之相关的事物做出预测。数据挖掘关联分析的主要作用就是分析海量数据中潜在的关联规则,对于高校图书馆个性化服务而言,即从图书馆数据库中发现相关的关联规则,针对用户的信息需求做出准确预测,提高信息推送的针对性,便于用户获取所需的信息。聚类即将数据库中的一组个体按照相似性归结为若干类型,应用于图书馆系统中,就是将相似的文献集中在一起,用户在搜索相关文献时可以查阅更多其他相关内容,便于其总结、归纳;在个性化服务中还可以通过聚类汇总用户所需的特定信息。分类与聚类相似,是按照分析对象的属性建立类组,用户查阅资料的过程中,每种信息的重要程度有所不同,通过分类可以将用户所需求的知识分为高度需求、中度需求及低度需求。在高校图书馆个性化服务中要对用户的使用规律做出预测,即根据用户历史查阅记录对用户所需的文献种类、特征等做出预测。时序模式主要是通过时间段对用户的访问记录、检索过程做出标志,再通过时间序列将重复率较高的内容挖掘出来,以预测其下个信息需求,提高用户查阅资料的便利性。

1.2图书馆中应用数据挖掘的必要性与可行性分析

图书馆应用数据挖掘技术的必要性体现在以下几个方面:首先,信息化需求。用户的借阅记录、检索记录均存储于图书馆数据库中,需要利用数据挖掘技术将这些海量数据转换为有用的知识信息,以便于馆员做出决策。其次,图书馆的管理需求。传统图书馆系统仅能为用户提供简单的访问、检索等功能,这些功能无法满足图书馆个性化的技术要求,因此要利用数据挖掘技术将用户借阅数据中隐含的关联性发掘出来,从中发现有用的知识信息。最后,用户服务的需求。数字化图书馆的发展越来越迅速,用户通过图书馆获得的资源也越来越丰富,如何从海量的信息资源中发掘出对用户有用的知识信息,仅依靠传统的图书馆管理系统无法解决这一问题,因此要利用数据挖掘技术对用户的借阅记录进行分析,从中获得更多有价值的信息,以提高图书馆的服务质量及馆藏利用率。而在图书馆个性化服务中应用数据挖掘技术也是可行的,一方面很多图书馆已具备比较好的物质条件及人才条件,这些均是图书馆个性化服务中应用数据挖掘技术的必要条件,而且政府在经济方面、政策方面也为数据挖掘的应用提供了更多保障;另一方面,近年来数据挖掘技术也有了长足的发展,其足以为图书馆的个性化服务提供必要的技术支持。图书馆数字化发展过程中需要采集、购置更多的数据资源,而利用数据挖掘技术可以为图书馆资源建设提供指导作用,挖掘图书馆的历史借阅记录,可进一步了解用户的借阅习惯、阅读兴趣及信息需求,并且可以对不同图书之间的关联性进行深入分析,图书馆员根据这些信息记录、分析结果等提供指导,可以提高图书资源分配的合理性,对馆藏布局进行优化。由此可见,数字化图书馆个性化服务中应用数据挖掘技术十分必要。

2图书馆个性化服务的具体体现

高校图书馆个性化服务是指根据每个用户的专业、爱好、研究方向、探索领域及特殊服务为其提供更具针对性的信息服务,帮助用户查阅更加完整的信息资料,便于其学习、研究。高校图书馆个性化服务具体体现在以下3个方面:

①用户可根据自己的需求定制相关信息,以保证其在图书馆中能够查阅到相关资料;图书馆利用数据挖掘技术发现用户的兴趣爱好,为其定制个性化的访问空间。用户访问图书馆数据库时会将其兴趣爱好间接地反映出来,如果用户不感兴趣,在页面停留的时间会较短,停留时间较长则说明比较感兴趣;利用用户的浏览路径信息时间即可将用户对信息资源的感兴趣程度发掘出来。

②提高图书馆资源利用率。利用数据挖掘技术可以识别图书馆网站内频繁访问的路径及用户访问次数较多的页面,可以将新书信息、重要的分类信息放在这些路径上,从而向用户主动推送其所需要的信息资源,提高图书的利用率。

③优化链接结构,提高用户应用的便利性。对Weblog进行挖掘,可以发现用户访问页面的相关性,增加联系比较密切的网页之间的关联性;发现用户的期望位置,如果用户访问期望位置的频率高于对实际位置的访问频率,则可在二者之间建立导航链接,优化站点。

④查新服务与定题服务。传统图书馆主要通过查询光盘数据库、文献数据库等进行查新服务,而随着网络技术的不断发展与应用,外部网络信息及更新的速度远远超过图书馆内部网络,因此要加强网络平台的建设,以保证服务结果的真实性与可靠性。数字图书馆在进行查新与定题服务过程中,可以利用可视化技术为用户提供在线即时信息分析。

3图书馆个性化服务中数据挖掘技术的应用

图书馆个性化服务数据挖掘技术的应用流程如下:建立读者数据仓库——数据收集——挖掘算法的选择——挖掘结果的显示——对结果的评价。

3.1建立读者数据仓库

数据挖掘过程中,在确定了挖掘目标后,即开始进行数据准备,从大量数据中选择一个与需挖掘目标相关的样板数据子集。此时需要建立一个数据仓库,其主要作用是将所有挖掘目标所需的数据保存其中,如果未建立数据仓库直接进行数据挖掘,可能会导致挖掘失败,因此数据挖掘的前期工作大部分用于准备数据,因此建立数据仓库是一个至关重要的准备工作。高校图书馆个性化服务中应用数据挖掘技术,第一步就是建立用户的兴趣库及图书馆自身的特色资源数据库。用户使用图书馆的过程中,必然会产生大量的借阅记录,访问图书馆网站会留下访问记录,这其中均潜藏了大量有意义的信息。

3.2数据收集

在建立用户兴趣库及特色资源数据库后,必须对这两个数据库中的数据进行分析、调整,以保证原始数据的质量,从而保证数据挖掘结果的质量。数据收集即数据的分析与调整可以分为数据抽取、数据清洗及数据转换等3个步骤。其中数据抽取的主要作用是将与挖掘目标相关的数据信息搜索出来;数据清洗则是对数据进行噪声消除、重复记录的消除及推导计算缺值数据等。图书馆每天会产生大量的用户相关的数据,并非所有的数据均对整个挖掘处理过程有正面作用,有些数据可能会对挖掘效果产生负面影响,因此剔除这些无用的数据十分必要。数据转换的主要作用是精减数据维数,从初始特征中分析出真正有用的特征,通过数据转换可有效减少数据挖掘时需要考虑的变量数。

3.3选择算法及建立模型

数据挖掘过程中不同的算法可能会实现同一个任务,但过程却大相径庭,因此要根据数据的特点、实际运行系统的要求选择适用的算法。有些用户比较倾向于获取描述型的、容易理解的知识,有些用户则希望获取预测型知识,因此要针对不同的用户选择对应的算法,之后就要进行数据挖掘模型的建立。通过对用户分类、聚类及时间序列的分析,将每类用户的普遍性需求及个性化需求抽象出来,从而建立一系列的关联规则模型。一个模型完成后不一定可以立刻解决问题,需要对其进行反复验证,如果可以解决问题证明模型有效;如模型存在缺陷,则要通过反馈对模型进行修改、调整,或者选择新算法,建立新模型,对不同的模型进行全面考察。

3.4结果解释与知识表示

在建立数据挖掘模型后,可利用建立挖掘模型时所用的算法规则进行运算,即可产生数据挖掘结果,图书馆只需对挖掘结果进行可视化、可理解化处理即可。要将抽象的数据解释成易读、易懂的结果,图书馆决策者及管理者即可根据可视化的挖掘结果进行决策。比如图书馆新引进了一批考古专业的学术论文,由数据挖掘模型分析结果可知,该批论文的查阅者90%均为考古专业的老师与学生,其他专业的师生查阅率不到10%,根据这一结果,即可将论文信息传递给考古专业的相关用户,以提高信息推送的针对性。

3.5结果的验证、应用及评价

产生挖掘结果后需要进一步实践,以验证结果的有效性与可用性,及对模型的实用性进行评价,并且挖掘结果还具备预测未来数据的功能。上一步的结果解释经过实践后,可对应用过程进行跟踪了解,获得用户的反馈信息,对结果的实用性进行验证。需要注意一点,即一个数据挖掘的模型与已有数据完全相符比较困难,且并非所有的环境、每个时间节点均适用于同一个数据挖掘模型,因此要对挖掘结果做出评价,如经过用户的反馈,数据挖掘出来的结果可以解决问题,实现了最初的挖掘目标,满足了用户需求,则可判定该模型是合理的。挖掘结果可以满足用户的要求,用户就会做出满意的反馈,将这一反馈信息提供给决策者即可做下一步的实施,完成该阶段后,图书馆就基本上实现了以用户为中心的个性化服务的数据挖掘过程。不过某些情况下模型的评价结果可能不尽如人意,即数据挖掘的结果无法满足用户的要求,这种情况就要由系统进行重新处理,重复上述步骤,重新抽取数据、选择另外一种数据转换方法、设定新的数据挖掘参数值、选择另外的挖掘算法等。由此可见,数据挖掘的过程是一个不断反馈的过程,体现出反复性的特点。

4结语

第3篇

在熔炼机组优化运行的过程中,机组的运行性能指标与人员的操作水平、负荷及运行参数之间有着复杂的相互关系,这种关系在大量的生产历史数据中与机组各数据项之间关联,因此可以通过数据挖掘的方式把其中的关联关系定量的反映出来,最终反馈到实际运行中。本文结合工厂的实际情况,分析由工厂的DCS系统采集的实时运行数据,来得到用户期望的相关参数间定量的关联规则。

2交互式关联规则挖掘算法

关联规则挖掘算法在数据库的记录或对象中抽取关联性,展示了数据间位置依赖关系,其目的是寻找在大量的数据项中隐藏着的联系或相关性。其优越性在于能将用户的定制信息整合到挖掘过程中,以一种友好的方式引入约束,使挖掘出更加符合用户需要的信息,并且提高了挖掘的效率和有效性。

2.1目标数据库的确定

数据挖掘应熟悉对象的背景知识,明确挖掘的目标,根据目标确定相关数据,以此作为目标数据库,来完成对数据的预处理、挖掘和规则评价。

2.2交互式关联规则挖掘算法

表示A成立则B成立,其中给出了可信度C和支持度S。可信度C是对关联规则准确度的衡量,即在出现A的情况下出现B的概率;支持度S是对关联规则重要性的衡量,即A和B同时出现的概率。

3熔炼机组数据挖掘的实现

本文采用的是冀某工厂于2013年5月运行的数据,采样频率为2~3秒/次,采样模式为实时监测值,得到7595组数据。在分析阶段,对影响机组的主要可控参数进行了提取及预处理,参数主要包括:转速、有功功率、主蒸汽压力、调节级压力、中压缸排汽压力。以机组转速设计值为3600r/min为例来分析。对各个可控参数数据进行曲线化处理,作为分析它们之间的关联规则的数据表。上述关联规则表示,在三种负荷工况下,工厂熔炼机组有功功率与主蒸汽压力、调节级压力、中压缸排汽压力三者之间最优变化区间的关联。经分析,在机组中应用关联规则的数据挖掘技术与传统方法相比,优点是其可以对不同的可测参数进行挖掘,方法简单有效、可操作性强;运用关联规则进行挖掘,对过程能够较灵活控制,处理后的目标值直观,便于操作指导和提高运行效率。

4结论

第4篇

1网上银行促销渠道分析系统的设计

网上银行促销渠道分析系统采用C/S架构或者B/S架构,充分考虑系统易用性和投入产出。从维护网上银行的C/S架构和B/S架构角度来分析,使用网上银行促销渠道分析系统的多是管理人员,并且在未来的发展过程中,系统用户数量也不会大幅度上涨,综合网上银行系统的维护成本和开发成本,尽量选择C/S架构。从使用者和系统数据传输的角度来分析,只有银行工作人员才能使用这个系统,而C/S架构具有良好的灵活性。综上所述,网上银行促销渠道分析系统可以使用C/S架构来部署软件模块。由于网上银行系统包含大量的客户信息数据,因此网上银行系统必须具有更高的安全性和保密性,相关操作人员必须强化风险防范意识,规范网上银行系统操作,严格控制系统的数据传输。网上银行系统必须具有良好的扩展性,为数据表和数据查询算法留出充足的软硬件资源。同时,网上银行渠道分析系统要支持工作人员扩展数据查询、数据字典和数据表之前的交叉查询,将用户的查询记录保存在本地网络服务器上,尽量避免重复查询,提高网上银行渠道分析系统的查询速度。

2数据挖掘技术在网上银行促销活动中的运用

随着商业银行的快速发展,网上银行受到人们的广泛关注。网上银行系统以计算机网络为交易平台,各种新型的促销策略,使网上银行业务得到迅速拓展。但是,和四大行相比,一些商业银行的网上银行业务仍然存在很大的差距。同时,近年来,网上银行市场竞争日益激烈,某些网上银行业务在应用过程中出现了促销成本不断增加,而促销效果不理想的状况,数据挖掘技术在网上银行促销活动中的运用,要积极解决这些问题。

2.1提高营销质量当前,很多银行都逐渐加大了网上银行促销力度,但是促销活动的效果却不明显,单纯的依靠赠送礼品或者各种优惠措施,在很大程度上会提升促销成本,并且难以真正地吸引客户。在网上银行促销活动中应用数据挖掘技术,分析不同促销活动的特点,根据网上银行系统自身的特点和优化,对不同客户进行组合促销,将不同的网上银行业务或者产品联系起来,有针对性地对有意向的客户进行促销,合理安排网上银行促销活动内容和时间,尽量在电子商务交易高峰时段之前,实现网上银行促销活动的目标。

2.2优化客户结构一些商业银行不了解客户的真实需求,在发展潜在客户时,缺乏针对性,网上银行促销活动的交易需求较弱。因此要应用数据挖掘技术挖掘一些隐含的信息,明确哪些客户对网上银行的哪些产品或者业务有需求,挖掘潜在的、有实力的客户,将这些客户作为网上银行促销活动的重点客户。

2.3优化促销活动流程在网上银行促销活动中运用数据挖掘技术,采用运用关联分析,挖掘传统银行渠道重点产品和网上银行系统重点产品的业务数据,挖掘非网络银行系统和网络银行系统业务以及网络银行系统不同业务或者产品之间的关联关系,通过数据挖掘技术寻找符合网上银行系统运营条件的关联关系,探索网上银行系统不同产品和业务之间的依存性或者相似性[2],由此将网上银行系统的某一项业务或者产品作为重点促销产品来拉动其他业务和产品的销售,并且可以将一些业务或者产品组合起来进行有针对性的促销,提高网上银行促销活动效果。另外,挖掘优质、有潜力客户特征,优质客户可以银行提供大量的业务收入和交易量,因此可以通过数据挖掘技术的聚类方法分析银行系统的客户构成,挖掘优质客户的共同特征,为网上银行促销活动提供重要的依据。

3结束语

数据挖掘技术在网上银行促销活动中的运用,可以极大地提高网上银行促销活动的效果和效率,利用数据挖掘技术帮助银行系统挖掘一些隐含、有价值的信息数据,结合网上银行系统的特点和优势,帮助银行系统有针对性开展网上银行促销活动,深入挖掘优质客户,增加网上银行业务交易量,提高网上银行系统的经济效益,推动网上银行系统的快速发展。

作者:周骏单位:上海浦东发展银行

第5篇

1数据挖掘及其关键技术

数据挖掘技术是当前数据分析和处理领域一项十分重要的技术,具体而言数据挖掘技术可以看成是信息技术不断发展和演进的结果,是在人们对于数据库技术不断发展和创新的基础上发展而来的。在初期阶段,商业数据往往只是简单的进行存储,然后有了对相关数据的查询功能,再继续发展为对相关数据的即时遍历。数据挖掘技术使得数据查询已经不仅仅局限于数据本身,同时还可以通过相关的算法和技术发现数据之间潜在的关联性,从而在很大程度上增加了数据利用的深度和层次。随着当前大数据时代的到来以及高性能计算机和数据挖掘算法的成熟,数据挖掘技术开始在商业领域进行应用,并且取得了快速的发展。在目前的医院信息管理系统中已经积累了大量的数据信息,因此如何实现对这一部分信息的深层次数据挖掘是至关重要的,这也将直接决定着医院将来的发展和命运。在医院信息管理系统中应用数据挖掘技术可以在更深层次上对医院的管理数据进行分析,从而可以为医院从业人员的相关决策、管理以及研究提供更加有力的技术支持。因此数据挖掘技术在医院信息管理系统中的应用具有十分重要的意义。在目前的数据挖掘技术中,其关键技术是数据的预处理。当需要进行分析的数据库包含大量的噪声或者存在数据不一致性时,数据预处理就显得更加有必要。根据对相关数据挖掘过程的统计显示,超过一半的时间用于进行数据预处理,而真正用于数据信息挖掘的时间则仅占到10%左右。目前的数据预处理技术主要分析对数据的清洗、集成、转换以及消减等。另一关键技术是匿名化以及转换技术,这主要是由于在目前的医院信息管理中涉及到病人的隐私问题,因此在进行数据处理的同时需要对患者的相关记录进行匿名化处理,以更好的保护患者的个人隐私。

2基于数据挖掘技术的医院信息管理系统

2.1基于数据挖掘技术的医院信息管理系统

关联规则是目前进行数据挖掘的重要手段,在医院信息管理系统中引入关联规则可以进一步发现数据之间的相互关联,并且在对病人的相关数据的分析和进一步挖掘过程中,尝试分析患者年龄与医疗费用之间潜在的关联,并且进一步通过这种关联关系加强对医院资源的合理优化配置,实现对不同年龄段患者的医疗费用的有效控制,进而实现医院效益的最大化。具体而言,将关联数据集合记为D{=t1,t2,...tn},tk={i1,i2,im..ip},tk为数据库中的事务,im为数据库中的项。在数据集合D中,其包含的集X的项数为集的支持数,将其记为σx,支持度为suppor(tX),则有suppor(tX)=σx/|D|×100%。假设X和Y为数据库集合D中的项集,则有:假如XY,则有X项的支持度大于Y项的支持度,同时假如X是非频繁项,则此时Y项也是非频繁;则假如Y项是频繁的,则X项也是频繁的。在数据挖掘的关联规则中有两个至关重要的概念,即支持度与置信度。通常而言,支持度只要用于衡量采用的关联规则的可信度,而置信度则用于表示在生成数据集中关联规则的统计角色。在实际的应用过程中,假如support(XY)大于支持集,并且置信度大于最小置信度,此时XY可以称之为强规则,否则将其称之为弱规则。在数据挖掘的过程中,寻找强规则是整个数据挖掘过程的关键。在强规则XY所对应的项集中,必定存在着频集。基于关联规则的数据挖掘模型如图1所示,其中主要包括数据集D、关联规则搜索算法、数据挖掘结果R以及用户与数据挖掘之间的交互,对相关的数据挖掘结果信息结果进行合理的评价。在实际的关联规则数据挖掘过程中还需要考虑到以下两个方面的问题:其一,尽量减少I/O操作的次数,这主要是由于数据挖掘过程中的数据量是非常大的,因此频繁的进行I/O操作将会对数据挖掘的效率产生很大的影响,其根本的方法就是减少对于数据库集的扫描频率和次数;其二,避免候选集中项的数量过大,这主要是由于过多的项数将会使得存储空间被大量占用,从而对数据挖掘的效率产生影响。

2.2基于数据挖掘技术的医院信息管理系统的实现

数据准备阶段。在研究过程中采用某医院信息管理系统中的口腔溃疡数据进行挖掘分析,其中数据准备阶段主要包括集成、清洗以及转换三个阶段。具体而言,数据集成主要是将不同的患者数据表格及其费用数据整合到一起,并且对这些原始数据进行集成,将其集成到统一的数据表格中,其中主要包含患者的性别、年龄以及编号等信息。数据清洗指的是对原始数据进行进一步的处理,其目的是去除原始数据中的噪声以及不相关信息、补充遗漏数据、去除白噪声等,并且根据实际情况完成对原始数据的转换。同时,由于医院信息数据存在着其特殊性,医院的数据往往产生于不同的场所,因此其产生的过程较为复杂,这就极易导致数据产生的过程中出现遗失或者出现数据错误的情况,因此数据清洗阶段对于医院数据挖掘工作是至关重要的,同时为了更好的保证数据清洗阶段的准确性可以实行专业医护人员监督的模式,此种模式可以有效的降低数据清洗过程中的差错。数据转换是针对数据的不同特征对数据进行有效的转换,其中主要的手段包括对数据的规格化处理、数据信息归纳、旋转等。结合实际的医院信息管理系统数据挖掘案例,可以对年龄数据信息进分段编号处理,以更好的提高数据挖掘的效率。同时,在数据转换的过程中还可以将一些没有意义的数据进行删减,以更好的保证数据挖掘的效率,同时还可以降低数据挖掘的误差。

3结束语

现代化医疗事业发展关系到国计民生,在我国的社会主义发展过程中占到举足轻重的位置。而信息化程度的提升对于推动现代化医疗事业发展具有十分重要的意义,基于数据挖掘的医院信息管理系统能够有效的提升医院资源配置水平、提升医院效益。

作者:沈旴亮单位:南京医科大学附属南京妇幼保健院

第6篇

1分类。分类技术可解决事件的归类问题,在应用时,不仅可以完成数据分析的任务,还能对未来的数据类型进行必要的预测,比如,充分运用分类技术对客户的具体倾向进行预测,确定客户是否对相关研究感兴趣,该技术方法也可应用在医疗领域,针对患者的病情,通过分类技术选取适宜的药物。

2回归。回归技术的核心为已知变量的数值,在此基础上,对其他种类的变量实施必要的预测。在一般条件下,回归技术充分发挥了线性回归的实际效果,但从现实的角度讲,并不是所有问题都能用基本的线性回归进行分析和解决的,为了更好的适应这些实际的问题,相关人员对此也正在着手研究全新的方法,并已取得了显著的效果,许多新型分析方法应运而生,比如逻辑回归以及神经网络等。

3时间序列。时间序列技术实际上就是以过去的变量为基础,分析和预测下一阶段变量的方法。与回归技术相同,同样都是运用现有的组员完成预测任务的,但资源的时间序列是存在一定差异的。时间序列技术通常是在完整的时间流中截选一个时间区间,对应数据形成一整套单元,最后将此单元在时间流上进行滑动,从而获取训练集。

4描述型。图形与可视化工具是十分重要的,是相关人员完成快速分析任务的重要手段之一,改善了传统数据的枯燥与乏味,不仅实现了数据整体的分析,还能对其中的每一个细节实施细致的观察与分析,在图形模式的支持下,人们可以更容易的了解到数据信息中潜在的相互关系和模式。

5关联分析。关联分析技术是指在数据库中快速获取数据的相关性。较为常用的技术方法主要有两种,分别为关联规则与序列模式,其中关联规则是在相同时间中存在的不同项之间的相关性,而序列模式的研究对象主要为具体的事件。

6聚类。聚类技术实质上就是数据库的分类,组间差别尽可能的明显,而同一组内的数据要尽可能的相似或相同。聚类技术与分类技术存在很大的区别,在实施聚类以前,并不了解数据组的具体数量,分组的方法和依据也不知晓,所以在聚类完成以后,需要得到专业人士的分析和解释。

二、经济普查的根本目的与重要意义

1.根本目的。经济普查是为了充分了解我国产业现阶段发展的具体规模和实际效益,并创建完善的基本单位数据库和对应的管理系统,为社会可持续发展方针的落实奠定坚实的基础,同时也为国民经济的快速发展献计献策。经济普查的基本目标是了解情况,建立相应数据库则是必要的手段,最终目的是促进我国国民经济的快速发展与壮大。

2.重要意义。经济普查数据信息属公共产品范畴,既是党和政府认识我国基本国情的重要依据,也是判断各行业发展与走向的有效方法。经济普查的全面开展与落实,可以为广大人民群众开创更多的就业渠道,改善人们的生活质量,使国民经济的改革与建设更加完善与全面。

三、经济普查数据挖掘方法的应用

1.注册服务器。在经济普查中运用书库挖掘方法,首先应注册服务器。分析服务器是数据分析的主体,有着不可取代的作用,因此分析服务器一般为首要的注册对象,其他种类的注册对象都是它的一部分。通常情况下,分析服务器名称要与对应网络名称保持一致。

2.创建数据仓库。在分析服务器注册完成以后,即可在该服务器的基础上建立各类数据库,由于数据库中还缺乏具体的对象,因此可认定该数据库为空。为了使其发挥出更好的挖掘效果,还需充分考虑实际情况,创建适宜的研究对象。在计算机硬盘中寻找对应的安装目录,并在下分的子文件找到并观察经济普查工作的数据库,确定文件的实际大小,在文件中存在数据库操作方面所需的文件,这些文件主要以事件日志及数据的方式存在,且初始物理大小均为1M,在运行时一般以10%的速度增长。

3.建立索引。在上述操作完成以后,即可建立经济普查相关的数据库,但数据库本身只是一种数据信息的存储单元,想要使其发挥出最佳的效果,还需在数据库的基础上建立数据表,并建立与SQL操作所对应数据源,实际情况中满足选取条件的数据源有很多种,由于该操作事先已经完成了数据表的建立,所以该数据库中的数据类型仅有SQL这一种形式。

4.连接数据源。一般而言,数据库创建完成以后的首要建立目标为数据源,数据源在数据库中具有指定源数据的作用,数据库的基本数据类型有很多种形式,为了满足数据库使用的基本需求,可在同一种数据库中设置多种数据源。连接数据源是为了让数据挖掘更好的进行,在数据源连接完成以后,可在相关软件的支持下,完成数据挖掘的各项操作。

四、结语

第7篇

1.1较高的有效性数据挖掘技术作为一种数据的深加工技术,其本身是带有鲜明的目的性的,在实际应用活动中能够对长时间积累下来的经济统计数据进行基于数据使用者要求的深入加工。在实践应用活动中主要有两种重要的应用形式,一种是对积累经济统计数据的管理高效化处理,一种是对现有经济数据的目的性分析。其中第一种分析方式是从经济数据管理的角度出发的,在应用中主要是以固有数据信息的统计、分类为基础,将原本混乱的数据库信息进行科学、系统的归类,保证统计数据管理的高效性和使用的便利性。另一种工作方式是一种经济数据的再加工过程,以鲜明的数据统计、分析目标为指引对原有数据的呈现形式、组成内容和关联形式进行重新加工,以保证经济统计数据能够最大限度地服务于管理者的需求。

1.2综合应用性强如前文所述,数据挖掘技术是一个工具系统而不是单一的工具,能够实现使用主体的各种信息需求,随着现代社会经济的快速发展,当前我国经济管理的各个部门都需要大量的经济统计信息来作为经济管理决策的基础。但是因为各个管理部门经济管理的领域不同、经济管理的方式不同、经济的管理权限不同,所以相应的经济统计数据呈现形式的需求就不同。这就为经济数据统计系统提出了更高的要求,其不仅要对符合各个经济管理部门需求的数据内容进行统计,同时要将统计完成的数据换算成各种不同的呈现形式,并根据统计信息的来源和统计信息的计算方式对其可靠性进行评估[2]。最终这些数据信息的输出格式还应该符合所服务的经济管理部门管理系统的格式要求,保证统计数据能够在管理部门的管理系统中正常录入、应用,数据挖掘技术很好地满足了上述的复杂经济数据管理要求,其功能的综合性促进了其应用深度的提高和范围的扩大。

1.3宏观数据库有利于数据挖掘技术的应用当前因为经济管理部门的职权较为分散,各个经济管理部门的经济统计数据需求不尽相同。所以我国的经济统计活动绝大多数还采用传统的经济统计方法,统计收集的经济信息存在一定的局限性,不能够服务于经济管理活动的整体,或者造成一些数据统计工作的重复,对经济数据统计工作造成了一系列的质量和效率上的影响。经济数据统计活动急需一个能够整合各个统计系统,实现统计数据信息融合的新技术。宏观经济统计数据库为数据挖掘技术的开展提供了平台,数据管理系统的经济统计信息要正确无误,然后经过数据挖掘技术的整合,就能得到更加丰富的数据资源[3]。

2数据挖掘技术的应用

在社会经济管理活动中,管理主体对经济统计数据的要求主要有两个。一个是统计数据的真实性、一个是数据统计信息的实用性。单就这两个经济统计数据要求而言,数据挖掘技术能够很好地满足经济统计工作的需求,是适用性极强的一种经济数据统计技术,其在具体的经济数据统计活动中主要有以下三种应用方法。

2.1预处理方法在经济数据统计活动中,最为基础的一种处理方式就是经济数据的预处理方法,因为数据挖掘本身是一种基于提供基础信息的智能分析技术。其本身是受基础经济信息限制的,不可能无中生有代替经济数据收集系统的功能。所以所有作为数据挖掘系统数据基础的经济统计数据信息都应该进行预处理,处理的内容主要包括对这些数据中不正确、不真实、不准确,以及不同经济统计数据信息之间差距较大的现象。对这些基础数据存在的问题进行处理的过程被称为数据清理,当前数据清理主要采用的方法有均值法、平滑法和预测法。其中均值法是现代分析技术中模糊理念的一种应用形式,当基础数据中的一个数据点是空值或者噪声数据的时候,可以采用均值法进行处理,即用数据库中所有该属性已知的属性均值来填补空缺。保证数据挖掘系统对基础数据的分析和整理能够正常进行,得出相对而言准确度较高的统计分析数据。其中Ci表示当前数据点的取值,Cj表示当前数据点前后不为空的数据点,K表示当前数据点进行计算所取的参考数据点数量[4]。平滑法依然是对基础数据中空值和噪声数据的计算方法,其与均值法的区别是用加权平均数代替了平均数,考虑了计算过程中提取的每一个数据对数据结果的影响权重,所以计算出的结果往往更加接近真实的数值。其中Ci表示当前数据点的取值,Cj表示当前数据点前后不为空的数据点,K表示为对当前数据点进行计算所取的数据点数量。WJ表示Cj数据点的权值。

2.2集成化处理方法在数据挖掘技术的应用活动中,因为相同地区的数据统计主体不同,或者在不同地区对相同经济数据的统计标准不统一,会产生一系列的数据集成问题,如何对这些调查方向不同或者是呈现方式不同的数据进行有效集成而不影响经济数据统计的准确性,是数据挖掘技术的重要任务。在具体的数据集成过程中主要考虑以下几个方面的问题[5]。

2.2.1模式集成当前因为社会经济活动中经济数据的统计内容过于广泛,很多经济数据统计并不是来自于官方的统计局而是来自一些民间统计组织,或者是由一线社会经济主体直接提供的经济数据,在数据挖掘过程中将这些来自多个数据源存在多种数据呈现模式的经济数据信息进行集成就涉及实体识别的问题。例如在数据挖掘过程中如何确定一个数据库中“std-id”与另一个数据库中的“std-no”是否表示同一实体,当前一般使用数据库与数据库之间的含元数据对比来保证实体识别高效率和高质量[6]。

2.2.2冗余问题数据挖掘本身是对经济统计数据的一种深加工技术,经过其加工的经济统计技术应该在本质上达到最简状态。在数据挖掘过程中要将与其他数据呈现某种正相关关系的数据项目进行精简,以保证数据库中数据量维持在一个较低的水平,为数据管理和应用提供便利。在经济数据挖掘活动中人均国民生产总值就是典型的冗余属性,因为其数值是可以通过国内生产总值和总人口属性计算出来的,所以类似人均国民生产总值这种冗余属性在数据挖掘过程中就应该精简,应用的时候在利用国民生产总值和人口属性计算得出[7]。对冗余属性的判断主要通过相关度对比来实现。其中n表示元组的个数,分别是属性A和属性B的平均值,分别是属性A和属性B的标准方差,在这一公式中如果则表示A、B两个属性是正相关,也就是说A越大B就越大,值越高二者的正相关关系就越密切;如果则表示属性A、B之间没有直接关系,是相互独立的;如果则表示A、B两个属性呈负相关,属性B会随着属性A的减小而增大,的绝对值越大,二者的负相关关联关系就越密切。

2.3决策树方法在数据挖掘技术应用过程中,经过系统的分析和总结以后,分析数据的输出是一个关键的环节,其输出的数据形式会对使用者的经济管理决策产生直接的影响。决策树是一种较为常见的、直观的快速分类方法。其应用的关键是决策树的构建,具体而言主要分为两步:第一步是利用训练集建立并精简一棵决策树,建立输出分析的模型;第二步是利用构建完毕的决策树进行输入数据的分类,这一分类是一个递归的过程,从决策树的根部开始进入到树干、枝丫,直到输入数据的分类满足了某种条件而停止。在具体的应用中停止分割的条件有两个:一个是当一个节点上的所有数据都属于同一个类别的时候;另一个是没有分类属性可以对输入数据进行再分割[8]。在决策树构建完成后,还要根据使用者的具体要求对决策树进行“剪枝”,剪枝的主要目的是要降低因为使用训练集而对决策树本身数据输出产生的起伏影响。

3结语

第8篇

关键词:数据挖掘电子商务数据库

一、引言

电子商务是指以Internet网络为载体、利用数字化电子方式开展的商务活动。随着网络技术和数据库技术的飞速发展,电子商务正显示越来越强大的生命力。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润。利用数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,发现隐藏在其后的规律性,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务。

二、数据挖掘技术

1.数据挖掘

数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科,它汇聚了不同领域尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用,如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯分析等。

2.数据挖掘过程

挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。

(1)数据预处理。实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。

(2)模式发现。模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。

(3)模式分析。模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。

三、电子商务中几种常用的数据挖掘方法

1.关联规则

关联规则是数据挖掘研究的主要模式之一,侧重于确定数据中不同领域之间的关系,找出满足给定条件下的多个域间的依赖关系。关联规则挖掘对象一般是大型数据库,该规则一般表示式为:A1∧A2∧…Am=>B1∧B2∧…Bm,其中,Ak(k=1,2,…,m),Bj(j=1,2,…,n)是数据库中的数据项。有Support(A=>B)=P(A∪B),Confidence(A=>B)=P(A|B)。数据项之间的关联,即根据一个事务中某些数据项的出现可以导出另一些数据项在同一事务中的出现。关联分析的目的是挖掘出隐藏在数据间的相互关系。关联规则用于寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。关联分析的典型例子是购物篮分析,描述顾客的购买行为,可以帮助零售商决定商品的摆放和捆绑销售策略。如著名的(面包+黄油牛奶)例子就属于关联分析:在超市中,90%的顾客在购买面包和黄油的同时,也会购买牛奶。直观的意义是:顾客在购买某种商品时有多大的倾向会购买另外一些商品。找出所有类似的关联规则,对于企业确定生产销售、产品分类设计、市场分析等多方面是有价值的。

2.聚类分析方法

类聚分析就是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质差别较大的分在不同的类。对变量聚类计算变量之间的距离,对样本聚类则计算样本之间的距离。它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能大。

聚类分析用于把有相似特性的客户、数据项集合到一起。在电子商务中,聚类分析常用于市场细分。根据已有客户的数据,利用聚类技术将市场按客户消费模式的相似性分为若干细分市场,以进行有针对性的市场营销,提供更适合、更满意的服务。如自动给一个特定的客户聚类发送销售邮件,为一个客户聚类动态地改变一个特殊的站点等。通过对聚类的客户特征的提取,电子商务网站还可以为客户提供个性化的服务。

3.分类分析

分类系统是基于遗传算法的机器学习中的一类,它包括一个简单的基于串规则的并行生成子系统、规则评价子系统和遗传算法子系统。分类系统正在被人们越来越多地应用于科学、工程和经济领域中,是目前遗传算法研究领域中一个非常活跃的领域。

分类分析是数据挖掘中应用最多的方法。分类要解决的问题是为一个事件或对象归类,既可以用于分析已有的数据,也可以用来预测未来的数据。分类通过分析已知分类信息的历史数据,总结出一个预测模型,预测哪些人可能会对邮寄广告、产品目录等有反应,可以针对这一类客户的特点展开商务活动,提供个性化的信息服务。

4.序列模式

序列模式挖掘就是要挖掘出交易集之间有时间序列关系的模式。它挖掘的侧重点在于分析数据间的前后或因果关系,找到那些“一些项跟随另一些项”,以预测未来的访问模式。序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A-B-C出现的频率较高”之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要有用户输入最小置信度C和最小支持度S。

序列模式便于进行电子商务的组织,预测客户的访问模式,对客户开展有针对性的广告服务或者主动推荐客户感兴趣的页面,以满足访问者的特定要求。

四、结束语

第9篇

1数据挖掘技术

常见数据挖掘技术包括:分类树技术、关联发现技术、聚类技术、人工神经网络、最优集合规约技术以及可视数据挖掘技术等。软件度量数据往往具有多维度、高耦合性,软件工程数据挖掘中会采用一些特殊处理技术,包括统计分析、回归建模、分类树以及神经网络等。在具体软件工程实践中,选择何种挖掘技术,其决定性因素为想要达成的目标。

2数据挖掘实现过程

通常,数据挖掘过程包括4个步骤,即选择数据、预处理、实施挖掘以及吸收数据。数据挖掘整个过程具有交互性,有时数据需要重新选择,有时也要对数据预处理进行改进,也可能出现算法反复被调整现象,基于这种特征,数据挖掘时要设置反馈环。挖掘数据第1步是将管理和目标反映到1个(或多个)挖掘任务中,整个过程可主要划分成为六种:1)评估、预测。评估包括对软件产品、过程以及资源的属性进行相应检查就是整个评估过程,同时也需要根据这些属性,赋值给未知属性,当然这些未知属性需要进行量化。评估工作完成后,要对属性值进行预测。2)分类。检查1个特定实体属性,根据结果将其划分到另1个类别或范畴(事先定义好)中。3)关联发现。关联发现能够识别出特定内容中互相存在关联某些属性。如,可将找出在软件开发属性和产品属性相互关联的内容找出来。4)聚类。将1个结构不相同的群体划分到另1个具有相同结构的子群集合中,这个过程叫做聚类,它的划分依据是成员之间具有高度相似性。5)数据可视化。数据可视化是利用可视化描述方法来定义复杂信息。6)可视数据探察。可视化数据探察是对描述工作的相应拓展,可利用数据可视化交互控制来分析和检视海量数据[3]。它应用具有可视化功能和数据挖掘技术来对数据进行处理。

3挖掘技术在软件工程中应用

上文提及到软件工程度量,部分可利用信息已在海量数据中被提取出来,但普遍认为更为有效且数量众多的数据依然在软件工程相关数据库中隐藏,而没有被发现。实际上,数据挖掘就是1种被公认为提升软件工程度量的技术。图1为数据挖掘在软件工程中的应用。

3.1数据挖掘繁荣原因1)计算机硬件系统和软件系统的基础设施建立具备发现驱动、分析数据等功能;2)每种技术都在实际应用中不断得到改进,其使用能力不断提升。如,模式识别、神经网络等有明显进步趋势;3)数据存储、贮藏、集成成本不高,海量数据可轻松获得。数据挖掘技术被人们认识,并在实践中逐渐被重视,同时也给研究和进一步提高数据挖掘技术提供了便利条件。

3.2面临挑战软件工程自身存在很多数据上的特殊性,给数据挖掘领域研究工作带来制约和影响,主要表现在以下三个方面:1)数据复杂。软件工程数据主要分为两个组成部分,即结构化数据、非结构化数据。结构化数据主要包括缺陷报告、版本信息等内容,而非结构化数据则包含数据代码、相应注释以及文档等内容。结构化数据、非结构化数据并不能同时适用一种算法,而且两种数据间还存在对应联系。如,1个缺陷报告中往往包括缺陷代码段。而结构化数据里常常涵盖部分非结构化信息,非结构化数据中亦是如此,这也是今后工作中需要重点解决的问题之一。2)非传统分析存在局限。数据挖掘最终想实现的目标就是将转化而来的信息传达给用户,实现信息共享。传统数据挖掘技术在使用过程中,信息手段比较单一,如文字、图表等表达形式。其实,软件开发商对信息的要求很高,1个统计结果根本不能满足其工作需求。为促进软件开发不断向上发展,开发人员需要相关信息作为参考依据,包括开发实际案例、编程所需模板、系统缺陷定位以及软件结构设计等。研究数据挖掘技术,提升其实际使用功能,需要不断提交新信息、新知识,并改进相应手方法。3)挖掘结果评价标准不够具体。软件工程数据挖掘尚未形成完善的结果表示体系,其评价体系也有待加强。人员在软件开发过程中需要大量信心,这些信息非常具体且复杂,表示方法不尽相同,互相之间难以做出对比,也很难用定量方法去分析挖掘结果。

4结束语

“数据挖掘”是在发展过程中被人们定义的,但软件工程中对此类数据的研究早就存在。数据挖掘技术能够为研究软件工程数据提供方便,具有重要应用价值。因此,笔者认为将两者充分结合是计算机信息技术发展的必然趋势。若以过程角度来看,软件工程涉及到数据挖掘各个周期、阶段,甚至是具体实施步骤;以技术角度看,数据挖掘在软件工程中应用广泛。数据挖掘技术虽然在实践中取得一定应用效果,但还有更广阔的空间没有内充分挖掘出来,为广大从业人员提供创新空间。

作者:贺玮单位:同济大学软件学院

第10篇

1.1安全技术资金不足

煤炭的持续开采会受到地质条件的直接影响,过去国家投入众多的设施,使用至今均已出现老化,并且维修量非常大。随着矿井的不断延深,矿压极度强化,巷道的维修任务更是不断的增加,矿井的供电以及通风、提升与排水等都不能适应生产的需要。

1.2安全管理模式传统

与西方发达产煤国家相比较,我国的煤矿使用技术研究起步很晚。并且人力、财力非常缺乏,某些重大的安全技术问题,比如冲击地压以及煤和瓦斯的突出、地热以及突水等灾害不能进行有效的预测和控制。且受到以往传统运营思想的直接作用与影响以及各个企业的经济实力的约束,我国的煤矿生产装备和安全监控设施相对落后。井巷的断面设计以及支护强度的确定、支护材料的型号选择较小。生产设施功率以及矿井的供风量等富余参数非常低,极易出现事故。绝大多数的煤炭企业还是利用以往传统的安全管理模式,各种报表计算仍是靠人工劳动并且精确度很低。信息传送的时间较长,且速度较慢,管理者的工作重复性很大,资料查询十分困难,并且工作效率很低。安全检查以及等级鉴定等总是凭借主观意念以及相关的经验。

1.3安全信息管理体制不健全

安全信息可以说是安全管理工作的重要依据,它主要包括事故和职业伤害的有效记录与分析统计,职业的安全卫生设施的相关研究与设计、生产以及检验技术,法律法规以及相应技术标准和其变化的动态,教育培训以及宣传和社会活动,国内的新型技术动态以及隐患评估与技术经济类分析和咨询、决策的体系。信息体制的健全是安全体制工程以及计算机技术的有效结合,可促使安全工作转型为定性和定量的超前预测,不过大多数矿井还是处于起步与摸索阶段,并未呈现出健全的体制,真正的使用还有待进一步的发展。

2空间数据挖掘技术

数据挖掘研究行业的持续进展,开始由起初的关系数据以及事务数据挖掘,发展至对空间数据库的不断挖掘。空间的信息还在逐渐地呈现各类信息体制的主体与基础。空间数据是一项非常关键的数据,具有比普通关系数据库和事务数据库更丰富、复杂的相关语义信息,且蕴含了更丰富的知识。所以,虽说数据的挖掘最初是出现在关系数据挖掘以及事务的数据库,不过因为空间数据库中的发掘知识,这就很快引起了各个研究者的关注与重视。很多的数据挖掘类研究工作都是从关系型以及事务型数据库拓展至空间数据库的。在地学领域中,随着卫星以及遥感技术的不断使用,逐渐丰富的空间以及非空间的数据采集与储存在较大空间数据库中,大量的地理数据已经算是超过了人们的处理能力,并且传统的地学分析很难在这些数据中萃取并发现地学知识,这也就给现阶段的GIS带来了很大的挑战,急切的需要强化GIS相应的分析功能,提升GIS处理地学实际状况的能力。数据挖掘以及知识发现的产生能满足地球空间的数据处理要求,并推进了传统地学空间分析的不断发展。依据地学空间数据的特性,把数据挖掘的方式融进GIS技术中,呈现地学空间数据挖掘和知识发展的新地学数据分析理念与依据。

3煤矿安全管理水平的提升

3.1建设评价指标体制库

评价指标体制库是矿井的自然灾害危害存在的具体参数式的知识库。模型的组建务必要根据矿井的瓦斯以及水害等自然灾害危害呈现的不同指标体制和其临界值构建一定的指标体制库,危害的警报识别参数关键是采掘工程的平面图动态开采面以及相应的巷道。各种瓦斯的危害以及水害隐患和通风隐患均呈现一定的评价指标库。

3.2构建专业的分析模型库

依据瓦斯以及水害等诸多不同的矿井自然灾害类别构建相关的专业性模型库,比如瓦斯的灾害预测,应根据矿井的地质条件以及煤层所赋存的状况构建瓦斯的地质区分图,再根据采掘工程的平面图动态呈现的采掘信息以及相应的瓦斯分区构建关联并实行相应的比较分析,确定可以采集区域未来的可采区域是不是高瓦斯区域。

3.3构建以GIS空间分析为基础的方法库

GIS空间分析可以说是矿井自然灾害的隐患高度识别的关键性方式,并且还是安全故障警报的主要路径。比如断层的防水层的有效划分,关键是根据断层的保安煤柱来实行可靠的确定。断层的保安煤柱确定可以利用GIS缓冲区域的分析得到。空间的统计分析以及多源信息有效拟合和数据挖掘亦是瓦斯和水害等安全隐患监测经常使用GIS空间分析方式,如物探水文的异常区域确定以及瓦斯突出相应的危险区域确定。

3.4决策支持体制与煤矿管理水平

评价指标体制库以及模型库、方式库与图形库均是矿井的自然灾害隐患识别和决策的最基础。利用矿井的自然灾害隐患识别决策来支持体系具体的功能呈现矿井的自然灾害隐患识别以及决策分析,在根源处提高煤矿的安全管理水平。分类构建矿井的自然灾害实时监控体系,进行动态跟踪相应的灾害实时数据,并事实呈现矿井的自然灾害数据或是信息和自然灾害的指标体系库以及模型库与知识库、空间数据库的合理化比较,并运用图形库的数据再通过GIS空间分析方式来确定安全隐患的,矿井自然灾害的隐患实时警报并进行决策分析,以提交空间数据的自然灾害隐患识别以及分析处理的决策性报告。

4结语

第11篇

关键词:远程开放教育,数据挖掘,应用,智能化

 

1 前言

现代远程开放教育的全过程基本上都是通过浏览网站的形式进行的,学生在Web上的行为都会产生大量的信息,这些信息在远程教育的全过程中十分宝贵,充分挖掘这些信息及其背后潜在的信息,反馈来指导远程教育中的各个环节,以此来为学生提供个性化的服务内容,增强远程开放教育的竞争力。利用数据库技术来存储管理数据,利用网络和计算机学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识,即数据库中的知识发现---KDD(Knowledge Discovery in Databases),其中,数据挖掘技术便是最为关键的环节。论文参考网。基于远程开放教育将是当前和未来教育的重要辅助系统,本文提出并介绍信了把数据挖掘技术应用于现代远程开放教育系统中。

2 数据挖掘概述

2.1数据挖掘(DataMining)定义

数据挖掘就是从大量存储的数据中,利用模式识别、统计和数学的技术,筛选发现新的有意义的关系、模式和趋势的方法。就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它主要依靠人工智能、机器学习和统计学技术,对数据进行归纳推理,从中挖掘出潜在的模式,预测未来趋势,为决策提供支持。

2.2数据挖掘的主要任务

(1)关联分析。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分析的目的是找出数据库中隐藏的关联网。

(2)聚类分析。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。

(3)分类。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息。

(4)预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。

(5)时序模式。时序模式是指通过时间序列搜索出的重复发生概率较高的模式。它是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

(6)偏差分析。在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

2.3数据挖掘对象

根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。

2.4数据挖掘技术实施的步骤

(1)确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有评价,并以用户能理解和观察的方式将发现的知识呈现给用户。

(2)数据准备。这个阶段的工作包括数据集成、数据选择、预分析和转换。要对Web服务器上的数据进行挖掘,必须研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。

(3)数据挖掘。这个阶段就是利用数据挖掘工具对经过转换的数据进行挖掘和发现知识的过程。不同的数据挖掘工具有不同的算法,面向不同的分析需求,并且当具体使用操作时,也在一定程度上受到数据分析人员的思维方式和行为习惯的影响。数据挖掘利用人工智能领域中一些已经成熟的算法和技术。如:人工神经网络、遗传算法、决策树方法、邻近搜索算法、规则推理、模糊逻辑、公式发现等来进行数据的挖掘。

(4)结果分析。论文参考网。数据挖掘的结果由分析人员根据发现知识的领域重要性、可信度和支持度等阀值来对发现结果进行评价,并以用户能理解和观察的方式将发现的知识呈现给用户。通常会用到可视化技术。

(5)知识的同化。将分析所得到的知识集成到业务信息系统的组织结构中去。

3 现代远程开放教育系统简介

远程开放教育系统能实现个性化学习、实时教学、实时考试和智能答疑。为每一个接受网络远程教育的学习者提供个性化的学习进程。能根据与当前学习者相类似的学生的学习模式自动地对其后继知识的学习进行预测以及合理推荐,并对学习者的学习过程进行分阶段的评价,依据其绩效信息动态调整其学习难度、练习与测试内容,对学生提出的问题实现智能化答疑,对该学习者薄弱环节进行有效指导,做到因材施教和全天候学习。

远程开放教育系统由用户系统、WEB服务器、应用服务器、数据服务器、用户数据库和资源数据库组成。

用户系统用于实现远程开放教育系统的显示功能,其功能是:实现信息的和接受,管理员通过它来实现系统的管理、更新、维护等,主要是通过XML语言和HTTP协议实现WEB浏览器与WEB服务器的链接和信息通讯。WEB服务器用于完成远程开放教育系统的事务处理,用于处理学习过程中的各种事务。应用服务器直接为WEB服务器提供相关服务,处理WEB服务器以及XML文档组成的用户的事务请求信息。论文参考网。数据库服务器用于完成数据处理,为应用服务器提供相关服务,完成数据查询、修改和更新等服务,并把运行结果反馈给应用服务器。资源数据库中主要由远程开放教育系统中要使用的课件库、答疑库、作业库、试题库和必要的超级链接等构成。用户数据库主要用于存储远程开放教育系统中要使用的的注册档案、用户目前的学习内容、学习进展、作业情况和考试情况等信息。

4 数据挖掘技术在远程开放教育中的应用

现代远程开放教育是随着现代信息技术的发展而产生的一种新型教育形式,其基本特征是利用计算机网络和多媒体技术,提供丰富的教学资源供学习者选用,教学形式由原来的以教为主变为以学为主。数据挖掘技术在现代远程开放教育中的应用主要有以下几方面:

(1)在个性化学习方面的应用

由于每个学习者的知识背景、学习习惯和学习目标都不一样,故个性化学习在远程开放教育中就显得非常重要。为了实现此功能,基于WEB的智能远程开放教育系统首先要根据学习者的特点和学习目标来收集学习者的数据信息,然后对收集到的信息进行预处理,再应用一种合理的挖掘算法或综合应用不同的算法,如关联规则分析、聚类和分类技术、统计分析以及时序模式技术等,来处理此数据,最终发现用户的访问模式,但是通过模式挖掘后,生成的规则数目大、表达晦涩且不好用,这时就需要用到智能查询机制、可视化和联机分析等技术对模式进行分析评价,经过模式分析和应用技术处理后,选择一种学习者易于理解和接受的表达方式将知识数据显现出来。利用数据挖掘与学习内容绑定的技术,系统就可以以可视化方式来指导学习者学习和个性化发展,这样系统就实现了个性化学习功能。

(2)在资源库建设方面的应用

资源库建设在整个系统中至关重要,为了建立覆盖面广、功能齐全的资源库,我们就必须编制信息资源目录,征集种类资源信息,并进行资源、资源信息筛选、资源信息整理和存储;同时按学科门类建设积件库。当老师在系统内制作课件,为了有针对性和避免重复,我们可以对所有学习者已选的课程进行聚类,并通过聚类学习算法来自动确定每门课程的类别标记。接着利用数据挖掘中的关联规则,估计出一组相关同位类课程,再利用泛化关联规则,找到其上位类课程,或利用序列模式,预测出与之有关的学生未来可能选择的同级课程,最后围绕学习者的需求权限进行课程设置。

(3)在实时教学方面的应用

在本系统中,由于引入了互联网技术、人工智能技术、数据库技术和知识发现技术,通过机器学习、统计分析等方法设计出了个性化处理引擎,从大量的数据中进行数据挖掘,提取有用的、潜在的信息。学生可以通过网络实现每天24小时的学习,而且本系统可以更多且及时的了解到学生的学习学习进度、需求、能力、兴趣爱好等方面的信息,并动态地根据这些信息调整学习计划和进度,让学生得到针对其“个性”的教育,实现因材施教。

(4)在智能答疑方面的应用

基于WEB的远程教学系统中的智能答疑系统只要用户能上网,就可解答学生在学习过程中产生的问题。它能根据学生用户访问日志、问题记录等数据进行数据挖掘,用智能抽取的方法实现智能答疑。从用户访问日志和提问信息里面可以分析出学生的行为。智能答疑系统后台存储了大量的由经验丰富的教师精心挑选的问题答案,对于用户提出的问题.系统首先通过对问题的分析自动在数据库中寻找最适合的答案。这样通过数据挖掘,针对学生用户提问记录、日志不断更新和调整学生用户知识库,使问题的回答更加精确。

(5)在实时考试方面的应用

本系统的实时考试系统是一个基于数据库和WEB的远程在线式实时的测试系统。它能考虑个别学习者的能力和特性,按照考试的目的和必要性,提供各种问项信息,如难易程度、辨别程度等。并且还能同步打分,提供成绩进展情况,根据个人特性解释问题,按个人及科目对考试结果进行各种统计分析和评价,并存入学生用户数据中。这些功能的实现是由于系统采用关联规则、聚类和分类工具对数据库中抽取的数据进行处理,分析出学生的特性及其对课程各知识点的掌握程度,并结合学生的考试目的恰当地反馈给学生,这样提高了学生学习的效率。

5 结束语

在现代远程开放教育网站设计中,基于XML(ExtensibleMarkup Language,可扩展标记语言)的新一代系统设计环境,可以更好地描述半结构化和结构化的数据,更有利于进行数据搜索和挖掘。如何整合XML和Web服务技术,以此为契机开展数据挖掘和知识获取,在现代远程开放教育网站的设计中以学习者为中心,提供一种基于资源的学习,教学资源可以适应各种学习者的需要和背景进行不同的组合,提供更加优良的、个性化的服务。

参考文献:

[1]李爽,陈丽.国内外网上智能答疑系统比较研究[J].北京,中国电化教育,2003(5)

[2]苏新宁.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003

[3]赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2000,(6)

[4]周云真,舒建文,王平根.据挖掘在基于WEB的智能远程教育系统中的的应用[J] .南京:文教资料,2006(10)

第12篇

摘 要 数据挖掘面对海量数据信息进行选择与运用,在软件工程快速发展的潮流中具有举足轻重的作用。数据挖掘应对数据丰富而知识匮乏的挑战,着眼于数据实用性对软件工程知识库的数据进行深度挖掘。关键词 数据挖掘 软件工程 技术中图分类号:TP311

文献标识码:A

计算机领域新技术应用使各行业生成、收集和存储了大量数据。大量信息数据给社会带来方便也带来大堆问题:信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致而难以统一处理。一般数据库系统可高效实现数据录入、查询与统计等功能,却无法发现数据存在的关系和规则。如何辨析信息和如何不被信息淹没已经成为现实问题。一、数据挖掘直面数据丰富而知识匮乏的挑战

面对信息社会带来的“数据丰富而知识匮乏”的现实挑战,数据挖掘(Data Mining,DM)和知识发现(Knowledge Discovery,KD)技术应运而生,伴随计算机新技术和新理论的出现而发展,在电信与银行,生物及大型超市等领域运用效果显著。数据挖掘有时又称作数据库知识发现(KDD),此术语出现于1989年,从数据集识别有效与新颖的,潜在有用的,最终可理解的模式过程。KDD过程常指多阶段处理,包括数据准备与模式搜索,知识评价及反复修改求精;该过程要有智能性和自动性。有效性指发现新数据仍保持可信度,新颖性要求模式应是新的,潜在有用性指发现的知识将来有效用,最终可理解性要求发现模式能被用户所理解,几项综合在一起称为数据的科学性豍。

数据挖掘的界定。数据挖掘是从存放在数据库与数据仓库或其它存储信息库中的海量数据挖掘有趣知识过程。一般的定义是:数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中抽取隐含其中,事先不为人所知、潜在、有效、新颖、有用和最终可理解知识的过程。研究人工智能学术人员和计算机技术专家通常所说数据挖掘名称各异但实质一样。自然世界数据以多种多样形式存放,除最常见数字与字符等类型,还有许多复杂数据。复杂类型数据挖掘包括:空间数据挖掘和多媒体数据挖掘,时序数据挖掘和文本数据挖掘,Web数据挖掘与流数据挖掘等。数据挖掘与传统数学统计分析有区别,数据挖掘在没有明确假设前提下自动建立方程,可采用不同类型如文本、声音、图片等的数据挖掘兴趣模式;统计数据分析工具侧重被动分析,需建立方程或模型来与假设吻合,最终面对数字化数据;数据挖掘是主动发现型与预测型数据分析工具,分析重点在于预测未来未知潜在情况并解释原因。二、软件工程的产生与数据实用性

软件工程概念源自软件危机,20世纪60年代末的“软件危机”这个词语频繁出现计算机软件领域,泛指计算机软件开发和维护所遇到的系列严重问题。在软件开发和维护过程中的软件危机表现为软件需求的增长得不到满足,软件开发成本和进度无法控制,软件质量难保证,软件维护程度非常低,软件成本不断提高,软件开发生产率赶不上计算机硬件发展和各种应用需求增长等。软件危机产生的宏观原因是软件日益深入社会生活,软件需求增长速度超过软件生产率提高,具体软件工程任务的许多困难来源于软件工程所面临任务和其他工程之间各种差异以及软件和其他工业产品的差异,即特殊性。软件开发和维护过程存在的问题,与计算机软件本身特点有关,软件开发过程进度很难衡量,软件质量难以评价,管理和控制软件开发过程困难等。计算机软件专家认真研究解决软件危机方法,逐步形成软件工程概念,开辟工程学新领域即软件工程学。软件工程用工程、科学和数学原理与方法研制与维护计算机软件有关技术及管理的方法。

软件工程针对数据的处理具有系统的规范的系列办法。1993年IEEE(电气和电子工程师学会)给软件工程综合定义为:将系统化、规范和可度量的方法应用于软件开发、测试、运行和维护全过程,即将工程化应用于软件数据等设计中。软件工程包括方法、工具和过程三个要素,方法是完成软件工程项目技术手段;工具支持软件开发、管理与文档生成;过程支持软件开发各个环节控制与管理。软件工程的发展伴随计算机与数据等相关技术的发展而进步。三、软件工程的知识库应用数据挖掘技术

蕴含数据的特殊软件的生命周期也是一个极其复杂演变过程,各个阶段都会产生大量软件数据。在设计文档与程序源代码,交流历史与Bug报告,软件运行日志等方面产生的大量数据,必然存在着对软件开发和维护具有重要价值的信息。如能充分利用数据挖掘技术发现这些数据隐藏的知识,可提高开发效率并避免错误,增强软件系统运行稳定性和可信性。利用数据挖掘技术处理软件产生大量数据想法在上世纪70年代就出现,但直到最近软件数据挖掘领域才受到越来越多学者关注豏。软件工程国际会议出现关于软件数据挖掘研究工作组,许多数据挖掘会议与期刊陆续出现多篇高质量与软件工程相关学术论文,软件数据挖掘已成为越来越关注热点的研究领域。

软件数据挖掘针对软件工程版本控制,设计文档及程序源代码演化历史等进行挖掘,同时,我们也可设计软件工程数据仓库来统一存储这些可利用的大量软件的数据。应用传统数据挖掘的经典算法来处理存放在软件知识库的各种数据,提取有用信息来辅助软件设计、开发与维护。会为开发人员提供有效的帮助。通过利用关联规则挖掘算法寻找那些经常被一起改变的实体如类、变量、函数、数据类型与控制语句等;或者利用关联规则挖掘源代码修改模式,挖掘存放在代码库软件修改历史模式;或者应用关联规则挖掘实体间依赖性,改进系统架构相关研究;或者通过对用户操作日志与系统运行状态日志研究,建立基于用户操作模式系统稳定性预测模型等等。

总之,软件工程数据集软件知识库包含的关于软件工程演化历史大量有价值的信息数据,为研究和利用这两类优质数据,数据挖掘技术大有可为。 注释:连一峰等.基于模式挖掘的用户行为异常检测.计算机学报,第25卷第3期.2002,3.毛国君等编著.数据挖掘原理与算法.清华大学出版社,2007,1.王磊.基于用户操作模式的系统稳定性研究.广西师范大学硕士论文.2009,7.