HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 数据挖掘课程设计论文

数据挖掘课程设计论文

时间:2023-03-27 16:59:07

数据挖掘课程设计论文

数据挖掘课程设计论文范文1

关键词:大数据;数据挖掘;电子商务;教学设计

0引言

近几年,随着互联网技术的发展和对人们工作生活的不断渗透,随着移动互联、物联网、云计算、智慧工程等新兴信息技术的出现和普及,数据在人们的生活中呈爆炸式增长,人们开始进入大数据时代。由于海量数据中记录了企业的发展、运营以及人们生活和行为的点点滴滴,所以,挖掘海量数据背后存在的模式、规律和趋势,并结合各行各业进行创新应用,已经成为这个时代的重要课题。我国电子商务经过近20年的发展和数据累积,已经从用户为王、销售为王进入到数据为王的阶段,如何针对用户消费行为的分析,提升电子商务的运营效率,促进精准营销的开展,增加客户黏性,从而实现电子商务的智能化发展,是当前电子商务发展的重中之重。因此,在大数据背景下,为适应行业发展需求,国内外很多高校,尤其是应用型本科院校,在电子商务专业本科生中陆续开设大数据分析与挖掘系列的课程,其中作为大数据研究与应用的重要支撑技术的数据挖掘,是其中一门重要课程。

1电子商务专业开设数据挖掘课程的必要性

1.1行业发展的必然要求

进入大数据时代,“互联网+”技术与传统行业深度融合,电子商务数据已覆盖了从用户、商家、第三方、物流等一系列商务环节。因此,充分利用大数据,有效分析和挖掘大数据的价值和规律,已成为推动电子商务深化发展的重要引擎。首先,数据挖掘技术是电子商务智能化的基础。由于电子商务的活动从开始就具备了信息电子化的先天优势,所以,用户在电子商务网站上发生的所有行为信息都被日志记录,包括用户对产品的搜索、浏览、在购物车加入或取出商品、收藏产品、对商品的讨论、评价、分享等。对这些用户行为信息进行收集和分析,可以挖掘用户的兴趣特征和潜在需求,实现对用户的个性化推荐。其次,数据挖掘技术支撑电子商务的精细化营销的实现。通过网络爬虫收集用户在消费过程种对商品的兴趣、偏好、评价等数据,并进行分析挖掘,可以更好地对用户进行细分,针对性地制定营销策略,更准确地把握用户态度和对产品的情感倾向,及时控制营销中的不良影响,从而提升用户体验和用户黏性。第三,数据挖掘技术推动电商物流的优化。通过对电商物流数据的分析和挖掘,可以预测市场需求变化的规律,帮助企业合理地进行库存管理和控制,优化配送路线,进行物流中心选址策略分析等。可见,对于电子商务专业大学生开设数据挖掘课程是行业发展的必然需求。

1.2专业人才培养的迫切需求

电子商务是利用信息和通信技术,通过Internet在个人、组织和企业之间进行商务活动和处理商务关系的一种活动。随着云计算、物联网及移动互联等新兴信息技术的迅速发展,大量传感器和监控设备不间断的数据采集和行业数据的持续积累,使大数据成为时代的鲜明特点。教育部电子商务专业教学指导委员会王伟军教授等人对138个电子商务专业本科人才的市场招聘需求进行研究发现,网络营销与数据分析是当前电子商务专业的主要能力需求,而目前我国开设电子商务专业的高校中开设数据挖掘及其相关课程的只有14所。因此,该类别人才缺口目前较为严重,市场需求量较大。为了适应时展需求,高校在人才培养时既要注重电子商务运营管理能力的培养,同时更要注意商务数据分析与挖掘能力培养。培养同时具备这两种能力,并且可以将两种能力有效结合起来的应用型人才,是当前高校电子商务专业发展的趋势和方向。总之,在当前的电子商务活动中,商务管理是核心,数据分析与挖掘是手段。在大数据背景下,要提升电子商务的管理效率,实现电子商务的智能化发展,必须应用好数据挖掘这把利器。因此,在电子商务专业开设数据挖掘课程,是行业发展的必然要求,也是专业发展的迫切要求。

2电子商务专业数据挖掘课程教学思路设计

数据挖掘是一门交叉学科,涉及统计学、数据库、机器学习、高性能计算等多门学科相关内容,要求学生具有较为扎实的基础知识。由于课程难度较大,早期高校都把该课程作为研究生的专业课程。为适应市场需求和行业发展,近年来,也有些高校将此课作为本科生高年级选修课开设。从该课程的传统教学上来看,由于学生理论基础不够扎实,课程教学又多侧重算法的分析与实现,导致该课程存在教学难度大、理论教学过多、学习兴趣难以提高等问题。考虑到传统教学的问题以及电子商务专业培养应用型本科人才的实际情况,笔者认为该课程在教学过程中应“轻算法,重应用”,以启发学生数据思维为主,以理解算法思路为主(忽略细节实现),以合理构建数据挖掘模型、正确解读数据挖掘结果为主。在组织教学时,采用基于场景的启发式教学方式。该课程在讲授每个数据挖掘方法时,都通过一个电子商务问题进行导入;通过本节所授方法,形成解决问题的思路;最后通过专门数据挖掘软件进行方法的应用,通过对挖掘结果的解读分析,为导入问题的决策分析提供依据。通过这种由浅入深,由易到难的方式,引起学生学习兴趣,激发学生主动思考,真正成为课堂的主体。实践环节是学生理论联系实际的关键步骤,选用合适的数据挖掘软件工具非常重要,对于电子商务专业的学生,数据挖掘重在问题的建模和方法的应用,所以,该课程选择的数据挖掘工具是IBM公司的SPSSModeler。SPSSModeler拥有丰富的数据挖掘算法,本课程涉及到的分类、聚类、关联分析、时序分析、社会网络分析挖掘等主要数据挖掘功能均可实现,而且其操作简单易用,分析结果直观易懂,可以使用户方便快捷地实现数据挖掘。学生通过对算法基本思路的了解,针对实验问题设计数据挖掘方案,并通过数据挖掘软件进行算法的应用和结果的分析,理论和时间的顺利衔接,进一步加深学生对数据挖掘方法的认识和理解。

3电子商务专业数据挖掘课程教学内容设计

数据挖掘课程主要讲解数据挖掘的基本概念、主要方法和技术、应用情况及发展趋势,目的在于启发学生的数据思维,提升学生数据分析与挖掘的能力,深入理解电子商务数据在电子商务中的重要地位和作用,实现商务管理和数据挖掘的有机结合。由于数据挖掘课程理论性和应用性均较强,反映在教学要求上,既要重视理论学习,又要重视实践环节。具体来说,就是一方面通过理论教学使学生对理论内容有较深入的理解和领悟;另一方面结合实践教学,鼓励学生多动手,多思考,综合运用所学知识分析和解决实际问题。

3.1理论教学设计

针对大数据时代的数据特点和应用特点,在数据挖掘课程的理论教学设计时,其内容不仅包括传统的基础性的分类、聚类、关联分析、时序分析等数据挖掘方法,还注重根据电子商务行业特点进行知识的拓展介绍,比如在将关联分析的时候,除了传统的购物篮分析,还增加了序列模式分析内容;比如在结合社会化电子商务的发展,对社会网络分析、文本挖掘等前沿数据挖掘知识也进行了一定的拓展介绍。这些拓展内容,不但丰富了学生的知识体系,也为部分学生的课下深度扩展指明了方向。我校电子商务专业的数据挖掘课程总学时为48学时,其中理论教学32学时,主要内容及其学时分配如表1所示。表1数据挖掘课程理论教学安排序号章节标题内容提要学时1数据挖掘概述数据挖掘基本概念与功能;基本流程与步骤;基本方法与应用;拓展:数据库,数据仓库与数据挖掘的关系22数据预处理数据清洗;数据的集成与转换23分类分析决策树分类;贝叶斯分类;分类特点及结果分析64聚类分析K-means聚类;两步聚类;聚类特点与结果分析65关联分析频繁项集;关联规则挖掘;关联分析效果评价;拓展:序列模式分析86时序分析移动平均模型;指数平滑模型;拓展:ARIMA模型67数据挖掘发展趋势社会网络分析;文本挖掘;Web挖掘2理论教学在组织时,基本上以“课堂引例-问题分析-算法思路讲解-课后练习”的方式展开。通过实例分析,给学生介绍各种算法的基本思想和相关概念,引起学生学习兴趣。在讲授算法时,通过具体的简单数据演算实例来分析数据挖掘的过程和结果,使学生在实际案例中明白数据挖掘算法在处理数据过程中的作用和意义。虽然该课程开设在电子商务专业的第六学期,但是,由于数据挖掘课程本身需要多个学科的基础知识,在目前的大学课程体系内,难以在有限的时间内开设全部先修课程。因此,在理论讲解时,对涉及到学生比较生疏的知识点,应根据学生的知识水平,予以补充说明。例如,在讲决策树分类时,对于信息论中信息熵基本概念和计算方法,可以结合实际数据集合,进行讲解和计算。

3.2实验教学设计

数据挖掘是一门紧密结合实际应用的课程,具有较强的实践性。实践教学环节中,首先教师讲解实验步骤,然后安排学生进行实验,并对实验结果做详细分析与评价。每个实验要求学生完成以下几方面的内容:(1)根据实验问题设计数据挖掘方案和实施流程;(2)进行数据预处理,并构建数据挖掘模型;(3)解读数据挖掘结果,并联系实验问题进行具体分析;(4)实验拓展与总结。在实验拓展和总结部分,可以设计一些开放性的题目,比如在进行关联分析时,可以设计这样的问题“如果支持度阈值设置时降低十个百分点,频繁项集会有哪些变化?关联规则的准确性和适用性会有哪些方面的变化?”。在实验环境下,学生可以通过对比实验,比较容易得到结果,而在总结这些变化规律时,又可以强化和巩固对关联规则、频繁项集、支持度、置信度等这些概念和指标意义的理解,从而更好的应用在以后的工作实践中。结合电子商务活动特点以及数据挖掘在电子商务中的应用,该课程的实验是16学时。在实验设计时,共设计了五个单人实验和一个综合性多人实验.由于使用数据挖掘技术处理实际问题时,很多时候需要综合运用一些数据挖掘方法,其设计方案不止一种,分析结果也不一定完全一致。为激发学生的主观能动性,本课程在最后需要每个小组共同完成一个综合性的数据挖掘作业。研究表明,对于本科生来说,指导教师给出一些具体的题目,如大学生消费状况预测、校园共享单车满意度分析等,这些热点问题更容易激发学生的学习兴趣。综合作业从数据挖掘方案的设计、数据采集、数据预处理、数据建模、结果分析以及报告撰写全部由小组成员协作完成,通过这样一个完整的分析问题、解决问题的过程,不但可以锻炼学生综合应用知识的能力,也可以锻炼学生的沟通写作能力。在综合性作业完成的过程中,教师需要给予一定的指导,例如教师可以介绍问卷星等网络调查平台或网络爬虫等工具帮助学生进行原始数据的采集;通过对数据挖掘方案的点评,帮助学生更合理的选取数据分析指标,设计数据挖掘方案;通过报告撰写指导,帮助学生规范化的总结实验分析结果。

4结论

大数据时代的电子商务活动中,对电子商务人才的数据挖掘和分析能力非常迫切,在电子商务专业中开设数据挖掘课程是行业发展和专业发展的必然要求。在电子商务专业开设数据挖掘课程既有别于研究生也有别于计算机等理工科专业,“轻算法,重应用”,以提升学生主动学习兴趣为导向,采用基于场景的启发式教学方法更合适。本文从教学思路、教学方法、教学内容等方面进行了思考和探索,经课程开设两年来的教学实践证明,学生在学习上的主观能动性得到了一定的体现,理论和实践相结合的能力得到了锻炼。激发学生学习兴趣,培养学生的主动性思维,是当前教学中的重要课题,在电商行业不断发展的过程中,如何更好的将最新行业问题融入教学过程,实现理论和实践的有机结合,需要我们进一步深入思考和探索。

参考文献

[1]冯然,陈欣.论数据分析类课程在电子商务专业设置中的重要性[J].河南教育,2015,(2).

[2]黄岚.数据挖掘课程实践教学资源库建设[J].计算机教育,2014,(12).

[3]薛薇.基于SPSSModeler的数据挖掘(2版)[M].中国人民大学出版社,2014.

[4]李海林.大数据环境下的数据挖掘课程教学探索[J].计算机时代,2014,(2).

[5]韦艳艳,张超群.“数据仓库与数据挖掘”课程教学实践与探索[J].高教论坛,2011,(1).

数据挖掘课程设计论文范文2

关键词:数据挖掘原理与算法;实例;教学探索

0.引言

随着经济、科技和信息技术的飞速发展,特别是网络技术的发展,数据的产生和存储能力有了很大程度的提高。数据挖掘的出现,为人们提供了一条解决“数据丰富而知识贫乏”困境的有效途径Ⅲ。所以很多高校,包括世界上一些著名高校都开设了数据挖掘课程。课程的基础理论部分一般包括数据预处理、关联规则、分类、聚类、时间序列挖掘、Web挖掘等内容。该课程使学生学会分析研究数据挖掘中数据预处理、常用算法、结果的可视化等技术,并培养学生的数据抽象能力,帮助学生形成科学思维和专业素养,使他们毕业后在就业上有更多的选择。

笔者将探讨基于实例教学的数据挖掘课程的教学内容安排,强调淡化学科背景,加强算法的应用性训练,将实际的例子贯穿于教学中,并重新组织授课内容、安排实践环节,教会学生学以致用。

1.教学现状分析

1.1课程本质

数据挖掘原理与算法涉及的学科领域很宽泛。其最终目的是在数据中挖掘出可供人们利用的知识和信息,因此数据挖掘技术要从数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等领域汲取营养。另外,每个学科都在进行着日新月异的发展变化,数据挖掘技术遇到的挑战也为相关学科领域的深入研究提供了新的契机。由于课程难度较大,很多高校把这门课程作为研究生的专业课程,也有院校将此课作为本科生高年级选修课开设脚。但是本科生开设这门课程的普通院校较少,我们能借鉴的教学经验有限。

1.2数据挖掘课程教学环节的弊端

①某些学校对本科生开设的数据挖掘课程,其教学过程对理论的探讨过多,与应用存在距离,没有体现出这门课程面向应用的特质,缺少对学生工程能力的训练,存在学生在学了这门课程后不知道能干什么的现象。

②教学形式呆板单一。传统的教师讲、学生听的教学模式,很难引起学生的探究兴趣,不利于发挥他们自身的能动性和创新动机。

2.选择恰当实例贯穿数据挖掘课程的教学过程

烟台大学计算机学院所开设的数据挖掘课程在教学上安排了6章内容,涉及3个实例(其中两个是实际生活中的项目课题):第1个是用于房产信息调查的房产客户关系管理系统;第2个是用于烟台大学督评中心评教文本分类的中文文本数据挖掘系统;第3个是用于国家葡萄酒检测中心的数据分析的葡萄酒成分数据挖掘系统。

2.1房产客户关系管理系统

在讲述房产客户关系管理系统时内容涵盖绪论、知识发现过程和关联规则3章,重点讲授内容包括:

(1)数据仓库。住房管理数据仓库中的数据是按主题组织的,可从历史观点提供信息。数据挖掘技术能按知识工程的方法完成高层次需求,可以发现蕴藏在数据内部的知识模式。挖掘后形成的知识表示模式可为企业决策提供支持。

(2)通过对客户信息进行分析,阐述关联规则的参数:support、confidence、expected confidence,并简单介绍关联规则中的多维、多层次等拓展知识。

(3)关联规则挖掘。①讲授关联规则挖掘的Apriori算法;②讲述布尔关联规则的概念,对处理后形成的交易数据库进行布尔关联规则挖掘,将问题转化为寻找以决策属性为结果的规则;③将关联规则挖掘应用于客户关系管理的最终目的是努力将潜在客户转变为现实客户,将满意客户转变为忠诚的终生客户,提高客户满意程度,降低市场销售及宣传成本,增加利润率。

(4)设minsup=10%,minconf=70%。在统计的各类人群中猎取咨询的渠道主要是杂志、报纸、互联网和电视。经试验统计后得到以下有关知识:①满足age>50 AND职业=“工人”的客户占所统计总人数的9.7%;其中满足age>50 AND职业=“工人”AND渠道=“TV”的客户占92%。②符合学历=“大专”AND职业=“工人”的客户占所统计总人数的24.8%,其中满足学历=“大专”AND职业=“工人”AND渠道=“newspaper”的客户占82%。③被统计人群中满足income=“5000-9000”AND职业=“教师、医生、公务员”的客户占所统计总人数的32.7%;其中满足income=“4000-6000”AND职业=“教师、医生、公务员”AND渠道=“杂志”的客户占83%。④被统计人群中满足学历=“本科”AND income≥“10000”的客户占所统计总人数的占11.6%;其中符合学历=“本科”ANDincome≥“8000”AND职业=“公司经理”AND渠道=“杂志”的客户占86.5%。

(5)教师要分析Apriori算法的瓶颈和改进,介绍Close算法和FP-树算法,并且要求学生们掌握这3种经典算法。

2.2中文文本数据挖掘系统

中文文本数据挖掘系统围绕评教分类模型的建立讲述特征选择和主要分类算法。根据烟台大学教学督评中心提供的学生对教师的中文评教文本,利用分类的方法找出其评价的倾向性,结合教材,重点讲授了以下内容:

1)特征选择。

①介绍有监督、无监督和半监督的特征选择方法。②介绍使用分词软件后,统计词频,去掉小于阈值的低频词。③对比词频率、IG值(信息增益)、期望值差异对分类结果的影响留取特征词。

部分数据示例如下:用特征选择的方法对重要的属性进行抽取,略去对分类影响不大的属性,达到降维的目的,把特征选择作为预处理。我们选用517条主观评价作为训练样本,其中233条留言是一般评价,采用以下3种方式进行特征选择:词频率、IG值(信息增益)、期望值差异。不同方式特征选择对分类准确性的影响如表1所示。

2)分类。

在介绍常用的分类基础知识和决策树、ID3、朴素贝叶斯分类、最近邻分类算法之后,又介绍了基于潜在语义分析的降维技术,讲授了支持向量机(SVM)适用于文本分类的原因。布置给学生的任务是用爬虫获取网评,作倾向性分析。

评教文本分类统计后的结论是:将降维技术和支持向量机算法结合在评教模型的建立过程中,研究讨论的主要内容有:①各个指标取不同值对分类的影响,这些指标主要集中在特征抽取和选择、保留词性和降维维数等几方面;②对分词后的文本进行特征选择,筛去了词频数小于4的文本;③降维至30维,并适当设置SVM中的可变参数,找到合适的训练一测试样本的比例,最后综合出一个现有条件下的最佳分类模型。

2.3葡萄酒成份数据挖掘系统

葡萄酒成份数据挖掘系统介绍数值数据的预处理和聚类2章内容。对葡萄酒成份的分析是根据所提供的酒中各成份的含量数据,采用聚类或分类的方法确定某种葡萄酒的种类,比如是红葡萄酒、白葡萄酒还是甜葡萄酒。围绕这个问题我们介绍了如下内容:

1)数值数据的预处理。

①介绍葡萄酒中各个属性的含义和取值范围;②讲授数据的离散化技术,如等深、等宽、聚类技术;③讲授本例中使用的m一估值计算对数值属,1生的离散化技术;④讲述本例中如何避免0值出现及去噪声技术。

葡萄酒中各成份的含量数据如表2所示。

2)聚类。

在介绍聚类的基本知识和常用算法(如k均值、k中心点、DBSCAN技术)之后,讲解了:①本课题使用的层次聚类算法。在测试结果时通过测试样本和分类样本的不同比例,对结果进行了对比。②讲述了用朴素贝叶斯分类计数对这一问题的分类处理,同时对比了聚类和分类算法在同一问题上的结论差异。利用朴素的贝叶斯分类器可以完成预测目标,根据训练样本建立分类器,对待测样本进行预测,准确率可达到90%以上。③引导学生思考对问题的处理可以联合使用各种算法,并分析各种算法对结果的影响,从而找出解决问题的最佳方案。

2.4利用已知算法和实例讲授Web挖掘技术

因特网规模庞大、结构复杂、动态变化性大,蕴含大量的信息。将Web上丰富的信息转变成有用的知识正是Web挖掘的意义所在。用之前中文文本分类的方法引导学生在一些购物网站中下载对商品评论的中文文本,抽取特征词,进行倾向性分析,使学生熟悉支持向量机的分类方法,分词软件的使用及文本挖掘的整个过程。

3.结语

文章在前期制定应用型本科生数据挖掘课程教学大纲的基础上,针对数据挖掘课程内容多学科交叉的特点,在教学中提出淡化学科背景,注重算法应用与实践,以客户关系管理、葡萄酒数据分析、中文评教文本分类等实例作为授课内容主线,让实例教学始终围绕着典型的算法和前沿知识展开的教学方式。在今后的教学工作中,我们还应该不断站在学科发展的前列,经常更新实例,使其更好地融入教学,将教与学有机统一,取得更好的教学效果。因此我们还有大量的工作需要探索研究。

参考文献:

[1]宋成,李晋宏,项目驱动的数据挖掘教学模式探讨[J],中国电力教育,2011(27):116-177.

[2]刘云霞,统计学专业本科生开设“数据挖掘”课程的探讨[J],吉林工程技术师范学院学报,2010(6),20-22.

[3]徐金宝,对应用型本科生开设数据挖掘课程的尝试[J],计算机教育,2007(7):27-29.

[4]高园园,吕庆文,数据挖掘课程的教学思考[J],医学信息,2009,22(11):23-24.

数据挖掘课程设计论文范文3

【关键字】数据挖掘、高校信息化建设、应用研究

中图分类号:C37文献标识码: A

一、前言

网络技术在不断发展,科学技术也在不断进步。高校的信息化建设也蒸蒸日上。如何把数据挖掘技术很好的应用到学校的信息化建设中是学校在信息化建设中十分重要的一个研究课题。从数据挖掘的定义和特点开始分析,对其中的一些问题展开讨论。

二、高校网络教学平台信息化建设的现状

随着我国高等教育规模的快速发展、信息技术的广泛应用,我国高等教育的教学理念、教学模式、教学环境和教学手段等都有了重大变革,课程教学模式与教学管理模式得到了不断的改进。网络教学平台以其灵活的、开放的、基于资源的特点日益成为现代教育过程中不可替代的部分,不断增长的学生需求和网络所提供的开放式学习机会为网络教学平台的研发、应用和推广提供了优越的发展空间。然而,由于近年来许多高校不断扩招,造成了在校学生规模的剧增,给学校的教学工作带来了许多影响教学质量的问题。而现今的网络教学平台,多是提供教学大纲、教学课件、授课教案、单元测试等教学资源,供学生课后学习。通过信箱、留言板、课程论坛等提供师生实时或非实时的交流。这样的教学平台,只能将知识给学生,而在学生访问教学平台的过程中,学校并无法获知学生的反馈信息。而实际教学工作展开的过程中,教师需要得知学生的学习过程中出现的问题和状况,并且提供帮助,以此来确保教育教学工作的全方位展开,为课程改革的推行做出贡献,充分利用网络教学平台,把资源合理的优化使用。

三、数据挖掘技术

通过笔者的分析可以看出,我国的高校信息化建设还存在许多不足。其中比较突出的问题是在传统的网络教学平台中,学校无法通过学生的活动对学生未来的发展趋势或者是规律做出预判。随着技术的不断发展,越来越多的高校开始考虑将数据挖掘技术应用到网络教学平台中,通过对学生点击访问教学平台的数据进行分析和挖掘,对学生学习方式、学习态度、知识的把握度、学习反馈等有了科学的了解,对今后的教学改革、课程设置、教学平台设置等工作提供了决策支持。

1、数据挖掘定义

数据挖掘是一门新兴的学科,它主要是面向决策支持,为决策者提供有价值的信息。数据挖掘又是一个交叉性的科学领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、可视化理论和技术等。有人从商业角度将数据挖掘(Data Mining)定义为:数据挖掘在商业活动中的主要作用是对商业活动中的业务数据进行分析处理,用模型化的方法对数据进行全方位分析,帮助减少商业活动中的风险,帮助企业管理者做出决策。

2、数据挖掘分类

由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据挖掘。

(一)根据所挖掘数据库类型的不同来分类,可以分为:关系型数据挖掘、对象型数据挖掘、对象-关系型数据挖掘、事务型数据挖掘、数据仓库的数据挖掘。

(二)根据所挖掘的知识类型来分类,可以分为:特征化、区分、关联、分类、聚类、孤立点分析(异常数据)和演变分析、偏差分析、相似性分析等分类。

(三)根据所采用技术,可以分为:自动数据挖掘、证实驱动挖掘、发现挖掘和交互式数据挖掘。

(四)根据数据挖掘应用来划分,可以分为:金融数据的数据弯角、电信行业的数据挖掘、DNA序列数据挖掘、股票市场数据挖掘、WWW数据挖掘等。

不同的应用通常需要集成对于该应用特别有效果的方法,因此,普通的、全功能的数据挖掘并不一定适合特定领域的数据挖掘任务。

3、数据模块中采用的几项典型技术如下:

(一)聚类分析。聚类是把一组数据对象设计成一类,以便让同一类中的对象具有最高的相似性。而类间具有最大的差异性,这种方法被用于机器学习、模式确认、图象分析、信息检索等领域。

建立的每一个聚类可以看成是一类对象,通过它导出规则。聚类在教育中的应用能帮助机构组合学生个人相似的班,把学生分成类,以便使学生在一类中相互之间更相似,或者说水平更平均。

(二)决策树。决策树是一种决策支持工具,它使用树型图显示可能的结果,包括概率事件结果和源的关系,成本和用途功用,它是一种方式显示一种算法。决策树常被用于行为研究特别是决策分析,去帮助识别一种策略,主要是要达到的目标;决策树作为一种描述性工具手段用于计算条件概率;决策树还可以用于分析一个机构的准入规则。同时它对小数据样也能给出好的结论。这种方法能适用于不同数量级的编目变量。

(三)关联规则。反映一个事件和其他事件之间依赖或关联的知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测,可以用关联规则的形式表示规则形式。

(四)分类。找出描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象。

(五)回归。通过构造函数以符合数据变化的趋势,这样可以用一个变量预测另一个变量。

四、数据挖掘在高校教育信息化中的应用

高校教育信息化是整合先进的技术,运用到高校教育管理体系之中,使教育教学、管理工作和校园的文化生活更网络化、信息化,提高教育质量和效率,形成一种全新的教育和管理模式。高校教育信息化所产生和积累的数据,为我们进行数据挖掘提供了有效的数据。数据挖掘可以应用到高校教育信息化的各个方面,如教学评价、课程设置、网络教育、分析学习者特征、干预师生行为、辅助考试等方面。

1、教学评价

教学评价就是根据教学目标、原则的要求,利用收集到的信息对教学活动以及教学成果进行评价的过程,主要包括对学生学和对教师教的评价。随着信息化的快速发展,高校教育信息化积累了大量的学生成绩、行为纪律、处罚奖励等数据,利用数据挖掘的方式来进行分析处理,可以客观准确的得到学生的评价结果,及时纠正学生的不良的学习行为,同时还能尽量避免教师因主观作用对学生做出的不公平的、不客观的评价。将数据挖掘的关联规则运用到教学评价的数据中,使教师能够认识到自身的教学情况以及学生的学习和个性特点,并给予合理的意见,对今后的教学工作有一定的指导意义。

2、合理设置课程

高校学生所进行的课程学习是循序渐进的,对于课程的学习要一步一步按照先易后难来进行,而且由于教师、学生以及班级的文化氛围的不同,同一年级的不同班级在学习相同课程时也存在很大的差异。这种情况下,教务管理人员和任课教师就很难根据学生的成绩做出客观、合理的判断,从而做出教学进程的决策。因此,要借助于数据挖掘技术,从大量已有数据中挖掘出有用的信息和内容,分析各数据之间存在的关系,找到影响学生成绩的因素,然后在此基础上,对课程设置做出合理的安排。

3、个性化、智能化网络教育

个性化、智能化网络远程教育充分的利用了数据挖掘的技术,远程教育的顺利开展得到保障。首先根据学生所提供的信息,对不同层次的学生提供不同的学习内容和模式,进行因材施教。其次,对已保存的学生的信息进行数据挖掘,利用已有的资源,对课程进行重新组合,使之更符合教学规律。最后通过对学习者学习行为进行数据挖掘,了解学习者的浏览模式,重新进行页面之间的链接,以符合学习者的访问习惯。

4、学习者特征分析

根据系统中已有学生的基本信息、成绩信息、学习过程数据、偏好、知识结构等,利用数据挖掘功能分析学生特征,从获取的知识帮助学生修正自己的行为。教师利用挖掘到的知识帮助学生修正学习行为、提高学习能力。

对学习者特征的分析在教育活动中具有重要的地位。它不仅是教学设计的前提,是教学成功的关键。学习者特征包括学习者的知识结构和学习风格。学习者的知识结构是学习者已经学习的或即将学习的内容。学习风格包括学习者的生理、心理和社会特征。利用数据挖掘来分析学习者的特征,不仅有助于学习者改进自己的学习行为,而且能提高学习者的学习能力,完善其人格,有利于学习者素质的全面、和谐发展。

5、在教学评价方面的应用分析

高校信息化系统长期运行中产生了海量数据,学籍数据、考勤纪律、招生就业、奖惩等各方面的数据累积在信息系统中,通过使用数据挖掘技术可帮助教师、学生、学校管理决策者有效地利用这些数据,建设有效的评价系统。

6、就业预测分析

通过对历史中毕业生的就业数据进行数据挖掘,对毕业生就业因素的相关性进行分析,如综合成绩,英语成绩,计算机成绩,是否学生干部等,对学生能否就业的影响因素进行挖掘,得出毕业生的就业预测模型,这样可以对学生未来是否能就业,对就业作出预测,对就业好的学生类型推广,对不易就业的学生类型,修改培养方案和模式。

五、结束语

通过数据挖掘技术可以加强高校的信息化建设水平,对学生的学习和就业能够进行有效的指导,对高校的整体发展也有促进的效果和作用。希望各大学校能够加快对数据挖掘技术的学习和应用,以此来促进自己学校的建设和发展。

参考文献

[1] 胡春红.数据挖掘技术在高校信息化管理中的应用[J]. 长江大学学报(自然科学版)理工卷. 2010年03期,11-12

[2] 孙中祥,彭湘君,杨玉平,贺一.数据挖掘在教育教学中的应用综述[J]. 智能计算机与应用. 2012年01期,99-100

[3] 余永红,向晓军,高阳,商琳,杨育彬.面向服务的云数据挖掘引擎的研究[J]. 计算机科学与探索. 2012年01期,45-46

[4]胡春红 数据挖掘技术在高校信息化系统中的应用长江大学学报(自然科学版)理工卷2010-06-15期刊,15期,67-69页

[5]徐建锋; 董桂娟; 朱颖; 袁家三 谈数据挖掘技术在高校图书馆中的应用吉林化工学院学报2008-10-15期刊,15期,109-110页

[6]黄小红; 王倩 数据挖掘技术在高速铁路SCADA中的应用研究中国电气化铁路两万公里学术会议论文集2005-12-01中国会议,12期,88-89页

[7]刘鹏; 孙莉; 赵洁; 孙珏妍; 许剑萍; 董瑾; 陈婷婷 数据挖掘技术在高校人力资源管理中的应用研究计算机工程与应用2008-04-01期刊,4期,127-129页

数据挖掘课程设计论文范文4

Abstract This thesis mainly studies on the application of data mining technology in teaching. As the number of students abroad in China grows, we need to find a better way to make Chinese teaching management more efficiency. It combines the technology of data warehouse and data mining with educational management system to rationally utilize the mass data accumulated in the work of teaching and management. Then, in order to acquire the potential decision-support knowledge to guide the work of teaching and enable teaching management to operate with a definite object and thus further improve the quality of teaching, this paper makes research from the following areas. Firstly, it applies the technique of data mining to analyzing the effect and gain and loss in the teaching reasonably, then, it studies a variety of factors which influence the well development of students from multi-angle. Finally, with regard to the primary and secondary factors affecting students' performance, it carries out deep analysis.

Key words data mining; association rules; teaching management; teaching plan

0 引言

近几年来华留学生教育进入快速发展时期,我国已经成为国际学生流动的重要目的地国家之一。随着我校留学生规模的不断扩大,如何更有效地对来华留学生进行教学管理已成为一个重要的研究课题。而运用数据挖掘技术,从大量的留学生相关数据中挖掘出一些有价值的信息,将更有利于构建切合我校留学生实际的培养体系,更好地保证培养质量。

一方面,从招生角度上来讲。目前我校留学生的生源渠道主要分为三类:第一类是由中国国家留学基金委直接分配至我校学习的获中国政府奖学金的学生。第二类是学生自己通过网上申请,我校根据学生提供的材料进行审核录取。第三类是由国外大学或中介机构根据协议推荐来我校学习的学生。由于外国留学生来自不同的国家,之前在各自不同的教育体系中接受高中教育,文化课背景差异很大,这就导致生源的质量参差不齐。运用数据挖掘技术可以找到其中有价值的信息,如哪个国家的教育水平相对较高,来自哪个国家的学生平均申请成绩较好,使用何种母语更容易融入中国高校教学等。这为招生工作提供了参考,从招生源头提高留学生质量。

另一方面,从教学管理角度来讲。目前,我校留学生数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯地记载了数据信息,对学生信息、成绩等数据的处理一般还停留在简单的数据备份和查询阶段,如传统数据库技术可以查询最高分最低分和平均分等表层信息,但却无法发现隐藏数据之间的规律或者说有指导意义的知识。大量有价值的信息被淹没在海量数据中。事实上不论是课程与课程之间,还是课程的设置之间,与学生成绩都存在着千丝万缕的联系,现阶段已有的数据并没有发挥其真正的价值,而运用数据挖掘技术则可能更好地发现隐藏在数据背后的丰富信息。通过对学生成绩数据库中所包含的各种类型数据进行相应的处理,如:抽取、转换、分析和模型化处理,从中寻找影响学生学习成绩的众多因素,以及这些因素所涉及到的相关问题。应用数据挖掘技术分析学生的成绩水平,使学生深入了解其在学生整体中的相对位置,由此来调整个人学习计划。同时,帮助教师和学校决策者洞悉教学过程中存在的问题,进而反思教学质量。还可以根据关联规则挖掘得到的一系列有价值的规则,分析检查课程体系的合理性,比如:相关课程之间的衔接与先后顺序是否恰当等,根据分析结果最大限度地优化培养计划和决策。此外,利用数据挖掘技术还可以发现数据中存在的潜在关系与规则,比如:根据学生的出勤次数和作业的上交情况预测学生成绩发展趋势等。为教师的教学环节提供建设性的意见和建议,为学生管理工作提供有价值的决策支持,从而帮助学校做出实时适时的决策调整,使得学生管理工作有的放矢。

1 数据仓库与数据挖掘

1.1 数据仓库

传统数据库在联机事务处理(OLTP)中获得了较大的成功,而传统数据库中只保留当前的管理信息,缺乏决策分析所需要的大量历史信息,故不能满足管理人员的决策分析要求。为了解决这一问题,进行相关决策分析,数据仓库应运而生。简而言之,数据仓库就是能够满足决策分析所需要的数据环境。数据仓库的概念,由“数据仓库之父”W.H.Inmom博士提出:数据仓库是一个面向主题的,集成的、与时间有关的,非易失的数据集合,为管理部门提供决策支持。它实际上是一个特殊的数据库,这种系统称为OLAP系统。本文中我们就利用留学生成绩数据库中的各种类型的数据建立相应的数据仓库,为数据挖掘提供数据平台。

1.2 数据挖掘

近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由此带动了数据挖掘技术的产生和飞速发展。数据挖掘就是从大量的,不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又有潜在的有用信息和知识的过程,是数据库中的知识发现的核心。可以说,有数据积累的地方,就有数据挖掘技术的用武之地。

数据挖掘的分析方法分为:聚类分析,关联分析,时序模式分析和分类分析。其中聚类分析是指通过数据本身具有的相似特点把海量数据集归纳为若干个簇,即“物以类聚”。同一簇中的数据之间相距小,相似度高;不同簇中的数据之间相距较大,数据相异度高。关联分析是指利用关联规则进行数据挖掘,其主要评价标准有:支持度、置信度、兴趣度等。本文中我们将数据挖掘技术与留学生教学管理相结合,挖掘在留学生教学管理中隐藏的有价值的信息,为留学生管理提供决策指导与决策支持。

2 数据挖掘在教学领域中的应用

数据挖掘与数据仓库相结合,是完成决策分析的关键因素。教务数据主要存储在关系型数据库中,其主要任务是执行联机事务和查询处理,对其中大量的教学信息及数据的应用仅限于某些单方面的分析,而缺乏相关的综合分析,大部分数据难以再次利用,不能满足决策分析的要求,为此需要对各种类型的数据进行抽取,转换、汇总加载到留学生成绩数据仓库中,借助数据挖掘技术,为教学提供决策支持服务。

在留学生成绩数据库中,包含着多种类型的数据,它们既相互独立又相互联系。运用数据仓库的理论和方法,对这些数据进行适当的预处理,即可产生支持教学决策所需要的信息。留学生成绩仓库的应用模型如图1所示。

根据留学生成绩的特点,以学生成绩分析为主题建立星型结构的留学生成绩仓库。星型结构主要由事实表与维度表两部分构成。事实表是星型模型的核心,维度表是事实表的附属表,一个事实表一般拥有一组维度表,每个维度表都通过主键与事实表相连,维度表之间通过事实表的中介相互建立联系。该数据仓库主要涉及到的信息有:留学生基本信息,教师信息,课程信息,试卷信息,知识点信息及专业信息等。星型结构的留学生成绩数据仓库的具体构建情况如图2所示。

2.1 数据挖掘在成绩分析中的应用

定性评价在生活中有着广泛的应用,我们往往把学生成绩硬性地划分为:优、良、中、差四个等级。而这种传统的硬性区间划分法,存在着众多弊端。例如将成绩90分定为“优”,而成绩79分确定为“良”,这往往只是根据经验但却缺乏理论指导,而实际上二者之间并没有那么明显的差距。如果我们利用数据挖掘中的聚类分析法对学生成绩进行适当处理,就可以有效地对学生成绩进行等级划分,为学生学习和教师的教学提供更合理的参考标准。在合理的等级划分基础上,我们就可以利用关联规则挖掘技术对学生成绩进行多角度、多方向的深入分析,获得可以为教学工作提供决策支持的有价值的隐藏规则。比如:学生成绩的好坏跟作业上交情况有着明显的关系,该规则说明教师可以通过及时督促学生上交作业来提高学生成绩。此外,我们也可以采用决策树挖掘技术来分析影响学生某门课程成绩的主要因素。比如:针对学生出勤率,作业上交情况,国籍,学生中英文水平四个因素对学生成绩的影响程度进行决策树挖掘分析,我们发现学生出勤率、作业上交情况以及学生的中英文水平是影响学生成绩的主要因素,而国籍则是次要因素。由此说明较高的出勤率、良好的作业上交情况以及较好的中英文水平是学生取得良好成绩的重要保障。

2.2 数据挖掘在培养计划制定中的应用

培养计划对一个专业的学习至关重要,一个好的培养计划将会获得事半功倍的效果,反之,将会产生事倍功半的结果。目前我校对于本科留学生虽然部分课程有全英文授课模式,但是就培养方案、教学计划来讲,大部分课程与本专业国内学生的几乎一样。而我国大学课程大纲的起点都是按照和国内高中毕业的程度衔接制定的,特别是数理化这样衔接性很强,对基础和选修课程要求很高的课程,大部分留学生不能跟上学习进度,教学效果较差,学习困难较大。

传统的教务系统无法为留学生的培养计划的制定提供建设性的决策支持。然而,利用数据挖掘技术对留学生信息维表,课程维表和学生成绩维表进行关联规则挖掘,则可以找出不同课程之间的关联,从而为留学生单独制定一套行之有效的特殊培养方案,适当调整外国留学生的必修和选修课程,提高教学效果和质量。如对石油工程专业留学生课程成绩进行关联规则挖掘,获得等级为“优”的课程之间存在的有价值的规则,如表1所示。

相应的规则解释有:(1)规则2 表明,“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程的信任度为88.3%,因此“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程比较合理。(2)规则3表明,“理论力学”作为“材料力学”先行课的信任度为90.6%,所以“理论力学”作为“材料力学”的先行课程比较合理。(3)规则4表明,“理论力学”和“材料力学”作为“油田开发地质”的先行课程的信任度为86.0%,所以“理论力学”和“材料力学”作为“油田开发地质”的先行课程比较合理。综合(1)(2)(3)可知,高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质这四门课程的合理开课顺序应该是:(1)高等数学(Ⅱ)(I ,II)(2)理论力学(3)材料力学(4)油田开发地质。如果对上面列出的规则进行多次推导,可以得出“石油工程”这个专业大致合理的开课顺序:(1)高等数学(Ⅱ)I、高等数学(Ⅱ)II;(2)高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质;(3)测井综合解释,钻井工程、油藏工程、气藏工程,石油工程的全面设计;(4)环境保护在石油和天然气领域,强化开采理论。

由上述的关联规则及相应的结果解释,我们可以清楚地看到,相关课程成绩之间存在较高的关联程度,先行课程的学习情况将直接影响其后续课程的学习。我校即可根据上述结论为学习“石油工程专业”的本科留学生合理安排课程顺序,使其获得良好的学习效果。

2.3 数据挖掘在留学生选课方面的应用

高校愈来愈注重个性化人才培养,学校教育方式越来越人性化、多样化,学生自主选课就成为课程改革的必然产物。但由于留学生初到中国对环境的不熟悉,包括一开始的语言障碍、沟通障碍,显然对中国高校的课程设置了解有限,这样有可能致使他们选课仅仅是凭表面感觉来进行。如:学生在选择“中国概况”这门课的时候,可能仅仅是因为对中国历史文化的好奇,而并不了解应如何合理选择其他相关课程来加深对这门课程的理解。“中国概况”这门课程需要有一定中文语言基础,盲目选课将导致留学生对中国概况的学习仅限于皮毛,而不能深入了解中国历史文化。

现有的选课系统不能为学生选课提供建设性意见,但如果利用数据挖掘技术对学生汉语成绩进行关联规则挖掘,找出课程之间的关联,就可以在学生选择某门课时为其推荐相关课程,完善学生在该领域的学习体系。若获得如下规则:“中级汉语”和“中国概况”成绩等级为“优”;该规则说明汉语水平高低与中国概况的了解程度有较强的关联程度,所以我们在学生选择“中国概况”这门课程的时候,就应当向其推荐“中级汉语”,从而加强学生对该课程的学习。

2.4 数据挖掘在教学中其他方面的应用

通过对学生基本信息,学生成绩与留级或退学情况进行关联规则分析,从中分析导致学生留级或退学的因素,从而可由学生的现有情况预测其被留级或退学的可能性,及时对有退学或留级危险的学生进行适时指导,避免退学或留级情况的出现,使每个学生都能享有充实圆满的大学生活。另外,采用关联规则与决策树挖掘技术对学生基本信息,学生成绩与就业情况进行深入分析,比较国籍,专业方向,性别,专业课成绩,英语水平,参赛(参加科技比赛)情况,从中可以获得相关信息,对学校的招生工作提供参考。如:来自巴基斯坦国家的学生普遍成绩不错,就业情况较好,这样对招生部门来讲,可以提高对该国的学生的招收比例,从而提升整个高校的留学生质量。

数据挖掘课程设计论文范文5

关键词:数据挖掘;学校教学;教学管理;应用

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)26-5805-03

随着信息技术的不断发展,数据量的不断增大,面对庞大的数据信息的合理使用,应运而生了数据挖掘技术。目前数据挖掘技术已经在商业、金融、医学等领域得到广泛的应用,但是在学校教学管理中还未得到广泛的关注。然而学校教学管理本来就积累了海量的数据,这些数据形成了一个信息容量巨大的数据库。如何有效的对数据进行挖掘分析,发现隐藏的有用信息资源来更好的指导教学与管理,辅助学校管理决策,更好的服务于教学,是目前重要的研究课题。该文就从数据挖掘的概念出发,简述数据挖掘在高职校教学中的应用。

1 数据挖掘与数据挖掘技术的概念

1.1 数据挖掘

数据挖掘的概念分为广义和狭义两种。

数据挖掘(Data Mining):广义的数据挖掘又称数据库中的知识发现(Knowledge Discovery in Database),简称知识发现(KDD)。它是从大量的、不完整的、有噪声的、模糊的和随机的实际数据中,经过提取、转换、分析等处理技术,提取隐含在其中的、人们事先不知道的、但又是可信的、潜在的和有价值的信息和知识,帮助决策者分析历史数据以及当前现有的数据,从中发现隐含的关系或模式,进而预测出未来可能发生的行为的过程。

狭义的数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,是知识发现过程中的一个关键步骤。

简单的说数据挖掘就是从大量的数据中“提取”或者“挖掘”知识的过程。

1.2 数据挖掘技术

数据挖掘技术实际上是人们长期以来对数据库技术进行开发研究而总结出的结果,其中数据挖掘与数据仓库技术的发展有着密切的关系。大多数情况下,数据挖掘首先是要把数据从数据仓库中取出放到数据挖掘库中,然后数据仓库对数据进行清理,发现解决数据不一致等问题。但是由于数据挖掘的所发现的知识有所不同,因此所利用的技术也有所不同。

2 数据挖掘分析方法与分析步骤

数据挖掘利用的技术越多,那么得出的结论的精确度就越高。因为,对于某一种技术不适用的问题,其他方式方法可能有用,这主要看问题的类型以及数据的类型和规模。下面简要介绍几种能适用于高职校教学管理工作的数据挖掘技术。

1)关联分析:关联规则挖掘是数据挖掘的一个重要研究方法,也是教学中最常用的一种方法。关联规则描述的是从大量的数据集中发现有用的依赖性或关联性的知识。该方法起初是为了分析市场购物篮所提出的,目的是为了发现顾客的购买模式。目前关联规则在其它领域也得到广泛的应用。

2)分类与预测:分类是根据某个分类器将数据库中的数据对象一一划分到给定的几个类别中的某一个中。操作步骤为:先构造分类器,后利用所获得的分类器对数据进行分类。分类是一种事先确定了类别与类别个数的有指导的学习过程。分类模型可用于预测。预测是利用学习所获得的模型对未知类别的数据对象进行类别预测。例如学生成绩数据库中,根据学生各科考试成绩,将学生的成绩分类为:优秀、良好、一般、差四个等级。对每个类别标记之后就是对数据进行分析,对每个等级挖掘分类规则也就是对每个数据做出精确的描述,如“成绩优秀的学生各门考试科目的成绩都不低于90分”,然后根据分类规则对数据库中标记的其他相同属性的数据进行分类。

3)聚类:与分类是事先确定了分类的类别相反的聚类只是将数据全部输入数据库中,然后对数据进行分析。根据一定的法则将数据合理的划分多个不同组,使得同一个组内的数据具有较高的相似度,不同组之间的数据基本无相似之处。聚类是在不知道类别和类别个数情况下的一种无指导学习过程,这点恰好和分类相反,正好说明聚类与分类是一个互逆的过程。

4)决策树:利用概率论的原理,以树的成长过程将事例根据不同类别进行分类。它可以对数据进行分析也可以预测,优点在于理解性强、直观、分类速度快,缺点是对于庞大的且复杂的数据时,分支数多,管理难度大。

5) 遗传算法:是由美国密西根大学D.J.Holland 教授和他的同事们根据自然界优胜劣汰、适者生存的自然进化过程而研究出的结合自然选择原理和遗传机理相结合的随机搜索算法。遗传算法采用的是概率寻优的方法,直接对结构对象进行操作,不需要确定的规则就可以自适应调整方向,寻求最优化搜索。它是一种寻找最优结算法。

数据挖掘步骤:

数据挖掘是一个较为复杂的信息处理过程,其中涉及到多个步骤,概况如下:

1)确定目标集合:确定用户需要的相关信息。

2)数据准备:根据用户需要的信息在数据库中选取相关的数据集,其中包括不同模式数据的转换和数据的统一汇总等,这样做的目的是为了更好的辨别出需要分析的数据集合,缩小处理数据的范围,提高数据的利用率以及数据挖掘的速度。然后对数据进行预处理等处理方式,对数据给予加工整理。

3) 数据挖掘:先确定好挖掘的目的或者任务,然后选定何种数据挖掘方法,并进行实际数据挖掘操作,通过操作挖掘出用户可能感兴趣的或者需要的相关数据信息。这一步是整个挖掘步骤中最关键的一步。

4)数据分析与结果评估:将挖掘出的数据信息进行再处理,去除没有价值的数据信息,并对剩余的数据信息进行检验、评价和评估,最终能让用户理解的同时又满足用户实际需求的信息。

3 数据挖掘在高职校教学管理中的应用

3.1 数据挖掘在学生成绩分析中的应用

在高职校的教务管理系统中存放着在校学生大量的数据信息,这些数据都具有可靠性和历史性。这些数据的信息量非常大,利用数据挖掘技术对所有学生的成绩进行分析,可以得到许多有价值的数据信息,例如:专业设置、课程设置、教师教学方式等等。高职校中,每学年的教学计划都是有规律的,课程安排都是循序渐进的。在学习专业课程之间必须先学习一些相关的专业基础课程,如果之前的基础课程没有学好,那么之后的专业课程的学习也会受到影响。另外,同一年级的相同专业的平行班中,由于授课教师素质、班级文化的差异,最后也可能导致学生成绩存在很大的差距。通过数据挖掘技术的相关方法,对学生成绩数据库中的大量数据进行分析挖掘,分析数据之间的关联性等,最后得出具有价值的信息,能更好的为课程设置提供有效的依据。此外,同一门课程中,教师授课的方式可以采用多种形式,例如传统的讲授法、讨论法、案例法、多媒体网络教学等。不同的课堂授课方式对于学生学习的兴趣和知识的掌握程度上多少存在着差异,最后直接的结果就是学生的成绩存在一定的差异。通过对数据库中学生成绩的分析挖掘,运用相关的挖掘方法,可以更好的判断哪种教学方式能更好的服务于教学内容,能更好的让学生吸收和掌握相关的知识内容,能更有利的推广分层次教学。

3.2 数据挖掘在教学评价方面的应用

一般情况下,每到学期末,都会让学生对各科的任课教师就教学内容新颖、教学方法的使用等已经设置好的内容进行打分,然后是教师之间的互评。这样单一的问卷调查的形式得出的结论只能得到一些表象的信息,未必能发现深层次的教学质量的一些规律,对提高教师的教学质量和教学水平起不到任何的作用,只能是流于形式而已。利用适当的数据挖掘方法对已有的评价数据进行分析处理,能发掘出类似于“什么情况最能影响教师的课堂教学情绪”、“影响教师课堂教学水平发挥的因素有哪些”等等问题,进而帮助教师有效的改进教学方法以及提高教学质量和水平。

3.3 数据挖掘在教学管理方面的应用

一个班级不论学生数量的多少,都是由每个学生个体组成的。每个个体的个性能否有效的积极的融入到班级这个大集体中,以及每个个体对于学习的积极性直接影响到了整个班级的学习氛围和精神风貌。通过数据挖掘技术对班级学生的个人基本信息、特长爱好、奖励惩罚等数据信息分析挖掘,这样可以发掘出很多有用的数据来分析学生的个体行为,并且寻找个体行为之间的关联性,针对每个个体学生制定出有效的管理方案,避免班级出现小团体、自由主义者等情况,更有助于的培养整个班集体的集体风貌。

3.4 数据挖掘在信息化管理中的应用

随着信息化的推进,在高职校中各个管理职能部门都存放着关于学生的大量的有效的数据。例如:负责招生的部门存有学生志愿填报的信息以及录取的信息;

教务部门存有第一手的学生成绩信息;学生管理部门掌握着学生的各种日常信息等等。如果能将这些职能部门中的信息连贯起来合理的管理,那么对于高职校信息化管理是非常有利的。如能再将数据挖掘技术运用到信息化管理中,就能从学生的入学到日常学习再到就业实习等的数据信息中发现大量实用与有用的信息,更便于管理着的管理。

4 结束语

总之,将数据挖掘应用到日常的教学与管理中,将原先存放的海量数据得到合理充分的使用,发掘数据中潜在的信息,为学校教学管理提供有利的信息支持,从而改进并完善教学管理与方法,提高学校教学与管理质量。

参考文献:

[1] 杨波.浅谈数据挖掘技术应用[J].电脑知识与技术,2010(24).

[2] Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001.

[3] 杨永斌.数据挖掘技术在教育中的应用研究[J].计算机科学,2006,33(12):284-286.

[4] 魏萍萍,王翠茹,王保义,等.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003,29(11):87,89.

[5] 丁智斌,袁方,董贺伟.数据挖掘在高校学生学习成绩分析中的应用[J].计算机工程与设计,2006,27(4):590-592.

[6] 于立红,张建伟.基于数据挖掘的高职生成绩分析与预测[J].郑州轻工学院学报,2006,21(3).

[7] 李雄飞,李军.数据挖掘与知识发现[M].高等教育出版社,2003.

[8] 员巧云,程刚.近年来我国数据挖掘研究综述[J].情报学报,2005,24(2).

[9] 马希荣,孙志华.数据挖掘技术在教学评价中的应用[J].计算机工程与应用,2003(19):51-54.

数据挖掘课程设计论文范文6

论文关键词:数据挖掘 高校教学 教育信息化

论文摘要:数据挖掘技术目前在商业、金融业等方面都得到了广泛的应用,而在教育领域应用较少。本文通过时数据挖掘在高校教学中的应用分析,认为数据挖掘技术可以帮助教学人员合理安排教学工作,协助辅导员对学生的管理,对提高学校的教学管理水平起到指导作用

1引言

随着12世纪信息化时代的到来,整个社会的信息总量呈几何级数迅速增长,人们利用信息技术生产和搜集数据的能力大幅度提高,积累的数据越来越多,但缺乏挖掘数据中隐藏知识的手段,导致了“数据爆炸但知识贫乏”的现象。随着数据库技术的成熟和数据应用的普及,在过去的若干年中,人们积累了大量的数据资料,但数据库中隐藏丰富的知识及有价值信息远远没有得到充分地发掘和利用,随着数据量以指数速度激增,人们渴求从数据汪洋中出现一个去粗存精、去伪存真的技术,越来越希望系统能够提供更高层次的数据分析功能,从中找出规律和模式,帮助决策者发现数据间重要但被忽略的因素,从而更好地支持决策或科研工作。正是为了满足这种要求,从数据库中发现知识(KDD)及其核心技术—数据挖掘技术应运而生。

2数据挖掘介绍

2.1概念及其特点

数据挖掘(Dta a Mniing)是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的但又潜在有用的信息和知识的过程,提取的知识表示为概念、规则、模式等。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。

数据挖掘有以下特点:( 1)能发现反映系统局部特征和规律的模型;(2)自动趋势预测,能发现“新”的知识;( 3)比较容易获得很多规则,并能及时更新。数据挖掘方法具有开放性思维方法,它可以及时借鉴和引用模型法的很多成果,比如神经网络、粗糙集、朴素贝叶斯算法等方法都已被利用在数据挖掘方法中。

2.2数据挖掘目的及其过程

2.2.1目的

数据挖掘期望发现的知识有如下几类:( 1)反映同类事物共同性质的泛化知识;(2)反映一事物和其他事物之间依赖或关联的关联型知识;( 3)分类、聚类知识,是反映同类事物共同性质的特征型知识和不同事物之间的差异型知识;(4)根据历史和当前的数据推测未来的预测型知识。

2.2.2挖掘的过程

挖掘过程是从大型库中挖掘未知的、有效的、可实用的信息,并使用这些信息做出决策。通常可以分为准备、数据挖掘、评价阶段以及运用阶段等四个阶段。

(1)数据准备阶段。数据准备阶段是消除数据噪声和与挖掘主题明显无关的数据,完成对数据的筛选、变换和预处理。经处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。包括:①数据的选择:选择相关的数据;②数据的预处理:消除噪音、冗余数据;③数据的推测:推算缺失数据;④数据的转化:离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等;⑤数据的缩减:减少数据量。

(2)挖掘阶段。该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。

(3)评价阶段。在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,因此需要评估,确定有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。如何将挖掘出的有用知识清楚易懂地提供给教育和管理工作者也是一项非常重要的工作,选择合适的可视化工具,将结果以关系表或用量化特征规则表示给用户。

(4)运用阶段。用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。

2.2.3数据挖掘的方法

在数据挖掘算法的理论基础上,数据挖掘中的常用方法有:①生物学方法,包括人工神经网络、遗传算法等;②信息论方法包括决策树等;③集合论方法包括约略集、模糊集、最邻近技术等;④统计学方法;⑤可视化技术等方法。数据挖掘的各类算法包括预测模型、关联规则挖掘算法、分类规则挖掘算法、序列模式分析算法、聚类分析算法、WEB数据挖掘等。 3数据挖掘在高等学校教学中的应用

3.1学生的基本信息

利用数据挖掘技术,比如可以对学生访问情况进行分析,跟踪、了解学生出勤情况。还可对学生年龄等个人情况进行分析,了解学生的组成、结构,为合理地安排课程设置提供依据。通过对学生考试情况的分析,并结合出勤情况,可作为考查学生学习的情况,为合理地评估学生综合素质提供依。对于挖掘出来的规则信息可以利用可视化技术,以图表或曲线等形式提供给教师,以使教师能充分利用学生的问题资源,从而提高教学质量。另外,数据挖掘可以应用于网上的考试系统,对考生情况和他取得的成绩进行挖掘,以帮助教师在以后的教学中更好地让学生掌握知识。

3.2学生的学习特征

学生特征包括两个方面:一是学习准备,一是学习风格。学习准备包括初始能力和一般特征两个方面。学生的初始能力是指学生在学习某一特定的课程内容时,已经具备的有关知识与技能的基础,以及他们对这些学习内容的认识和态度。学生的一般特征则是指在学习过程中影响学生的心理、生理和社会的特点,包括年龄、性别、年级、认知成熟度、智力才能、学习动机、个人对学习的期望、生活经验、文化、社会、经济等背景因素。学生的学习风格与学习活动有着密切的关系。对学生感知不同事物、并对不同事物做出反应这两方面产生影响的所有心理特征构成了学习风格。

利用数据挖掘功能分析学生特征,并在此基础上组织学习内容、阐明学习目标、确定教学策略、选择教学媒体,为学生创造出一个适合其内部条件的外部学习环境,使有效学习发生在每个学生的身上。

3.3预测学生和教师行为发生

管理信息系统中记录着有关学生与教师在教学中发生的各种教学事故以及典型教学事例等教学运行信息,利用数据挖掘的关联分析与演变分析等功能,寻找师生各种行为活动之间的内在联系。如“当存在A,B时可以推出’C,这样的规则,即当有A行为和B行为发生时,还会有C行为。在教学过程中,如果发现学生或教师已有A,B行为时,马上可以分析其产生C行为的可能性,及时制定策略促进或制止C行为的发生。

3.4合理设置课程

在学校,学生的课程学习是循序渐进的,而且课程之间有一定的关联与前后顺序关系。在学一门较高级课程之前必须先修一些先行课程,如果先行课程没有学好,势必会影响后续课程的学习。另外,同一年级学习同一课程的不同班级,由于授课教师、班级文化的不同,班内学生的总体成绩相差有时会很大。利用学校教学数据库中存放的历届学生各门学科的考试成绩,结合数据挖掘的关联分析与时间序列分析等相关功能,就能从这些海量数据中挖掘出有用的信息,帮助分析这些数据之间的相关性、回归性等性质,得出一些具有价值的规则和信息,最终找到影响学生成绩的原因。在此基础上,对课程设置做出合理安排。

3.5评价学生学习情况

学习评价是教育工作者的重要职责之一。评定学生的学习行为,既对学生起到信息反馈和激发学习动机的作用,又是检查课程计划、教学程序以至教学目的的手段,也是考查学生个别差异,便于因材施教的途径。

特别是对成绩管理数据库进行挖掘,其数据来源于成绩管理数据库,挖掘的任务就是从用户指定的数据库中以不同的角度或不同的层次上采掘出一系列的统计结果,如分布情况、关系,对比、显著性检验等,采掘结果用交叉表,特征规则,关联规则,统计的曲线、图表等表示,所以采用统计分析方法具有简单、方便、直观等优点,最为合适。

因此对学生学习行为和综合素质进行评价,一般采用模糊论中的模糊综合评判及模糊聚类的方法,对评价结果采用了对定性和定量指标加权平均算出综合素质评价得分并排名的方法,而且由于学生综合素质的评价指标是动态变化的,往往选用动态聚类法对评判结果进行动态聚类分析。

3.6评价教学质里

教学评价是根据教育目标的要求,按一定的规则对教学效果做出描述和确定,是教学各环节中必不可少的一环。教学评价可以通过校园网收集学生对任课教师所讲授、辅导课程的意见、评价。有关学生座谈意见、学生打分评价、平时各项教学检查、相应课程期末考试班级成绩汇总等都是教学评价的内容,把这些数据要作为教师教授相应课程的档案数据全部存人数据库。

利用数据挖掘对数据库中有关教学的各项评价进行分析处理,可以确定教师的教学内容的范围和深度是否合适;选择的教学媒体是否适合所选的教学内容和教学对象;讲解的时间是否恰到好处;教学策略是否得当等。从而可以及时的将挖掘出的规则信息反馈给教师,以期更好地提高其教学水平,更好地服务于学生。

数据挖掘课程设计论文范文7

关键词:数据挖掘;流媒体

中图分类号:TP311.13

课外学习支持系统可以帮助学习者深入理解已学得的知识,解决模糊的问题,拓展知识面,培养学习的自主性。以流媒体的形式传输学习内容很大程度上解决了网络带宽的问题。课外学习支持系统主要研究如何利用计算机化的电子工具帮助人们解决日常工作中碰到的问题,达到提高工作效率和效果的目的。它给学习者提供了自主学习的机会,学习者可以根据个人课堂学习的情况形成课内课外多渠道的立体学习方式。课外学习系统可以根据自身的需求,“定制”自己需要的信息,系统也会根据用户的需求、兴趣爱好、能力差异等特点,智能化的为用户选择对应的学习资源,提供智能化的学习指导。但是,此类系统大多存在一个问题,即在拥有一定访问量的情况下,系统并没有记录下使用者(学习者)的学习情况、学习效果及有关信息,以供教师分析研究。这造成了一种资源的浪费,因为无论是学习者主动留下的或是系统自动记录下的信息都可能是影响学习者学习效果和效率的一种因素。

本系统构想以学习者主动填写表格以及系统自动记录两种形式将信息录入后台数据库,经过对数据的处理、分析和挖掘,发现数据中隐藏的信息。数据挖掘技术在系统中的应用,帮助教师找到隐藏的提高学习者学习效果的因素和方法,通过访问数据发现学生的习惯,兴趣,认知风格等,同时根据学生访问规律调整网站结构,动态的订制个性化的网站。

1 系统组成

系统主要由视频点播和数据处理两大块组成。视频点播部分又由服务器、网络传输和用户终端构成。其中媒体服务器使用高性能的PC服务器,其主要功能是完成流信息的;媒体工具机需要安装声卡、视频采集卡、VCD或录像机、Windows 7或Windows NT,并安装media编辑工具,其主要功能是完成流信息的采集、编辑、生成等功能,并将生成的ASF文件存放到存储服务器上;存储服务器安装Windows 2000 Server,并具有大容量存储设备。数据处理部分由用户终端和数据库、数据仓库部分构成。用户终端以网页的形式使用视频点播服务,系统将记录下学习者的各种信息,并录入数据库,提供给数据挖掘原始数据。

2 数据挖掘的应用

下面我们主要探讨系统中数据挖掘技术的应用。

数据挖掘又称为数据库中的知识发现,它通过对大量的历史存储数据进行分析和分类得出有意义的模式和关系的过程。数据挖掘的应用十分广泛,挖掘对象可以是关系的、事务的、面向对象的和对象-关系的数据仓库。按照挖掘的数据类型的不同,可以分为空间数据挖掘、时间序列数据挖掘、文本或多媒体数据挖掘以及网络数据挖掘。特别是网络数据挖掘,可以从用户使用网络的过程中发现用户的偏好,对发现学习者在学习过程中潜在的影响因素非常有效。

2.1 界面模块

界面模块是学习者使用系统并与系统进行交互的界面。通过它,学习者可以学习系统提供的知识内容,手动添加学习者信息。

2.2 信息收集模块

本系统试图收集收集使用者的两部份信息:使用系统的原因,学习特征。数据收集方式以学习者填写表格和系统自动收集为主。通过第一类方式,可以收集到学习者的姓名、性别、年龄、教育程度,使用系统的各种情况等等。通过第二种方式,系统可以自动记录学习者使用系统的时间,经常点播的内容等记录与学习相关的内容。

2.3 数据抽取模块

数据库中的数据需要在收集起来以后不能马上作为数据挖掘的对象,需要经过一定的例程转换、过滤并建立模型。这里我们将信息收集阶段的数据转换,建立星型模型,其中建立两个关联。

第一个关联是事实表的关联,事实表包含4个字段:用户ID、使用时间、最频繁使用资料、系统时间。其中事实表中的“最频繁使用资料”关联最频繁使用资料表,该表包含背景资料、导学资料、原理再现分析、学习进度计划、学习方法指导、参考文献或相关链接。事实表中的“使用时间”关联时间维度表,该表包含系统时间、年、月、日、时刻。

第二个关联是用户维度的关联,用户维度表包含6个字段:用户ID、姓名、性别、喜欢的学习环境、喜好的学习材料、思考习惯。其中“喜欢的学习环境”关联喜欢的学习环境表,该表包含独立空间、集体学习。“喜好的学习材料”关联喜好的学习材料表,该表包含文字材料、图文并茂材料、多媒体材料。“思考习惯”关联思考习惯表,该表包含:独立思考、共同讨论。

3 数据分析模块

在将数据进行转换、去噪,并利用模型建立可以进行数据挖掘的数据仓库后,我们使用关联规则分析数据。考虑到每个人对节目访问的时间长短和频度,我们对关联矩阵的行或列向量进行规一化处理。对关联矩阵的列向量进行规一化处理得到矩阵,矩阵列向量反映了该学习者对网站的各个网页的访问偏好情况,实际上表现了访问者类型。关联矩阵的每个行向量反映了所有访问者对某一个网页的访问情况,实际上蕴涵有访问者共同的访问模式。

课外学习系统可以通过机器学习来观察用户的行为,利用挖掘技术掌握之前的访问行为,从而预测今后的访问趋势,还能提供一个比较智能的服务体系及时了解学生的状况、需求、能力差异、学习进度、兴趣爱好等,以上的系统设计只是简单的提供简单的设计思路,如果想要进一步进行关联分析,聚类分析,统计分析应采用更加复杂和完善的一个系统工程。

4 结束语

在网络学习的环境中,重视学习者在学习过程中隐含的因素,挖掘并分析这些因素是目前网络环境学习研究中可以深入探索的一个方向。基于流媒体的课外学习支持系统不但提供了学习者自我学习的机会,同时也应该在后台对所有学习者进行分析归类。本文仅对数据挖掘在该系统中的应用进行了构想。其实,系统分析归类的结果应该作为学习者再次登陆后动态显示网页的依据,真正做到个性化的学习环境和学习服务,并提供因人而异的学习诊断和评价。总之数据挖掘技术将越来越成熟,我们相信数据挖掘将成为如何教学形式中不可或缺的最有效工具之一,在数据挖掘的技术支持下,教育系统工程的教学评估将上升到一个新的高度。

参考资料:

[1]Richard J.Roiger,Michael W.Geatz.翁敬农,译.数据挖掘教称[M].北京:清华大学出版社,2003.

[2]邓晖.论网络环境下的学生特征分析系统设计[J].开放教育研究,2003(01).

[3]严华云.Web挖掘在网络教育中的应用研究[J].湖州师范学院学报,2003(06).

数据挖掘课程设计论文范文8

在传统教育中,教师通过与学生面对面的交流,获得学生学习行为的表现信息,较为容易掌握学生的学习情况和课程教学效果,但随着现代教育技术的发展,网络学习方式的普及,以及学生学习行为的变化,研究网络课程的教学方法受到了越来越多的关注。本文以Moodle网络课程管理系统为研究基础,分析并提出有针对性的数据挖掘方法构架,以达到对课程建设情况和学生学习情况的跟踪分析,为教师改进教学策略、提高网络课程教学质量提供有力支持及方法借鉴。

【关键词】 网络课程;数据挖掘;挖掘模式

【中图分类号】 G40-034 【文献标识码】 A 【文章编号】 1009―458x(2014)09―0068―04

一、引言

随着互联网以及移动设备的迅速普及,人们使用网络的时长在不断增加,通过网络进行学习的需求及能力也在迅速提高。据美国Ambient Insight研究报告指出,2009年美国中学以后的教育机构中,有44%的学生通过网络进行课程学习,预计到2018年,美国通过网络学习的学生人数将超过面授学生的总人数。在韩国,78%的高校都提供网络教学(Allen et al. 2008)。在中国,教育部于2011年10月启动了国家开放课程建设工作,教育部《教育信息化十年发展规划》(2011-2020年)中也明确提出了“推动信息技术与高等教育融合,创新人才培养模式”的要求,融合的关键就是要选择有效的网络教学模式,因此,对网络教学的质量和有效性研究正被人们所关注。

本文以Moodle网络课程平台为基础,分析并提出有针对性的数据挖掘方法构架,以达到对课程建设情况和学生学习应用情况的跟踪分析,为教师改进教学策略、提高网络课程教学质量提供有力支持。

二、选择Moodle网络课程平台的理由

之所以选择Moodle课程管理系统建设网络课程平台,是由于Moodle课程管理系统是一个开源免费软件,更主要的是其模块化的设计非常易于课程的创建,能使课程教师摆脱课程网站建设的技术屏障,还可以使教师从课程内容的设计者转变为教学资源与活动的组织者。[1]

在国外Moodle系统的应用得到了迅速推广。有数据显示,使用Moodle的国家和地区有200多个,注册使用机构有67,000多所,注册用户数量达5,800万,运行课程有600多万门。注册用户最多的前五位国家分别是美国、西班牙、巴西、英国和德国。[2]

三、教师所关注问题调查

根据教育部颁布的《CELTS-31教育资源建设技术规范》,将教育资源建设分为素材、课程、评价和资源管理系统开发四个层次。其中素材与课程是网络教育资源建设的基础,评价和资源管理系统则分别是确保质量与实现资源建设的工具与手段。[3]对于建设网络课程的教师需要了解它的使用情况,从而分析课程结构是否合理,调整课程内容的分布情况,优化网络课程的设计,提高教学效果。

为了解教师使用网络课程的期待值和目的性,我们采取目的抽样和随机抽样相结合的方式,样本来自笔者所在的三个教师专用QQ群人员。调查问卷设计从了解教师对网络课程的需求、认识、应用三个主要层面展开,具体的问卷内容为四个部份:了解参与问卷教师的基本情况;了解教师对网络技术应用的需求情况;了解教师对网络课程的认识及使用困难所在;了解教师希望网络课程能帮助解决教学中的哪些问题。问卷在公共专业问卷调查网站(问卷星)上,一周后回收有效问卷159份。数据分析基本报告可见链接:http:///report/3234099.aspx。

笔者所在院校为云南普通高校,与问卷的地图分布情况相吻合,应该更能代表云南普通高校的普遍情况(见图1)。

图1 问卷来源地理分布比率图

问卷中有96.61%的教师认为应该在教学中整合网络技术,有38.98%的教师因为技术应用能力的不足,不够明确如何使用网络技术(见图2),这说明我们建设网络课程应该选择如同Moodle这样简单易用的课程管理系统。

对于建设网络课程,教师关注度较高的前4个方面是:学生学习过程参与的情况、网络资源的使用情况、学生在线学习时间以及学生参与讨论的频度情况(见图3)。

图2 教师对网络技术与教学融合的意见

图3 教师关注信息统计

四、网络课程数据挖掘模式构架

数据挖掘技术是获取相关信息的有效技术手段。对于教师所关心的几个方面内容,这里提供几种可借鉴的方法:

1. 学生学习过程分析

美国教育评价专家斯克里文(G F. Scriven)在1967年所著的《评价方法论》中,提出形成性评价是为正在进行的教育活动提供反馈信息,以提高正在进行的教育活动质量的评价,是一种对学习进程的动态评价。教师和学生可以依据获取的反馈信息了解学习状态,及时调整教学或学习。[4]

在Moodle平台中具备学生学习进展跟踪功能。

方法一:通过设置“课程进度跟踪”,了解学生各项学习活动的完成情况。

如图4所示,进入课程,在“课程管理”/“课程进度跟踪”进行跟踪条件设置,然后再选择“课程管理”/“报表”/“课程进度”,就会显示选修该门课程的所有学生的各项学习活动的完成情况。

图4 课程进度跟踪设置

方法二:分析学生各项学习活动的参与度。

通过选择“课程管理”/“报表”/“课程成员”,可以详细地显示各项课程活动学生的参与情况,以及参与的次数,更清楚地分析学生的学习努力程度。如图5所示,列出了数据库原理及应用这门课程的“第一部分测验”活动、每个学生参与的次数。

方法三:采用数据挖掘手段,了解学生的学习风格。

此方法要求具备一定的数据挖掘知识及应用能力。通过Mysql系统提取Moodle后台数据库(\server\mysql\data\mysql)进行关联规则分析。

关联规则数据挖掘,可以发现学生学习行为之间的关系,通过对学生的某两类网络学习行为之间取值关系进行分析就可以得出它们之间的关联性,进而预测学生将要进行的下一个行为,从而挖掘网络学生学习行为之间的关系,使得学生学习风格显性化。[5]

2. 课程资源利用情况分析

课程资源建设是影响网络教学应用质量的重要因素。甘振韬等通过SQL Server的Analysis Services 工具,对网络课程的资源配置情况,包括资源配置指数和访问量进行分析。[6]

Moodle平台能很直观地呈现课程各项资源的访问情况。

方法:选择“课程管理”/“报表”/“课程活动”,课程设计的各项活动被访问量被详细统计出,如图6所示,教师可以清楚了解课程资源的利用率情况,分析学生的学习喜好,适当调整各活动资源的配比。

图6 课程资源访问情况

3. 学生在线学习时间分析

对于某门课程,通过分析学生的日志,可以掌握学生的在线学习时间,以及学习时段的分布情况。

方法:点击“课程管理”/“报表”/“日志”,其中可以设定查看所有成员或是某一个成员、所有活动或是某一项活动,以及所有日期或是某一天,学生的在线学习情况。如图7所示。

图7 学生日志

4. 学生参与讨论的频度分析

学生参与课程讨论的频度,可以反映学生的学习主动性,教师通过观察可以即时进行有针对性的教学干预。

方法:选择“课程管理”/“报表”/“课程成员”,如图8所示,学生参与“课程聊吧”活动的情况。

图8 学生参与讨论活动的频度

5. 学习成绩分析

学生的最终学习情况需要一个成绩评定,Moodle平台的设计理念中非常强调过程性评价,它能够记录学生学习过程中的各项活动成绩,包括师生、生生相互评价的成绩,汇总成学生的最终成绩。

方法一:查看教学活动的单项成绩情况。

直接使用Moodle平台所提供的课程管理功能,点击“课程管理”/“成绩”选项,打开成绩管理菜单,再选择“类别和项”下的“简略视图”(如图9),可以查看教学活动过程各项汇总成绩。并可以设置学习过程中各部分占总成绩的比率。

方法二:对测验试题结构分析。

在Moodle中若选择测验,则出现“测验管理”,再选择“测验管理”/“统计”,可以得到本次测验的统计分析报告。包括此测验的标准偏差、测验的分数分布偏度、分数的分布峰度等。还有此测验试题的结构分析结果,包括容易度指数、试题的标准偏差等(如图10),能让教师科学地调整测验的结构组成,试题的难易程度和分数的布局等。

图10 测验试题结构

方法三:在成绩管理菜单下选择“导出”为Excel、OpenDocument电子表格或其它文档,再进行统计分析。

6. 群组分析(分组)

学生分组开展学习,可以促进学生的集体意识及合作能力的培养,但如何分组?各分组成员真的能很好地协作吗?这需要教师特别注意,需要考虑如何分组才能更好地激发学生的学习积极性。

方法一:选择“课程管理”/“用户”/“小组”,可以自主创建小组,也可以用“自动创建小组”方式创建,如图11所示,就是以自动方式创建的小组,其中还可以指定小组数量或是每个小组成员数。这种方式设置的小组较为随机,如果希望分组能考虑成员的凝聚性可以选择方法二进行。

方法二:应用社会网络分析软件,如UCINET等,可以开展学习社群的关系距离及中心性分析,以及小团体分析等分析。通过收集学生在讨论区或是聊天室中的问答的关系情况获得分析数据。对于社会网络结构的特征分析可以辅助判断师生交互网络发展的成熟程度。

五、小结

本文基于Moodle网络课程管理系统,介绍了教师关心的几个方面的数据分析方法,为想要分析自己网络课程使用情况的教师提供方法借鉴,从而教师能够更好地调整网络课程的内容组成、结构布局,以及教学方法策略的调整。同时,本研究也适当突破Moodle网络课程平台,提供了在其它网络课程平台中进行数据挖掘分析的方法和思路。通过几个方面数据分析方法的整合,目的是提供一种进行网络课程数据挖掘模式架构的研究。今后,研究还应深入底层数据的分析,提供更具通用性的网络课程数据挖掘模式方法。

[参考文献]

[1] 黎加厚. 信息化课程设计――Moodle 信息化学习环境创设[M]. 上海:华东师范大学出版社,2007.

[2] 张伟远,段承贵. 网络教学平台发展的全球合作和共建共享[J]. 中国远程教育,2012,(10):32-36.

[3] 邓康桥. workflow技术在网络课程开发管理系统中的应用研究[J].中国远程教育,2013,(4):63-68.

[4] 刘纳. 基于数据挖掘技术的网络学习形成性评价研究[D]. 上海:华东师范大学,2012.

[5] 李素珍. 基于网络学习行为分析的网络学习风格与学习偏好挖掘模型研究[D]. 武汉:华中师范大学,2009.

[6] 甘振韬,梅文,郭玉军. 数据挖掘技术在网络课程资源配置中的研究[J]. 中国医学教育技术,2012,26(6):635-638.

数据挖掘课程设计论文范文9

关键词:数据挖掘技术 高等学校 教学 应用研究

中图分类号:G421 文献标识码:A 文章编号:1672-3791(2013)05(a)-0201-01

21世纪是经济和社会不断发展,科技水平不断提高的信息化时代,从而促进了整个社会的信息总量的增加,提高了人们利用信息技术寻找数据的能力。可是由于积累的数据不断增多,可是在对数据进行挖掘的过程中对所隐藏的知识知知晓的方法比较少,从而就出现了数据大爆炸,而知识上出现了严重的匮乏这样的现象。

随着人们对数据库技术上的不断掌握和成熟,以及在数据应用上也得到相应的普及,人们积累的数据资料很多,人们累积了比较多的数据资料,可是却没有充分的发挥与利用数据库里蕴含的丰富的知识和信息。由于在现代社会里数据库的量在以几何状态不断的增长着,而从数据的中,人们要在挑选技术的需求下对信息去粗存精、去伪存真愈发强烈,日益期望计算机系统能够提供更高层次的数据分析,从而有效的帮助领导者注意到数据之间容易被户数可是又很重要的因素,在决策上得到了更好的支持效果。同时为了跟这项要求呈现迎合现象,应挖掘数据库的技术和发现数据库中的知识KDD,才能顺应时代的发展,得到相应的推广和研发。

1 数据挖掘技术的具体含义和特点

数据挖掘技术的含义主要指的是从一些不完全、有噪声、模糊的、大量的、随机的数据当中,对其隐藏在数据里面的信息进行有效的提取,可是又不被人们事先知道,然而又十分有用的信息与知识的过程。通过比较分析数据挖掘的目标,人们可以采用一些手段和措施进行挖掘,其中包含了人工智能、集合论或者统计学等,再运用相对应的数据挖掘算法进行分析数据的基础,在通过可视化的工具来描述夺取的模式和表达其规则。

对于数据挖掘技术而言,其通常具有以下三个特点。首先数据挖掘技术能够有效的发现能够表现系统局部特征和规律的模型;其次数据挖掘技术可以自动的对趋势进行有效的预测,从而发掘新的知识;最后数据挖掘技术能够便捷的获取规则,并进行实时的更新。数据挖掘方法是一种开放性的思维方法,它能够及时的使用和借鉴在模型法中的多项成果,例如神经网络、粗糙集、朴素贝叶斯算法等方法,这些方法无一例外都被数据挖掘方法所采用。

2 数据挖掘技术的目的和挖掘的过程

首先,对于数据挖掘技术而言,其希望能够发现以下几方面的知识的知识:一方面是能够有效的表现同类事物的共同性质的泛化知识;另一方面是期望能够发现可以表现一种事物与其他事物之间的依赖或者关联的关联型知识;第三是期望能够发现可以详细的展现同类事物的共同性质的特征型知识,以及在不同事物之间存在的区别的差异型知识;最后采用数据挖掘技术还期望能够获得通过对历史和当前数据的分析,能够预测未来的预测型知识。

数据挖掘技术挖掘的过程是从大型库中挖掘出未知的、有效的并且具有实用价值的信息,再通过相关信息的综合比较来做出具体决策。对其而言,通常可以将其分成准备、数据挖掘、评价阶段以及运用这四个阶段。

3 数据挖掘技术在高等学校教学中的具体应用

3.1 了解高校学生的基本信息

采用数据挖掘技术,不仅可以实时的分析,跟踪和了解学生的出勤状况,而且能够针对学生的具体年龄和个人情况进行有效的分析,在综合的掌握和了解还可对学生的结构和组合的基础上,来为其安排合理的课程,从而为科学合理的评价学生的综合素质情况提供良好的理论和数据依据。可以采用可视化的技术来对学生的相关数据进行挖掘,或者给教师提供图表和曲线图,使教师能够充分合理的利用学生的问题资源,来科学合理的提高教学质量。在另一方面,数据挖掘还能够应用于网上的考试系统,挖掘考生的成绩情况,从而为教师在之后的教学中更好的教导学生提供重要的帮助。

3.2 掌握学生的学习特征

所谓的学生学习特征一般包含两方面的内容:一方面是学生进行学习上准备,另一方面则是学生的学习风格。学习准备一般包含初始能力与一般特征。学生的初始能力是指学生在学习某一特定的课程内容时,学生已经掌握的相关知识和技能,还有学生对这些学习内容的具体认识和态度。而学生的一般特征则是指学生在学习过程中能够影响学生的心理、生理和社会的特点,包括年龄、性别、年级、认知成熟度、智力才能、学习动机、个人对学习的期望、生活经验、文化、社会、经济等背景因素。

3.3 教师要科学合理的设置课程

学生学校学习的过程中,其对课程的学习一般都是循序渐进的,并且相关的课程之间都有一定的联系和前后顺序关系。因此学生在学习一门比较难的课程之前一定会先选择一些基础课程来做好充足的准备。对于学生学习而言,不学好基础课程,一定会对之后的课程学习带来比较大的影响。此外,由于同一年级的学生,班级不同,因此授课教师和班级文化也会产生比较大的差异,这就会影响到学生的总体成绩。因此合理科学的利用学校教学数据库中存放的历届学生各门学科的考试成绩,再在综合数据挖掘技术中对关联分析和时间序列分析的功能基础上,从这些海量的数据中探寻出对教师教学有用的信息,总结出一些具有价值的规则与信息,从而使教师能够找到影响学生成绩的具体原因,在此基础上对课程设置进行科学的挑选和合理的安排。

4 结语

总而言之,随着科学技术的不断发展和信息量的海量增加,依靠传统方法很难在规模庞大的数据中找到科学决策的依据。因此这就需要我们借助数据挖掘技术去寻找蕴藏在数据库中的规律,从而为科学合理的决策提供有力的支持。数据挖掘技术,作为一门辅助工具,永远无法动摇教师在提高学生成绩的地位,可是它能够为教师的决策提供科学的依据,从而为传统教学中很难获取或者不能获取的模型提供了可能。

参考文献

[1] 惠向晖,王亚伟,苏克勤,等.浅谈数据挖掘技术及其在高等学校教学中的应用[J].北计算机科学,2010(11):41-45.

数据挖掘课程设计论文范文10

关键词:数据挖掘;聚类分析;成绩分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)21-4778-03

成绩作为学生在校学习情况的主要表现形式,既是教学效果考核的核心指标,也是对学生学习效果和教师教学效果的检验和评定,更是反馈于教学活动、服务于教育决策、为教育科研提供参考资料的重要手段。在高职教育信息化发展的十多年间,各类管理信息系统相继投入使用,基于传统数据库应用技术的学生成绩管理系统在教务管理中取得了很好的效果,其中大量数据日积月累起来,已形成非常宝贵的信息资源。但在大多数院校中,这些数据的主要用途仍局限于提供简单查询和统计报表,反映了过去一段时间和当前的教学情况,对后续的教学及管理工作的指导意义不大,如何利用数据挖掘技术对这些数据进行深层分析,从大量数据中发现潜在规律和内在联系,以提高教师教学的针对性、教学管理决策的科学性,进而提高学校整体教学水平和办学质量,将是高职院校在今后的信息化建设和信息资源管理、开发和利用中的重要内容之一。

1 数据挖掘

1.1 数据挖掘的概述

数据挖掘(Data Mining,DM),又称为数据库中的知识发现,被信息产业界认为是数据库系统最重要的前沿之一。它是从大量的、不完全的、有噪声的、模糊的以及随机的数据中,提取人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术在应对各行各业出现的“数据爆炸、信息匮乏”的问题上发挥了很好的作用,该项技术最初多应用于金融业、保险业和商业领域,随着影响力的扩大,逐步扩展到医疗保健、运输业、行政司法、通信业等社会部门以及科学和工程研究单位。近十年间,数据挖掘技术在教育领域也受到越来越多专家和学者的关注,原因是教育领域信息化管理提供了大量的数据资源,但这些资源的利用非常有限,没有对后续教育教学工作发挥应有作用,因此越来越多的组织和大学把教育数据挖掘EDM(Educational Data Mining)作为研究对象,尝试将各种各样的数据挖掘方法应用于教育领域中,目的是从学校的数据中发现新的知识,帮助教师和管理人员改进方法、提高效能。

1.2 分析主题

本文基于实现对某高职院校学生进行成绩综合分析的目的,拟确定以下几个分析主题:

主题一、分析学生成绩与学生的录取专业、生源所在地、性别等学生信息之间的关联,为招生部门制定招生计划,为教学管理部门在设置专业及专业方向等方面提供决策帮助。

主题二、分析学生成绩与公共基础课、专业理论课和专业实践课之间可能存在的各种关联及关联的程度,为教学管理部门和各系制定人才培养方案提供参考依据。

主题三、分析学生成绩与授课教师年龄、学历、职称之间的关联,为各专业师资配置提供合理化建议,进而辅助学校人事和教学部门科学制定教师职业规划、教师培训等一系列师资队伍建设工作。

1.3 数据ETL

由于数据挖掘技术依赖于经过良好组织和预处理的数据源,数据源的好坏直接影响着数据挖掘的效果,因此构建纯粹用于数据挖掘分析的数据仓库的非常重要,该过程从各种数据源中根据分析主题抽取数据,并完成对数据的清洗和转换且最终加载到数据仓库中,为后续的数据挖掘提供了良好的数据环境。数据的这种预处理过程称为ETL(Extract/Transformation/Load),指根据分析主题,从单一或异种数据源中抽取出所需的数据,经数据清洗、转换等,按照预先定义好的数据仓库模型,将数据加载到数据仓库中,为数据挖掘提供数据平台。ETL的设计与实施占据整个工作量的70%,是工作量最大、费时费力最多的环节,这也显示了它在实现数据挖掘过程中的重要性。

本文以2007级各专业学生成绩和学籍信息,共计13个专业,22个班级,932名学生和287名教师的基本信息为分析对象,这些数据在未处理前存在一些问题:比如在教师基本信息中,有较多的外聘教师的学历、职称等信息不详,甚至有部分外聘教师的出生日期以录入的时间的形式存在等等,又比如教务管理系统中存在 “异名同义”的现象,例如课程名称为“计算机平面设计”和“PS图形图像处理”,事实上表示的是同一门课程。数据的清洗就是针对以上这些问题,对数据中的杂质、噪声、不一致、不规范、遗漏等情况加以处理。数据转换在数据预处理过程中也尤为重要,该文拟分析07级各个专业学生的成绩,因不同专业课程不同,且课程的性质、学分以及总学时的差异,在分析前必须进行相应的成绩换算,处理方法是将学生在校学习期间的所有课程分数乘以相应的学分数的求和除以所有课程学分的总和,得到该生的平均学分绩,以期达到客观比较学生在校成绩优劣的效果。

1.4 聚类K-means算法

聚类(Clustering)分析是数据挖掘技术的重要内容之一,它能从潜在的数据中发现有意义的数据分布模式,现已广泛应用于模式识别、数据分析、图像识别以及其他许多方面。聚类是指在事先不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组。它的重要特征是“物以类聚”,即要求同一类的数据对象尽可能相似,而不属同一类的数据对象尽可能相异,随后观察每个类(一类数据集称为一簇)的特点,集中对特定的簇做进一步的分析。

K -means算法,也被称为K -平均或K -均值,是一种得到最广泛使用的聚类算法。它的核心思想是通过迭代把数据对象集划分到不同的簇中,以目标函数最小化为止,从而使生成的每个聚类内紧凑、独立。这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。

K均值算法流程:

1)随机取K个元素,作为K个簇的中心;

2)分别计算剩余元素到各个簇中心的相异度,将这些元素分别划分到相异度最低的簇中。

3)根据聚类结果,重新计算各个簇的中心(计算方法是取簇中所有元素各自维度的算术平均)

4)将全部元素按照新的中心重新聚类。

5)重复第4步,直到准则函数收敛。

6)输出结果。

2 系统设计

3 模型评价

4 结束语

本文首先阐述了将数据挖掘技术引入高职教育学生成绩分析应用的可行性和重要性,并详细介绍了一种常用的数据挖掘方法——聚类分析算法K -means算法。围绕分析主题,以某高职院校07级毕业生在校成绩,以及相关联的师资和综合学籍信息等数据搭建数据仓库,利用Microsoft SQL Server 2008 平台构建基于分析主题的学生成绩数据挖掘模型,最终评价分析模型,找出潜在规律和影响学生成绩的因素,提供有效的教学决策支持。

参考文献:

[1] 黄伟.基于数据挖掘的高校招生管理信息系统的研究[J].硅谷,2009(21):98.

[2] 谢邦昌.SQL Server 2008 R2数据挖掘与商业智能基础及高级案例实战[M].北京:中国水利水电出版社,2011:3-8.

数据挖掘课程设计论文范文11

一、文献综述

刘华和李瑗[1]通过教学态度,教学内容,教学方法这三个指标打分情况,进而利用Microsoft决策树算法,Microsoft关联算法和Microsoft聚类分析法挖掘模型进行挖掘分析。骆懿玲[2]基于元规则约束的关联挖掘进行课堂教学质量评价挖掘,并得出分析结果,给出建议。邵珠艳等[3]利用灰色关联分析,对影响课堂教学效果的因素打分后进行分析。叶勇[4]将云模型引入到遗传算法,再用改进遗传算法对支持向量机参数进行优化,并与BP神经网络、多元线性回归模型比较,以便对课堂教学质量的模型评价效果进行评价。袁万莲和郑诚[5]利用关联规则进行数据挖掘,得出与教学质量相关因素是教师的学历、职称以及教龄;职称为讲师、教龄较长或者高级职称、高学历的教师教学质量较好。张震等[6]将评价指标大致分为教学态度、教学内容、教学水平以及教师研究能力,利用关联规则进行数据挖据。戴俊[7]以教师因素,学生因素,师生双方因素以及环境因素和考试成绩作为变量,通过主成分回归方法对影响课堂教学效果的因素进行分析,为改进教学评价方式与提高课堂教学效果提供理论参考。许云华等[8]设计调查问题为“您最想对课堂教学提的意见”“改进方法”“如何实现从被动学习向动吸收知识的转变”,基于扎根理论对上述问题答案进行分析并得出分析结果。柴志贤和邱风[9]借鉴过程—成果研究方法,在以往研究的教师职称、年龄、所教年级、课程类别这些教师背景变量的基础上,增加教学素质、教学技能与教学责任心这三个影响因子进行分析,从而为提高高校课堂教学效果提供一定经验指导。

二、理论

(一)支持向量机(SVM)

支持向量机是由CorinnaCortes和Vapnik等在1995年首先提出的,是一种基于统计学习原理的数据挖掘技术。支持向量机分为支持向量回归机和支持向量分类机,本文主要应用支持向量分类机进行数据挖掘。支持向量机分类的核心是找到两相互平行并且间隔(margin)最大,并能将属于不同类别的样本点正确分开的边界,位于两边界中间位置并与之平行的超平面,称之为最大边界超平面,即为最终解。

(二)TF-IDFTF-IDF

是一种判断词语在文件中重要性程度的加权统计方法。一个词语在文件中出现的频率越高,它对这个文件来说就越重要;这个词语在整个语言中出现的频率越高,它对这个文档来说越不重要。TF-IDF可以利用计算机技术在不需要人工进行干预的情况下提取文件中的关键词,并快速对词频进行统计,常被用于文本挖掘和信息检索等前言领域。TF-IDF的主要思想是:若某个词在其他文件中很少出现,但在这一文件中出现的频率高,那么它极有可能反映了这一文件的特性,则认为它很适合用来分类,因为它具有很好的类别区分能力。TF-IDF实际上代表的是TF*IDF,TF表示词频,IDF表示逆文件频率。

三、模型

(一)数据来源

1.变量选取

为了获得教师因素、学生因素以及环境因素这三个变量的收稿日期:有效数据,笔者精心设计一份调查问卷,影响因素分为教师、学生及环境。教师因素中包括:学与生互动情况、授课方法、课堂考勤、按时上下课、PPT使用情况、普通话水平、讲课声音大小、作业布置情况以及课程考查形式。学生因素包括:出勤状况、遇到问题交流情况、课下与同学和老师交流情况、学习状态、听课表现、上课做笔记情况、课程内容掌握情况以及课堂上的感受。环境因素包括:上课时周边环境、所用教室类型、课程安排上下学期情况、上机教学与否、教学设备、授课时间段、授课时长以及教室卫生环境。

2.数据获取

在调查对象的选择上,我们主要以东北财经大学研究生为调查对象,发放线上调查问卷,让学生认真对自己所学课程中某一门课的教学效果进行评价。

(二)数据挖掘过程及结果

(1)读入数据。选择源选项卡中的excel节点,将调查问卷中数据导入到clementine中。(2)数据审核。选择输出选项卡中的数据审核节点连接到excel节点上,由审核结果可知,Q5变量的类别比为90∶9∶1,单个类别值过大,会影响建模的精确程度,故应删除。(3)数据分区。利用分区节点将数据进行分区,其中70%为训练集,其余30%为测试集。(4)变量相关性分析。利用统计量节点分析变量之间的相关性,若相关性高,需要剔除相关变量,反之则不需剔除。经测试,在本文的变量中未发现高相关性变量,因此无需剔除变量。(5)得分变量重新分类。利用“重新分类”节点将得分变量分类,其中0—7分为一类,8、9、10分为另一类。(6)特征选择建模。选择建模选择项卡中的特征选择节点,将其连接到数据流的恰当位置上。(7)支持向量机建模。提取上一步得到的重要变量,选择建模选择项卡中的SVM节点进行建模。(8)数据测试。测试过程和训练过程是相同的,且得到的准确率为93%,测试结果良好。

(三)文本挖掘过程及结果

1.数据清洗。原始调查问卷数据中包括文字,标点符号。其中一些信息对关键词抽取没有帮助,甚至会严重影响研究。为了方便抽取工作顺利开展,有必要先对原始评论数据进行清洗,如“无”或“好”等,对问卷内容没有帮助,进行直接删除处理。2.数据预处理。预处理可以把句子级别的文本数据划分成可识别的词、词组,主要包括分词、词性标注和依存句法分析三个部分。在本文中使用LTP进行分词。3.关键词提取。由于人工标注会造成主观干扰,本文为了减小人工标注的主观性影响,要利用TF-IDF算法自动提取关键词。

四、结论及建议

(一)结论

学生、教师、环境三方面均对课堂接收效果产生较大影响。数据挖掘结果中,课堂兴趣、学科掌握内容为学生因素,授课方法以及课堂互动属于教师因素,排在第二位的上课周边环境则是环境因素。文本挖掘结果中,学生、课程、认真为学生因素,理论、讲课、上课、教学、案例、互动属于教师因素,教室则是环境因素。因此,三种因素均对课堂接收效果产生影响。利用文本挖掘与数据挖掘对比分析可以得到良好的研究结果。文本挖掘与数据挖掘的结果中均体现出了学生因素、教师因素以及环境因素对课堂接收效果产生影响,并且两种方法的分析结果中均以高频率出现“互动”因素,印证了文中使用的两种方法均可行并可得到较为精准的结果。

(二)建议

增加课堂小组讨论环节。集体讨论是课堂中不可忽视的环节,既可以活跃课堂的气氛,交换意见观点,拓宽学习范围;又可以活跃学生思维,多角度展开思考,提升解决问题的能力,避免传统灌输式的教学方式。增加师生课堂互动。加强师生互动,调动课堂气氛,并利用实际问题创设情境,让学生给出解决的方案,提高学生的学习兴趣。增加课本知识与实际案例的结合。书本的知识往往是生硬抽象的,而结合实际的案例后,不仅可以使死板的课本知识更加形象生动,易于理解消化,融会贯通于实际案例中;也可以提高学生的学习兴趣,提升学习的积极性与主动性。增加课程实践环节。将课本知识用于实际操作中,不仅可以升学生学习的乐趣,还可以使学生结合生活经验学习相关知识,更好地将书本知识用于实际学习以及未来的工作中,同时在实践中深化对于课本知识的理解。增加高校课改调查。

数据挖掘课程设计论文范文12

关键词:数据挖掘;关联规则;成绩分析;APRIORI算法

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2017)04-0078-03

一、引言

随着时间的推移、高校的扩招和新课程的开设,高校教务管理系统积累了大量的学生数据信息[1]。普通的教务管理模式对学生成绩数据处理还停留在简单的储存、查询、统计等初级阶段,已经很难有效的管理这些数据资源,造成了巨大浪费[2]。怎样从海量的学生成绩数据中挖掘出对于高校教学管理者有用的隐藏信息,以及通过信息之间的联系得出一些有价值的结论呢?

数据挖掘技术的应用就是为了能从海量的数据中挖掘出隐藏其中的真正有价值的信息,并找出这些信息之间的联系[3]。关联规则挖掘是数据挖掘技术的重要组成部分,APRIORI算法是其中相当有影响的布尔型挖掘关联规则频集算法[4]。本文通过运用关联规则挖掘知识对本校部分学生成绩进行较深入的分析,总结出对高校管理者未来教学管理工作的开展有重要参考作用的信息和结论[5],从而为教师评价学生以及明确今后的教学和管理方向提供依据。

二、数据预处理

1.数据来源及数据集成。本文利用数据挖掘技术,使用SQL Server 2012进行操作。从本校教务系统中导出2008级(已毕业)学生的相关信息作为样本,然后删除所有学生的姓名数据,以达到保护学生隐私的目的,将学号作为索引,对导出的数据进行集成和变换,全部转变成XLS格式,导入到数据库中。

2.数据的精简。成绩数据库数据量很大,需对数据进行有针对性的精简。本文选取八门有代表性的必修课程的成绩。因为成绩数据有缺失、重复等特点,首先要对成绩数据进行预处理,其中缺失的删除,有成绩的数据重复的仅选初修成绩。成绩视图如表1所示。

(1)不同民族的学生成绩对比。为了突出分析效果,本文仅将少数民族学生整体与汉族学生整体进行分析。采样数据库中的成绩,将数据离散化,对民族、课程名称和其对应成绩映射成相对应字符。汉族学生映射成字符H,少数民族学生映射成字符S,将课程名称按上表顺序映射成字符A、B、C、D、E、F、G、I。根据学生成绩的实际情况,将成绩阈值分别设为55、60、65、70、75进行试验。根据实验结果的效果,本文选取65分为成绩阈值进行分析。成绩映射:将65分以上成绩映射成“1”,65分之下(含65分)映射成“2”。设定最小支持度为0.4,最小置信度为0.7。处理后实验结果如表2所示。

(2)不同课程成绩之间的关联。采样数据库中的数据,将课程名称和其对应成绩映射成相对应字符。将课程名称按上表顺序映射成字符A、B、C、D、E、F、G、I。我校成绩百分制到五级制的换算标准为:100~90为优秀,89~80为良好,79~70为中等,69~60为及格,59~0为不及格。通过对本校学生成绩分析,发现达到“优秀”标准的学生成绩较少,为突出分析效果,本文将“优秀”与“良好”两等级进行合并分析。成绩映射:将80分及80分以上为优良设为“1”,70―80分为中等设为“2”,60―70分为及格设为“3”,60分以下为不及格设为“4”。设最小支持度为0.1,最小置信度为0.7。处理后实验结果如表3所示。

(3)不同性别的学生成绩对比。采样数据库中的数据,将学生性别、课程名称和其对应成绩映射成相对应字符。男生映射成字符M,女生映射成字符W,将课程名称按上表顺序映射成字符A、B、C、D、E、F、G、I。根据学生成绩的实际情况,将成绩阈值分别设为55、60、65、70、75进行试验。根据实验结果的效果,本文选取70分为成绩阈值进行分析。成绩映射:将成绩70及70分以上设为“1”,将成绩70分以下设为“2”。设置最小支持度为0.3,最小置信度为0.6.处理后实验结果如表4所示。

三、数据挖掘的实现

关联规则技术是数据挖掘的重要方法。关联规则是指数据之间简单的使用规则及相互依赖关系,反映当项目集A出现的时候,往往项目集B也会跟着出现这一规律。关联规则挖掘过程主要包含两个阶段:先从资料集合中找出所有的高频项目组,再由这些高频项目组中产生关联规则。APRIORI算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。APRIORI算法实现步骤和案例分别如图1所示。

四、数据分析的结论

由于本文的篇幅问题,文中所做的实验只针对民族高校学生成绩中的一部分问题进行分析,不能涵盖成绩管理的方方面面,仅从以上三个方面来实验说明。

将数据挖掘技术运用于学生的成绩分析,我们可以很直观的得出很多隐藏在数据之下的信息,由此得出以下结论:①不同民族的学生成绩确实有着一定的差距。汉族学生的总体成绩要优于少数民族学生,说明部分少数民族学生入学前的基础知识储备不够。希望今后学校分级教学的课程覆盖面进一步加大,从入学开始就给予少数民族学生更多关注。②各课程之间有很大关联。总体来看,高等数学1成绩不好的学生,高等数学2成绩依然很差;高等数学成绩优异的学生,离散数学成绩依然很好;大学英语特别差的学生,程序设计语言成绩也并不突出。因此,高校管理者也应该在课程管理上多下功夫,如果一门基础课程掌握不好,很可能导致后面大量的专业课学习跟不上,因此建议高校课程建设的方向应多向基础课及核心专业课倾斜。如果是专业实用性比较强的专业,就应该提供更多的实践机会,让学生真正学到知识。③不同性别学生之间成绩差别也很大。女生各门课程成绩总体都明显优于男生,即使在传统观念普遍认为男生较为擅长的理工科课程上面,男生的成绩也不如女生。因此,对男、女生的管理也应区别对待,敦促男生多花精力在学习上,鼓励女生多花时间在实践或能力锻炼上,让每一个学生都领悟到上大学的真实意义。

五、结语

数据挖掘技术已经在西方被广泛应用,并且该技术在金融、电子商务等方面已初步体现了它的价值。而我国正处于数据海量、但有价值的信息却相当缺乏的宓兀大部分数据使用也仅仅只是实现对其输入、储存、统计等简单功能操作,无法从海量信息中甄别出有益、有价值的信息。当今社会信息技术高速发展,各种数据都在飞速巨增,如果数据挖掘技术被广泛运用于我国的高等学校教育中,那么将来我国的整体教育质量必将快速提升。作为致力于为少数民族地区输送合格人才的民族高校,更应加快步伐,将新兴技术运用到日常教学及管理工作中,为加快我国少数民族地区各项事业的发展做出贡献。

参考文献:

[1]R.Ventura. Educational Data Mining[M]. A Review of the State of the Art,2009:29-38.

[2]刘春阳.数据挖掘技术在高校成绩管理中的引用研究[D].大连交通大学工程硕士学位论文,2009:11-25.

[3]刘巍,董哲宇.数据挖掘如何应用于高校教学[J].中国教育网络,2014,(11):43-50.

[4]郭茹.数据挖掘技术在教育领域的应用[J].科技和产业,2014,(09):45-49.

[5]李梅,张阳,蔡晓妍.关联规则挖掘在学生成绩分析中的应用[J].中国电力教育,2014,(20):70-76.

The Application of Association Rules Mining in the Analysis of College Students' Performance in Universities

GUO Min,LEI Jian-yun

(Department of Education,South-Central University for Nationalities,Wuhan,Hubei 430074,China)