当前位置:论文网 > 论文宝库 > 信息科技类 > 应用电子技术论文 > 正文

研究C4.5算法在高职学校成绩分析中的应用

来源:UC论文网2016-01-02 21:44

摘要:

摘 要 :本文采用C4.5算法构造决策树的方法,对学生的成绩进行分析并找出影响成绩的主要因素和规则,给教师调整教学环节提供参考,对学生管理工作提出意见,从而指导教育教学工

摘 要:本文采用C4.5算法构造决策树的方法,对学生的成绩进行分析并找出影响成绩的主要因素和规则,给教师调整教学环节提供参考,对学生管理工作提出意见,从而指导教育教学工作。

关键词:数据挖掘;决策树;成绩分析;C4.5算法
 

1 引言
我们平时所以提到的成绩分析一般都是从试卷的难易程度、及格率、优秀率等方面进行的,这种方法只限于对该课程教学效果的评价,却无法得知学生成绩优劣是由哪些因素造成的。而且对于学校教学管理来讲,学生成绩数据还非常庞大。如何快速且准确地对学生成绩进行分析,研究影响学生成绩的主要因素,如何指导学生合理规划,提高成绩就显得尤为重要了。
本文对江苏省徐州医药高等职业学校14级部分学生学习《全国计算机等级考试一级教程》情况进行了详细的调查研究,并通过数据挖掘中的决策树技术对学生成绩的进行分析,从中找到影响学生学习成绩的因素以及这些因素反映的相关问题,从而提高教学质量。
2 C4.5决策树算法
C4.5算法是由J.Ross Quinlan在ID3的基础上提出的,是ID3的改进算法。C4.5算法的核心思想是利用信息熵原理,选择信息增益率最大的属性作为分类属性,递归地构造决策树的分枝,完成决策树的构造【2】。C4.5算法分类速度快,精度高,是目前比较完善的一种决策树算法。C4.5算法用信息增益率来选择属性,克服了用信息增益选择属性时的多选和重复,避免了拟合的发生。
  C4.5算法是以信息增益率为衡量标准。通过计算出各样本的信息熵、条件熵来来获得信息增益率。选择信息增益率最大的属性作为决策树的结点。
3 C4.5算法在学生成绩分析中的应用
C4.5算法在成绩分析的流程分为以下六个步骤:属性选择、数据收集、数据预处理、模型建立、提取有用信息和模型评价。
3.1 属性选择
  本文以2014级部分学生国家计算机一级考试成绩为例,选取课程兴趣,学习基础,理论知识掌握,完成模拟测试程度,学习习惯等基本情况来分析与计算机一级考试成绩的关系,从而得到影响计算机考试成绩的主要因素,为学生的计算机学习提供帮助和指导。
3.2 数据收集和数据预处理
  学生基本情况信息数据结构由学生的学号、姓名、专业、班级、性别等属性信息组成。这些信息可以通过学校的"学生信息管理系统"获得。对于影响学生成绩的属性,则采用调查问卷的形式。此次问卷一共对245名学生进行了调查,并将得到的数据整理形成了"问卷情况调查表"。
  将学生的基本信息和问卷调查数据整合在一起,去掉一些与成绩无关的属性,如姓名、专业、班级等属性,形成以学习基础、课程兴趣、理论知识掌握情况、完成模拟测试套数以及学习习惯五个属性的"影响计算机以及考试成绩的数据调查表"。去掉空白的记录,生成了235条信息,如表1所示:
  
  表1影响计算机以及考试成绩的数据调查表
ID
学习基础
课程兴趣
理论知识掌握情况
模拟测试完成程度
成绩
1

不感兴趣


36
2

感兴趣


68
3

感兴趣


87
4

不感兴趣


55
5

一般


50
.....

3.3 建立决策树
为了了解影响计算机考试成绩的因素,将表1中三分之二的信息(141条记录)生成训练集,剩下的三分之一作为训练集的测试集。然后,分别以成绩是否合格和成绩是否优秀为分类属性来建立决策树模型。本文以成绩是否合格为例,来生成决策树模型。
笔者通过Weka这个平台进行数据挖掘,从而使新的用户可以通过该方法处理更多的数据集。在Weka中进行决策树分析,比较各个测试属性的信息增益率,选择数值最大的"模拟测试"作为根结点,并根据它的三个属性形成新的训练集,得到如图1的决策树。

3.3 生成分类规则
以图1成绩是符合为例,生成以下规则:
规则1:如果 "有好的模拟测试"则成绩均高于"合格";
  规则2:如果"有好的学习基础"且"模拟考试中等",则成绩为"合格";
  规则3:如果"有好的学习基础"且"模拟考试差",则成绩为"不合格";
  规则4:如果"有中等的学习基础"且"理论知识好",则成绩为"合格";
  规则5:如果"有差的模拟测试"且"有差的学习基础"且"对课程不感兴趣或者一般兴趣",则成绩为"不合格"。
  规则6:如果"有差的模拟测试"且"有差的学习基础"且"对课程感兴趣",则成绩为"合格"。
3.4 规则评价
  从决策树得到的分类规则,我们可以看出"学习基础"和"模拟测试完成程度"这两个属性最为重要,尤其是"模拟测试完成程度"对计算机考试成绩影响最大,也可以说学生对模拟测试的熟练程度和完成程度决定着学生的计算机一级考试成绩。这也可以为从事"计算机国家一级考试"课程教学的老师有所指导,要求我们老师要多让学生完成模拟试题,打下牢固的基础,从而提高教学质量。
  用该模型对测试数据集进行预测,其平均正确预测率为86%,实验显示该模型预测的学生计算机一级考试成绩是符合实际的。
4 结束语
  本文通过实例表述了决策树技术在学生成绩分析中的应用,通过C4.5算法找到了影响学生计算机考试成绩的主要因素,从而找到课程教学的关键,进一步提高教学质量。

参考文献:
[1]邵峰晶,于忠清,王金龙 数据挖掘原理与算法 2009
[2]李强 创建决策树算法的比较研究-ID3,C4.5,C5.0算法的比较.甘肃科学学报,2006;(12):84-87
[3]傅亚莉 数据挖掘技术C4.5算法在成绩分析中的应用 重庆理工大学学报2013(11)
[4]贺爱香,袁雪松 C4.5决策树算法在应用型本科高校就业管理中的应用研究滁州学院学报 2012(5)
[5]毛国军,段立娟,王实 数据挖掘原理与算法 清华大学出版社,2007
[6]邝涛 基于决策树技术在高校成绩分析中的应用研究 新乡学院学报2011(2) 


核心期刊推荐