论文部分内容阅读
在线教育平台是新兴事物,它使得教学得以在互联网上开展,由于其学习的便捷性吸引了众多的教师与学生在这种平台上开展教学活动。随着用户量的日益增多,在线教育平台上积累的教育数据也越来越多,学生上课的数据被无形地无时无刻地记录下来,这些数据成为了教育界的大数据,研究学者对这些数据进行挖掘就可以对学生的成绩进行预测、对教师的教学进行评价等。目前我国出现了很多在线学习的平台,各大高校的MOOC平台建设也正在如火如荼地进行中,但是平台上一些课程的教学质量却并没有得到应有的规范和完善,对此很多学生会遇到学习完课程之后发现并不适合自己的问题。基于此,文本对在线教育平台上积累的课程评论数据进行研究分析,这些课程评论为学生上完课之后的课程评价,能够反映出已上该课程的学生对该课程的情感态度,对这些评论数据进行情感倾向性研究可以对教师的教学质量进行评价,也可以为后续想要选择这门课程的学生提供决策建议。本研究选用网易云课堂上英语模块下的课程评论文本作为实验的初始数据,这些数据通过基于WebDriver的爬虫程序可以进行爬取。在爬取到数据之后,本人对数据进行处理,将没用的数据诸如灌水、广告等文本剔除之后得到实验所需的数据集共5000条评论文本。在获得实验数据集之后,本文基于目前主流的情感词典和机器学习两种文本情感分析方法对课程评论文本进行情感倾向性分析,其中情感词典的实验采用PMI算法进行,机器学习的实验采用SVM算法进行。在PMI算法的实验当中,文本使用NTUSD情感词典,基于默认的参考词汇与基于词频最高的三组参考词汇分别进行了课程评论文本的分类实验,实验结果发现后者的文本分类效果更佳。在SVM算法的实验当中,本文使用LibSVM工具进行训练集的训练与测试集的测试,选用多项式核函数,最终实验的分类效果明显好于基于PMI算法中采用默认参考词汇的实验,略逊于采用词频最高的三组参考词汇的实验。本文在对以上的实验进行分析之后,根据其各自的优缺点提出了改进实验的方案:加入停用词处理、加入否定词分析、SVM核函数调优。本文将基于情感词典和基于机器学习两种方法的实验综合起来,对于待分类文本中否定词分析生效的文本采用基于情感词典的PMI算法进行文本情感分类,对于剩余的待分类文本采用基于机器学习的SVM算法进行文本情感分类,最后将两者的分类结果综合得出最终的实验结果,实验结果表明了采用这种方法对文本进行情感分类后分类的效果都要好于之前的实验。本文对在线课程评论文本的情感倾向性研究目前属于情感极性二分类范畴,对于多分类的问题暂未涉及,随着教育大数据的发展,有关课程评论文本情感倾向性研究将会越来越多,这将进一步丰富文本情感分析理论。