基于高效流形排序算法的课程相似度计算的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:wenjuanliu_b06213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
课程相似度计算指的是定量地计算两门课程所包含知识点的交叉程度。在很多情况下,我们希望了解两个专业间的相似程度,例如新生入学选择专业时,大学生跨专业考研时,以及毕业生选择就业方向时等等。而专业相似度的一个非常重要的衡量指标就是两个专业课表的关联程度。因此,课程相似度计算作为专业相似度计算的关键环节,具有重要的研究意义。知识点作为汉语,其本质上的一词多义性和多词一义性成为影响课程相似度计算结果准确性的最大难点。现有的课程相似度计算方法主要基于传统的文本挖掘方法,比如潜在语义索引(LSI)和TFIDF方法。由于这些方法仅仅通过计算两门课程特征向量间的直接距离衡量之间的相似性,因而忽略了整个课程集上潜在的语义联系。在本文中,我们提出了一种新颖的课程相似度计算方法—基于高效流形排序算法(EMR)的课程相似度计算方法。该方法通过计算两门课程在整个课程集固有的流形结构上的关联关系来衡量其相似度,因而促进了课程样本间语义联系的充分挖掘。本文提出的课程相似度计算方法主要分为三个步骤。首先,对课程数据集中的课程样本进行预处理。即应用中文分词算法对数据集中每一门课程样本的课程名和课程内容进行分词处理,提取出能够描述每门课程特征的索引项集合。第二步,数据建模,即构建整个课程数据集上TFIDF加权的向量空间模型VSM。该步骤分为三个过程实现:首先,确定向量空间模型VSM的m维索引。然后,计算每门课程在m维索引上TFIDF加权的特征向量。最后,构建整个课程数据集上的向量空间模型VSM。第三步,使用EMR算法进行课程相似度计算。首先使用K-means聚类算法求取课程数据集的若干个聚类中心,然后构建所有课程样本到聚类中心的加权关系图,基于该流形结构执行EMR算法求取课程间的关联关系。基于现实课程集上的实验结果证明,本文提出的方法相比较传统的文本挖掘方法具有更高的准确度。在文章的最后,我们将本文提出的课程相似度计算方法扩展到专业相似度计算领域中来,并给出一个基于真实数据的专业相似度计算过程的示例。
其他文献
逼真场景的生成是虚拟现实研究的核心内容。从现有场景的几幅离散图像合成任意视点新视图,就是根据虚拟现实的应用需求而诞生的。视图合成技术研究如何使用两幅或多幅关于某
传统动画制作过程包括创作文学剧本、设计角色造型、创作故事脚本、绘制背景、绘制关键帧、添加中间画、测试、描线、上色、检查、拍摄、后期制作等步骤,其间有大量繁琐的手
在计算机图形学和计算机辅助设计中,需要对所设计的作品从不同的角度进行观察,所以要把物体放在三维空间中,从各个方向上观察和展示设计作品。所以,如何设计一个好的三维图形
随着当前高能物理实验规模不断扩大,数据量在急剧地积累,这对于计算资源形成了巨大的挑战,而分布式计算成为解决这一问题不可或缺的资源组织方式。为了满足实验数据处理和分
随着信息技术的飞速发展,特别是互联网的发展,网络上的资源日渐丰富,获取信息也变得更加的方便和快捷,同时抄袭也变得更加的容易。使用文章比对系统能够实现对论文的自动比对
随着企业信息化的推广,越来越多的企业认识到利用信息系统管理企业内部信息的重要性与必要性。可靠、准确、快速和实用的管理信息系统成为当前的一种实际需要。本文结合印染
图形用户界面GUI(Graphical User Interface)是用户和软件交互的一个可视化平台。近年来,软件规模日益扩大,软件系统中图形用户界面的应用越来越广泛,但是由于GUI控件的复杂
随着Internet的不断发展,使得人们不再仅仅将其作为一个信息平台来看待,而是越来越注重将其看作是一个具有巨大潜力的计算平台。因此,过往的静态、封闭的计算环境已经无法适
信息隐藏和数字水印的研究是在20世纪90年代受到重视并蓬勃发展起来的,但是追根溯源,信息隐藏的前身——隐写术早在公元前就被使用了。20世纪90年代的兴起并成为热点研究方向
在网格环境中,越来越多的用户对资源提出了不同的QoS需求,但传统调度算法的目标是最小化时间跨度,改进系统性能,却没有考虑用户的服务质量要求,导致一些任务调度到不符合其要