论文部分内容阅读
课程相似度计算指的是定量地计算两门课程所包含知识点的交叉程度。在很多情况下,我们希望了解两个专业间的相似程度,例如新生入学选择专业时,大学生跨专业考研时,以及毕业生选择就业方向时等等。而专业相似度的一个非常重要的衡量指标就是两个专业课表的关联程度。因此,课程相似度计算作为专业相似度计算的关键环节,具有重要的研究意义。知识点作为汉语,其本质上的一词多义性和多词一义性成为影响课程相似度计算结果准确性的最大难点。现有的课程相似度计算方法主要基于传统的文本挖掘方法,比如潜在语义索引(LSI)和TFIDF方法。由于这些方法仅仅通过计算两门课程特征向量间的直接距离衡量之间的相似性,因而忽略了整个课程集上潜在的语义联系。在本文中,我们提出了一种新颖的课程相似度计算方法—基于高效流形排序算法(EMR)的课程相似度计算方法。该方法通过计算两门课程在整个课程集固有的流形结构上的关联关系来衡量其相似度,因而促进了课程样本间语义联系的充分挖掘。本文提出的课程相似度计算方法主要分为三个步骤。首先,对课程数据集中的课程样本进行预处理。即应用中文分词算法对数据集中每一门课程样本的课程名和课程内容进行分词处理,提取出能够描述每门课程特征的索引项集合。第二步,数据建模,即构建整个课程数据集上TFIDF加权的向量空间模型VSM。该步骤分为三个过程实现:首先,确定向量空间模型VSM的m维索引。然后,计算每门课程在m维索引上TFIDF加权的特征向量。最后,构建整个课程数据集上的向量空间模型VSM。第三步,使用EMR算法进行课程相似度计算。首先使用K-means聚类算法求取课程数据集的若干个聚类中心,然后构建所有课程样本到聚类中心的加权关系图,基于该流形结构执行EMR算法求取课程间的关联关系。基于现实课程集上的实验结果证明,本文提出的方法相比较传统的文本挖掘方法具有更高的准确度。在文章的最后,我们将本文提出的课程相似度计算方法扩展到专业相似度计算领域中来,并给出一个基于真实数据的专业相似度计算过程的示例。