论文部分内容阅读
随着文本信息的爆炸式增长,文本聚类技术成为了文本信息处理研究领域的一个重要手段,并且在知识发现、信息检索、生物信息学等领域得到了广泛的应用。文本聚类是采用无监督的机器学习方式自动识别文本所属类别,方便了用户选择有用知识类别,并且有利于文本中相似知识以及相关知识,为下一步知识的融合提供了前提。论文以教育技术学为例构建了领域的本体库作为文本聚类系统的数据源,实现了面向学科的文献聚类系统,并对Lingo聚类算法进行了优化,得到了较好的聚类效果。本文的主要工作包括:(1)分析阐述了文本聚类的相关理论。主要叙述了文本聚类技术的研究现状,介绍了主要聚类算法和目前比较成熟的聚类系统。(2)介绍了学科领域本体库的构建方法。文中领域本体库包含概念表和关系表,搜集教育技术学核心教材和近期专业学术期刊论文中的专业术语形成领域概念集,并为概念标明关系(包括同义关系、上下位关系、部分与整体关系)。(3)论文设计了面向学科的文献资源聚类系统,系统主要按照文本预处理模块、文本聚类算法模块、聚类结果可视化模块三个部分分别进行设计与实现,最后通过实验与传统的聚类算法进行了比较。(4)介绍了文献资源聚类结果在信息检索和知识融合中的应用。本文的特色之处:(1)介绍了教育技术学领域本体库的构建方法。(2)对Lingo聚类算法进行了优化,在算法分析中根据本体库中概念关系对同义词进行合并,对词频-文档矩阵进行降维,在标签提取中用领域主题词进行惩罚,使标签更加规范。(3)对于同一类别中相似度较高的文档,自动发现相同或相似知识元,实现基于主题图的知识元融合,从而达到文档之间知识融合的目的。