论文部分内容阅读
主题词库就是经过规范化处理了的主题词及其之间的关系所构成的词典。主题词库包括两个部分:词库和关系库,词库用于存储主题词,关系库则用于存储主题词间的各种关系。主题词库是信息组织与检索的重要工具,其应用非常广泛:它可以解决方便、快速、科学的检索大量文献的问题;特定学科领域的主题词库可以用于构建针对具体学科领域的垂直搜索引擎;主题词库中描述的主题词之间的语义关系可以起到知识导航的作用;此外,主题词库也被应用到人工智能、云计算等相关领域中。目前国内关于主题词库的研究也取得了一些成果,但是随着研究工作的深入,主题词库构建过程中出现了一些新的问题:现有的主题词库大都采用人工标注完成,费时费力;而且目前面向具体学科领域的主题词库构建的相关研究也很少;此外,现有主题词库中主题词之间的关系都是两两主题词间的直接关系,并没有挖掘主题词之间间接的隐性关系。因此,研究面向具体学科领域的主题词库构建工作意义重大。本论文的主要工作是以教育技术学为例,构建面向特定学科领域的主题词库。论文的主要研究工作有:(1)介绍了国内外关于主题词库的研究现状以及与主题词相关的理论基础。(2)改进并实现了主题词抽取的相关算法,提出了一种文档结构与统计相结合的主题词提取方法,并通过实验证明此方法在准确率、召回率等方面要优于传统的TFIDF方法。(3)研究ISM算法将其运用在主题词隐性关系的挖掘上,实现了利用ISM算法挖掘主题词间隐性关系、形成主题词的层级关系图。(4)利用主题词的抽取算法和隐性关系挖掘算法以教育技术学为例构建面向特定学科领域的主题词库并对其做了应用研究。论文的特色之处在于改进了主题词抽取的相关算法,并且在主题词及其简单关系的基础上实现了主题词间隐性关系挖掘,形成主题词的层级关系图,这是以往任何主题词库构建工作都没有研究过的。最后,通过主题词及其关系挖掘算法构建了面向教育技术学的主题词库并对其做了应用研究。