论文部分内容阅读
目前,知识服务作为一种新的服务模式已经成为信息服务领域的重点研究对象。作为知识服务的重要基础研究领域之一,以词汇为代表的词汇知识系统(简称,词系统?)的研究成为当前知识服务研究领域的热点和重点。而词汇知识系统的动态更新问题是词汇知识系统研究中重点待解决的问题。尤其随着Internet的发展,对该问题解决方案的需求尤为迫切。一方面,Internet的发展,把信息的交互和传递推向制高点。信息每天以海量增加,新词汇的产生速度越来越快。新词汇的大量产生和广为流行,成为新时期汉语词汇发展的一个突出现象。另一方面,目前不同行业领域存在各种各样的、不同类型的词汇知识库。通过调研我们发现,尽管这些词汇知识库在词汇量大小、领域、词关系的详尽程度等方面各不相同,但他们有一点是相同的:这些词汇知识系统普遍存在更新手段相对落后、更新缓慢,无法与日益加快的词汇的产生速度相适应的问题。鉴于以上问题,笔者试图围绕词汇知识系统的动态更新做了一部分探索性工作。
本题目来源于国家“十一五”科技支撑计划项目《科技文献信息服务系统关键技术研究及应用示范》中的子课题:《知识组织系统的集成及服务体系研究与实现》。在国家“十一五”规划中规定了十个重点领域,本文以这十个重点领域为词汇收集领域,将与该十个领域相关的叙词表、分类法和行业术语表集成到一起,形成词汇知识系统。本文围绕此词汇知识系统的动态更新构建了三个软件工具:基于构词能力和构词模式的新词发现系统、基于关联规则挖掘的候选主题词发现系统和基于相似度计算的词关系构建系统。
基于构词能力和构词模式的新词发现系统目的在“新词”发现。借鉴单个汉字的构词能力和构词模式,提出了词的构词能力和构词模式公式,以此为规则并与词频统计的方式相结合,实现了“新词”的发现。
基于关联规则挖掘的候选主题词发现系统目的在词和词关系。通过Apriori算法挖掘出词汇知识系统中的主题词和期刊二次文献中的关键词间的强关联关系,我们称跟词汇知识系统中的主题词密切相关的关键词为候选主题词。通过候选主题词的发现,一面可以实现词汇知识系统的更新,另一方面因为发现了主题词和候选主题词间强关联关系,所以也实现了词关系的发现。
基于相似度计算的词关系构建系统目的在词关系。相似度计算在自动问答、情报检索、文本聚类等应用中都是一个关键问题。本系统通过基于《同义词词林》的相似度计算,按照词汇知识系统中主题词间关系,构建了候选主题词间的词关系。目前的词关系仅限于相关关系,范畴较广,有待在以后的工作中继续对其深化,进一步挖掘出更加专指、更加明确的词关系。
以上三个工具的构建使词汇知识系统初步具备了动态更新的能力,我们称具有“新词”自动发现和词关系自动构建功能的词汇知识系统为动态词汇知识系统。词汇知识系统的动态构建是本文的目的所在。