词汇知识系统动态构建方法研究与工具实现

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:dongchangnie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,知识服务作为一种新的服务模式已经成为信息服务领域的重点研究对象。作为知识服务的重要基础研究领域之一,以词汇为代表的词汇知识系统(简称,词系统?)的研究成为当前知识服务研究领域的热点和重点。而词汇知识系统的动态更新问题是词汇知识系统研究中重点待解决的问题。尤其随着Internet的发展,对该问题解决方案的需求尤为迫切。一方面,Internet的发展,把信息的交互和传递推向制高点。信息每天以海量增加,新词汇的产生速度越来越快。新词汇的大量产生和广为流行,成为新时期汉语词汇发展的一个突出现象。另一方面,目前不同行业领域存在各种各样的、不同类型的词汇知识库。通过调研我们发现,尽管这些词汇知识库在词汇量大小、领域、词关系的详尽程度等方面各不相同,但他们有一点是相同的:这些词汇知识系统普遍存在更新手段相对落后、更新缓慢,无法与日益加快的词汇的产生速度相适应的问题。鉴于以上问题,笔者试图围绕词汇知识系统的动态更新做了一部分探索性工作。 本题目来源于国家“十一五”科技支撑计划项目《科技文献信息服务系统关键技术研究及应用示范》中的子课题:《知识组织系统的集成及服务体系研究与实现》。在国家“十一五”规划中规定了十个重点领域,本文以这十个重点领域为词汇收集领域,将与该十个领域相关的叙词表、分类法和行业术语表集成到一起,形成词汇知识系统。本文围绕此词汇知识系统的动态更新构建了三个软件工具:基于构词能力和构词模式的新词发现系统、基于关联规则挖掘的候选主题词发现系统和基于相似度计算的词关系构建系统。 基于构词能力和构词模式的新词发现系统目的在“新词”发现。借鉴单个汉字的构词能力和构词模式,提出了词的构词能力和构词模式公式,以此为规则并与词频统计的方式相结合,实现了“新词”的发现。 基于关联规则挖掘的候选主题词发现系统目的在词和词关系。通过Apriori算法挖掘出词汇知识系统中的主题词和期刊二次文献中的关键词间的强关联关系,我们称跟词汇知识系统中的主题词密切相关的关键词为候选主题词。通过候选主题词的发现,一面可以实现词汇知识系统的更新,另一方面因为发现了主题词和候选主题词间强关联关系,所以也实现了词关系的发现。 基于相似度计算的词关系构建系统目的在词关系。相似度计算在自动问答、情报检索、文本聚类等应用中都是一个关键问题。本系统通过基于《同义词词林》的相似度计算,按照词汇知识系统中主题词间关系,构建了候选主题词间的词关系。目前的词关系仅限于相关关系,范畴较广,有待在以后的工作中继续对其深化,进一步挖掘出更加专指、更加明确的词关系。 以上三个工具的构建使词汇知识系统初步具备了动态更新的能力,我们称具有“新词”自动发现和词关系自动构建功能的词汇知识系统为动态词汇知识系统。词汇知识系统的动态构建是本文的目的所在。
其他文献
在英语教学中,由于缺乏语言环境,我们教师感到难教,学生难学。总是想一些小办法来提高学生学习英语的兴趣,同时也活跃课堂气氛,增强记忆,提高教学效果。经过不断的看书学习,借鉴别人的教学方法,再加上自己的教学实践,本人发现运用口诀,可以在英语教学中收到事半功倍之效,还为同学们进一步学习打好基础,下面是我任教三十多年来的一点浅见,仅借同行们的参考。  一、Be的口诀  我是am,你是are,is跟着他、她
当今,经济增长比任何时候都更依赖于知识的生产、扩散和应用。对于企业来说,知识经济的出现既是一种机遇,同时,也使企业面临着更严峻的挑战。只有那些持续创造新知识,将新知
近年来随着社会的不断发展,我国档案学专业研究生教育规模日益扩大,特别是随着数字技术的迅猛发展,电子文件、数字档案馆等新生事物的出现,使档案工作内涵发生了深刻的变化,同时也
政府信息公开是近年来颇受关注的一个热点问题,通过以往的研究,学界对实现政府信息公开的必要性和迫切性已经形成共识,但关于真正实现政府信息公开的路径探索并不多见。本文旨在运用系统方法试图探究如何从整体出发建立政府信息公开机制,以真正实现政府信息公开。本文将从系统论的角度阐述政府信息公开机制的内涵;探讨系统方法应用于政府信息公开机制研究的可行性及意义;以分析我国实现政府信息公开存在的障碍因素为基础,利用
中小城市社区建设的发展重点,一是拓展社区服务,一是社区组织和队伍建设.拓展社区服务要坚持社会化、产业化的发展方向,要坚持整体推进、重点突破、分类指导的操作思路.社区
本文通过对荣华二采区10
随着计算机技术和网络技术的迅速发展,人们迎来了一个以信息和知识为主要特征的网络新时代。人们接触到的信息是呈指数爆炸式增长。信息的激增不仅仅给我们带来了方便,更多的
阅读推广的理论与实践是图书馆学领域研究的重要内容,图书馆学的许多研究都涉及到“阅读推广能带来怎样的效果”这一问题。阅读推广是系统性的、有组织的阅读活动;即包含了对
目的:评价2012年我国各省(市、区)竞技体育后备人才培养效益,为决策部门制定“十三五”期间竞技体育后备人才培养工作发展战略提供参考依据.方法:运用数据包络分析(Data Enve
在竞争求生存,创新谋发展的时代背景下,经济的竞争转化为科技创新的竞争,突出表现为知识产权的竞争,特别是争夺专利权的竞争。企业专利战略作为企业整体生产经营活动中极其重要的有机组成部分,越来越受到现代企业决策者的重视。企业在制定和实施专利战略的过程中,始终需要通过开展高效地专利情报工作,为企业专利战略提供全方位的信息保障,以积极应对外部环境的变化。如何通过开展专利情报工作,来更好地服务于企业专利战略,