论文部分内容阅读
科技的发展和通讯技术的应用使得信息呈指数增长,信息激增和知识分裂使得人们获取知识变得困难,而获取隐藏于文献中的表面上没有关联的知识则更加困难。至上世纪中叶,情报工作者已经开始对知识分裂进行研究,直到1986年美国芝加哥大学的Don R.Swanson教授经过一系列研究提出了基于非相关文献的知识发现研究方法,为挖这种掘隐藏于文献中的知识提供了一盏明灯。非相关文献知识发现系统的开发,人们将繁琐冗杂的文献处理交给计算机,计算机将处理结果返回,提供最有可能的提示,节省了人们大量的时间和精力,推动了非相关文献知识研究方法的应用。首先,本文系统的归纳了现有的中英文非相关文献知识发现软件,通过对比分析,总结其中的有待改进之处。然后,本文以一套全新的思路为指导,对非相关文献知识发现继续研究。针对现有的非相关文献知识发现系统多以单种语言、医学文献为数据集,缺乏成熟的公开使用的系统,本文提出研究并设计一套适用于中英文文献、无学科限制、普遍适用的非相关文献知识发现系统。中文分词问题是中文信息处理的一个热点;文献中存在大量的无实际意义或与研究无关的词;自然语言广泛应用,使用自由、灵活给信息处理带来了困难,存在表示意义宽泛、模糊,可代替性的词语;非相关文献知识发现的目标是发现能揭示主题关联的中间词和目标词,而通过计算得出较多的中间词和目标词。因此在系统研究过程中,着重讨论了中文分词解决方案、词汇过滤、同义词控制和中间词与目标词的选择。接着,设计并实现非相关文献知识发现系统,设计系统的总体模块结构,并逐模块分解,给出各模块的功能说明,接着实现系统并简要的介绍系统。最后,测评系统的非相关文献知识发现效果。为了保证测试的有效性,测试结果必须是真实可信的、具有说服力。本文复现Swanson(?)口识发现,通过与Swanson(?)口识发现结果对比说明系统非相关文献知识发现效果。中文测评数据来自于中国期刊网1979年至2006年全文数据库生物医药卫生领域的文献,英文测评数据来自PubMed数据库1960年至1980年的医学文献。通过应用本系统,无论中文医学数据集还是英文数据集在开放式过程和闭合式过程都发现几乎全部镁和偏头痛的中间词,发现了鱼油和雷诺氏病的全部中间词。在为发现的中间词中,还有些是数据集中根本不存在中间词和开始词或目标词共现的文献。因此,通过测评结果证明了系统有较好的非相关文献知识发现能力。