基于林业主题词表语义关系网的文献聚类

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:jw____
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文尝试从本体语义的角度,通过使用本体语义知识来改进文献相似性测度,从而将本体语义与文献聚类相结合,目的是为了提高文献的聚类效果。为此本文提出了一种基于主题词表的文献聚类的实现方法,其中主题词表是一种本体。该方法首先通过使用主题词表对文献集合进行特征提取,并使用TF-IDF (Term Frequency-Inverse Document Frequency)对文献进行表示。然后,根据主题词的语义关系计算主题词之间的相似度。接着,通过结合TF-IDF和主题词之间的语义相似度,进一步得到文献之间的相似度。最后,使用K-means算法对文献集合进行聚类。在本文中,对文献聚类中所涉及的关键技术,包括向量空间模型(Vector Space Model)、特征提取和特征词之间的相似度计算和文献之间的相似度计算进行研究和探讨。本文中的实验构建在林业汉英拉主题词表和中国林业科技论文库的数据基础上并与未使用主题词表的文献聚类方法作为实验结果的比较。实验结果表明,与未使用主题词表的文献聚类方法相比,基于主题词表的聚类算法在文献聚类上有明显的提高。
其他文献
保证电路的“时序安全”-电路中时序路径的时延变化不引起同步失效-是确保电路可靠工作的基本条件之一。然而,随着制造工艺持续向纳米尺度推进,确保时序安全变得愈发困难和代价
频度、匀度和信息熵是语言的计量研究中极为重要的指标,本文对均方匀度、熵匀度和均根匀度进行了系统的比较研究,并针对均根匀度进行了深入的探索,得到了二元均根匀度和多元均根
学位
随着集成电路制造工艺进入纳米级,高性能微处理器的物理设计面临着越来越多的挑战:不断增加的工艺、电压、温度的在片波动,超大的设计规模,高主频、低功耗的设计要求。这些挑战正
本文首先说明了当前网站安全的严峻形势——网页篡改事件发生的数量剧增,再分析了传统的网站安全配置在防范网页篡改时表现出来的越来越明显的不适应性,接着分析了当前网页防
矢量场可视化是科学计算可视化领域中最具挑战性的研究课题之一,它以直观的图形图像显示矢量场的运动,使人们以直观形象的方式解释理解抽象科学数据中所包含的客观规律。线积
随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的
随着信息化技术的发展,对科技项目的管理系统,在安全性,高效性,可复用性,可维护性,开发周期等方面都有很高的要求,因此使用良好的体系结构和框架是系统开发的首要问题。本文
地球上现存的植物种类大约有50多万种,分为原核、藻类、粘菌、真菌、苔藓、蕨类、种子植物等几大类群。植物生长状况与周围的环境因素有着密切的联系,其中光照强度、空气温度、
数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程,是信息处理技术研究领域的一项重要课题。它是指从大型数据库或数据仓库中提取隐含的、未知的、
随着信息技术的快速发展和人们对数字化知识及资源需求的不断增长,传统的搜索技术在海量数据面前已经遇到信息爆炸的瓶颈,通过基于关键词技术的搜索技术已经不能满足人们对知