面向文本聚类的语义加权研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:iloveshe1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,不可避免地使人们对有用信息的查找产生了巨大困难,因此文本挖掘的发展前景十分广阔,而文本聚类是文本挖掘的一个重要的组成部分。文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的重要应用。但是文本聚类也遇到一些比较普遍的问题如文本对象的高维性,一个文本集可能会有几十万个词汇来表示;文本对象的稀疏性,很多词语很少被用到;文本对象词的字面关系和潜在语义关系很难被挖掘出来。本文首先回顾了文本聚类中文本预处理,文本表示模型、文本相似度计算、文档特征向量缩减、聚类算法和聚类效果评价等各个步骤的一些概念和方法。接着本文探究文本聚类中主要遇到的文本对象字面意义和潜在语义关系的挖掘问题,提出了几种基于语义特征向量加权的方法:基于词语词性的加权方法、基于词语位置的加权方法、基于词语词长的加权方法、基于词语相关性的加权方法和基于词语相似度的加权方法。词语与词语词之间的相关度就是指两个词语之间同时出现在一定语言环境中的概率大小。一般我们用文档同现频率、段落同现频率和句子同现频率来衡量。实验研究发现,段落同现频率刻画的词语相关度的向量加权对于最终的文本聚类效果提高是最明显的,大概能提高最终文本聚类效果10%左右。词语与词语之间的相似度指的是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。本文利用了基于《知网》的语义相似度计算方法,对特征向量进行基于语义相似度的加权。实验研究发现,基于语义相似度的特征向量加权虽然能够提高最终文本聚类效果,但是其效果并没有基于词语相关度的加权方法这么明显。本文也尝试着寻找了一些原因和解决的方法。最后本文对于把几种基于语义的加权方法叠加使用的可行性方法进行了探讨。实验研究发现,本文提出的这种叠加方案是完全可行的,比只使用任何一种语义加权方法的效果都要好,大约有5%的提高。
其他文献
随着无线通信技术的发展与广泛应用,有限的频谱和低效固定的频谱分配使用政策导致频谱资源越来越匮乏。认知无线电是一种智能频谱共享技术,它不仅能够实现自适应频谱管理而且
H.264/AVC中支持两种熵编码方法,分别是基于上下关系的自适应变长编码(Context Adaptive Variable Length Coding, CAVLC)和基于上下关系的自适应二进制算术编码(Context Ada
随着长期演进系统的实施,室内高速数据业务在通信业务中所占的比重越来越大,这对移动通信系统的室内覆盖和系统容量都提出了更高的标准。而长期演进系统部署的频段主要分布在
随着近年来无线通信的飞速发展,通信的重要资源——频谱资源显得格外紧缺,为了解决频谱利用率以及通信服务质量(Qos)等诸多问题,人们不断寻找新的技术来缓解资源紧缺的现状。
随着科学技术的飞速发展进步,现代战场电子对抗日益激烈,雷达侦查接收机和雷达告警接收机的应用,导致雷达的生存受到了非常大的威胁。为了提高雷达在现代战场中的生存能力,对
自由空间光通信(FSO)技术具有通信容量大,传输速度快等优点,并且可以解决无线电通信频谱资源短缺的瓶颈,因此在近年来获得了迅速发展。FSO系统使用大气信道进行通信,信道条件
遥感卫星三十多年前就已经发射,随着科学技术的不断进步,卫星遥感技术在近十年中得到了真正的推广应用并取得效益。高分辨率遥感影像使人们探索和认识自然界步入了新的阶段。
计算机网络通信技术的发展,特别是互联网技术的发展,使得数据的交换和传输过程变的相对简单。人们借助于计算机、数字扫描仪、打印机等电子设备可以方便、快捷地将数字信息传
随着无线通信业务的快速发展,如何利用有限的无线资源获得更高的信息传输速率来满足日益增长的业务量需求受到广泛关注。目前,多输入多输出(Multiple-Input Multiple-Output,
随着疲劳驾驶引发的交通事故越来越多,以驾驶员为中心的汽车安全问题已经成为影响我国乃至世界道路交通安全的重要问题。开展以驾驶员为中心的汽车主动安全技术已经成为汽车