面向词袋模型的相似性度量方法在特征降维中的应用

来源 :广东工业大学 | 被引量 : 6次 | 上传用户:kygl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词袋模型是一种向量空间模型,在此模型中,文本或图像被视作是无序的词汇集合,其中语法以及词汇之间的顺序关系都是被忽略的。通过选择或设计合适的相似性度量函数,词袋模型可以被广泛应用于文本、图像的分类、聚类及检索问题中。经过大量的研究工作,目前已经总结出多种常见且有效的相似性度量方法,包括欧几里得距离、余弦相似度、Manhattan距离以及Mahalanobis距离等。然而,文本和图像问题的词袋模型,往往具有高维度、特征冗余、一义多词、一词多义等特点,这将增加处理词袋模型时的计算复杂度,并对学习算法的精度造成干扰。本文采用一种有监督的学习方法,将词袋模型中的词语特征项聚合成词簇,通过将原始词语空间上的表达转变为新的词簇空间上的表达,进而影响文本或图像样本相似性匹配度的计算,达到消除一义多词的负面影响的作用。该方法的具体思路是:首先采用类条件概率分布描述词项的分布规律,并使用Jensen-Shannon散度刻画这些分布之间的相关性即词语项之间的相似度。在此基础上设计了一种将近义词项进行重组合并成新词簇的WCE算法,并采用一种有监督的损失函数评价模型对WCE算法产生的新词簇集进行评估。该评价模型中的损失函数和对应的相似性度量方法的选择和设计具有很大的灵活性。算法最终输出损失函数的近似最优解以及相应的词簇特征集,从而达到降维的目的。实验部分从检索和分类两个方面验证了本文的词语降维算法的有效性及合理性。通过实验发现,对于不同的数据集,该算法的降维效果以及降维结果对检索效果和分类精度的提升程度不同。对于词语特征数较少的低维词袋,该算法的降维效果并不明显。但对于高维词袋,该算法一般能取得较好的降维效果。而高维词袋中,面向图像处理问题的视觉词袋在经过降维之后,其检索效果和分类精度的提升比降维之后的文本词袋要更为明显。总体而言,对于具有较高维度的词袋,应用本文的方法能够在保持检索和分类的精度的基础上,都能达到比较理想的降维效果。
其他文献
内容分发网络(Content Delivery Network,CDN)是在现有的Internet中增加一层新的网络架构,通过将网站的内容发布到最接近用户的网络“边缘”的方式,来提高网络的整体性能。对
移动自组织网络是一种新型分布式无线网络,是由一组带有无线收发装置的移动终端组成的多跳临时性自治系统。它具有良好的移动性和组网的灵活性,因而成为目前网络研究的热点。移
信息物理融合系统(CPS)是计算过程和物理过程的集合。它实现了计算实体、交互实体与物理实体的集成化设计,可以保障系统高效、安全、实时的完成协作,具有非常广泛深远的应用
信息物理融合系统(Cyber-Physical System, CPS)是一种综合了计算、网络和物理环境的多维复杂系统。它实现了计算、通信和控制技术的有机融合与深度协作,能够完成大型复杂系
随着压缩感知理论的发展,稀疏表示逐渐成为了研究的热点,发展迅速,并已经在图像去噪等领域得到了广泛应用。信号稀疏表示,其实质是用稀疏系数简洁的表示信号,同时保持信号的
H.264/AVC是ITU-T和ISO/IEC联合推出的最新视频编码国际标准,它包含了许多先进的视频压缩编码算法,与以往的视频编码标准相比有了明显的进步。由于其良好的压缩效率和网络适
移动自组织网络是由一组带有无线收发装置的移动终端组成的临时性自治系统。网络中的结点具有路由器和主机两种功能。网络无需基础设施的支持,数据传输以多跳的方式进行。由于
在语音通信中,通信双方经常会受到周围环境噪声的强烈干扰,当环境噪声太大时,会严重干扰通话质量,甚至使通话无法进行。因此,对带噪信号进行增强处理,从中提取尽可能纯净的原
啤酒行业是我国酿酒工业中最年轻、发展最快的行业。而现在国内一些中小规模啤酒企业的生产状况滞后于啤酒的发展趋势,迫切需要通过自动化技术来提高产品的市场竞争能力。在
数字技术开创了电视的新纪元,电视的含义已经不仅仅是传统的音视频广播,而且是可以提供丰富信息和娱乐业务的双向交互式媒体。在此背景下,数字电视机项盒也从单纯用于实现数字信