短文本相似度的关键技术研究

来源 :广西师范大学 | 被引量 : 7次 | 上传用户:edyzhang1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学技术和物联网不断的发展壮大,越来越多的数据以短文本的形式出现在互联网上例如新闻标题、贴吧言论、微博消息等。对短文本数据运用分类、聚类的技术,从中挖掘出有价值的信息为人们的生活提高有用的便利,以满足不同方面的需要,因此对短文本数据进行挖掘越来越成为一个迫在眉睫的任务和课题。本文首先对短文本的基本概念进行介绍,并说明目前短文本面临两个主要的问题,第一个是由于短文本特征词稀疏性,而无法利用常用文本的算法处理,或者无法取得和长文本相同的效果;第二个是短文本缺乏上下文依赖性无法提供有效背景信息;接着分别对现有的几种主要的计算长文本相似度的方法进行了分析,主要包括基于VSM的余弦相似度算法和基于语义词典的语义相似度算法;最后介绍目前主要短文本相似度计算法主要包括基于大规模文本集进行统计的方法和基于描述特征的方法;本文不仅计算长短文本相似度的方法而且其各自的特点,并分析了不足之处。然后本文介绍LDA主题模型的原理和重要参数。LDA主题模型可以更深入的挖掘短文本的内在语义,使短文本的相似度计算不局限于短文本的语言结构上,而从潜在短文本内在的语义的方向进行数据建模和计算;LDA的主要原理是将每篇文档当做由很多个主题组成的,先把每个文本生成不同的主题比例分布函数,然后为每个特征词进行训练生成对应的主要主题。接着介绍多粒度主题模型对单粒度主题模型所拥有的好处,能够部分缓解短文本LDA主题模型生成过程中产生的数据稀疏性的问题,多粒度主题模型通过不同的主题数,充分挖掘短文本数据集的不同维度的有用信息,以提高短文本语义相似度计算的关联程度。最后介绍本文提出的两个提高短文相似度计算的改进方法。第一,对究有根据单粒度主题模型来改进短文本相似度计算的方法,本文采用了多粒度主题模型来改进短文本相似度计算方法,利用LDA主题模型在不同主题数下,对短文本的训练集进行数据建模,然后对利用究训练的LDA模型对短文本测试集进行主题分析,分析两个的短文本片段所用主题成分,如果不同的短文本片段拥有类似的主题的成分,说明这两个多文本具有语义上的相关联,通过这种关联的程度的高低来提高两个短文本片段的相似度值;第二,本文对原始短文本片段进行特征词的扩展,再结合上面的基于多粒度的主题模型的方法来提高相似度计算的准确率,和方法一类似先对短文本训练集进行数据建模并分析短文本测试集中不同短文本片段的主题成分,把每个短文本相似度片段中所占的主题成分最多的几个主题作为主题标记添加到每个对应的短文本片段的里面,来提高短文本的特征词的数量,如果两个短文本片段拥有类似的主题成分,这两个短文本片段有相同的主题标记,进而提高两个短文本相似度的计算。实验结果表明本文提出的方法能够有效的提高短文本分类器的性能,相对于BuyAns数据集在KNN和KNN_MTBS上分类性能,基于结合短文本特征词扩展和基于多粒度的方法平均准确率提高了4.1%左右;本文所提出的方法在问题分类数据集Phan上的分类性能比KNN,KNN_MTBS也取得更好的分类效果,相对于Phan数据集在KNN和KNN MTBS上分类性能,基于结合短文本特征词扩展和基于多粒度的方法平均准确率提高了5.1%左右。
其他文献
随着大数据时代的到来,数据以前所未有的速度急剧增长,大数据中蕴藏着无限的价值。传统的数据库技术由于缺乏良好的横向扩展能力等原因已难以应对这样的挑战,NoSQL数据库技术
在目前的研究中,有关人体动作的识别已经取得了很大的进步,但是在处理像weizmann数据库这样的多动作周期的视频数据时,采用一般的方法,识别率偏低。本文提出了一种新的基于整
优化技术是一种以数学为基础,用于求解各种组合优化问题的应用技术。最优化问题是人们在工程技术、科学研究、和经济管理等诸多领域中经常碰到的问题,它是指在满足一定的约束
数据挖掘是一种从大量复杂数据中,寻找、提取有用规律,形成有用模式,得到价值的过程。随着现代科技水平的发展,尤其是近年大数据概念的提出,我们正进入一个数据资源开发的时代,数据
Leader-Based Protocol(LBP)是最经典的802.11可靠多播协议之一。近年来基于LBP协议的研究和改进工作在世界各地都有进行,但针对多媒体流进行协议优化的研究工作甚少。本文针
大群体仿真技术是运用计算机虚拟现实技术、人工智能技术和计算机图形技术,对具有大量个体的群体行为、运动等进行仿真模拟的技术。群体仿真技术在多个领域均有应用,具有较强
随着Internet和Web技术的迅速发展,传统的分布式计算技术已不能满足Web应用环境,Web服务应运而生并成为一个被广泛接受的面向服务计算的范例。从电子商务的应用角度看,Web服
随着云计算、无线网络和电子商务等基于互联网的应用迅速发展,在网络中留下大量的数据。然而,这些数据的收集者可能分别属于不同机构,数据的集成综合分析需要将这些数据公开
内容管理系统是当前计算机领域的一个重要应用,是对各种数字资源进行全面管理的有效途径,并将成为管理信息系统架构的核心,所以完整的管理信息系统的底层整合机制,不仅包括应
三维激光线扫描仪能够快速测量产品原型和各种模具,方便快捷地建立三维物体的CAD模型,在数字化设计与制造,如汽车制造、运动器材、家具、文物古董和工艺品的复制、三维动画、