基于主题相似度的短文本分类方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zhurichen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网广泛应用的影响下,特别是微信、微博、问答系统等新媒体的出现使得互联网每天产生海量的短文本信息。这些短文本的长度短、内容少、用词不规范、数据量庞大而且属于半结构化的信息数据。把长文本的处理方法直接应用于短文本的文本挖掘中,难以取得令人满意的文本挖掘效果。因此,如何准确、实时、高效的挖掘短文本中隐藏的信息,是目前中文信息处理与文本挖掘讨论与研究的热点。短文本具有结构短、文本内容少、数量庞大、语义不明显等特点,导致短文本的分类面临特征稀疏、噪声多、上下文依赖强等问题。基于搜索引擎的短文本分类方法,分类结果比较依赖搜索引擎;基于大规模语料库的分类方法,比较依赖外部语料库。本文在分析短文本特点的基础上,根据目前短文本分类方法存在的缺陷,从短文本的建模矩阵特征稀疏、短文本上下文依赖性强等问题进行切入,探索根据主题判断短文本的相似度从而实现分类。首先,研究文献资料,分析中文文本分类的理论和方法,着重分析短文本分类方法。在分析基于VSM的传统短文本分类方法时,发现短文本建模的特征矩阵稀疏、维度高不利于准确分类,因此设计一种基于主题相似度的分类算法。应用主题挖掘的理论和方法,采用LDA概率模型来估算短文本的主题概率分布向量。其次,针对传统KNN算法在分类过程中,计算量特别大,处理文本集庞大的短文本集时,计算量会更大。本文根据局部敏感哈希解决ANN问题的优点,构建改进LSH的KNN分类器,实现从主题层面上对短文本的快速分类。最后,本文从理论上叙述了构建改进LSH的KNN分类器,能够在一定程度上提高分类效果,减少分类时间。本文根据构建的分类器和文本分类方法,在Linux环境下建模,利用MATLAB实现分类,设计基于VSM分类方法的对比实验,对最终的实验结果对比,得出本文基于主题相似度的分类方法整体分类性能较好。
其他文献
目前,随着移动智能终端设备计算能力不断增强与存储容量逐渐扩大,而其价格日趋低廉,使得移动智能终端设备得到大量普及。其中,流媒体终端应用日益为人们所喜爱。为移动智能终
电网是人们日常生活中的重要组成部分,为了保证电网的可靠、安全、经济的运行,同时也为了给低碳经济开辟道路,建设智能电网已成为当今发展的必然趋势,智能电网建设中的电力设备状态监测举足轻重,监测信息的实时通信也越发重要。本文中首先深入细致地研究和分析了IEC61850标准与制造报文规范的基本组成及特点,着重研究了IEC61850标准中的抽象通信服务接口模型的通信结构和服务以及特殊通信服务映射,而后依据I
随着虚拟现实技术和现代医学的快速发展,虚拟现实技术已被广泛应用到医学仿真中,形成虚拟手术仿真这一全新的研究领域。目前,随着现代医学的不断发展,内窥镜手术因其所具有的康复
传感器网络集成了传感器技术、嵌入式计算技术及现代网络技术于一体,一种新的信息采集和处理技术。无线传感器网络由于其前景广阔的应用前景而成为现代通信技术的一个新的研究
随着信息时代的到来,网络信息爆炸式增长,导致了各搜索引擎数据过载现象严重。如何快速有效地挖掘有用的知识,特别是提取网民对事件的情感、意见和态度等已成为重要的研究课
互联网的快速发展使人们的生活发生了巨大的变化,我们的生活被各种信息充斥着。各种媒体信息如文本、图像、音频、视频等每天都在大量地增加,而且随着时间的演化,相关的媒体
随着现代化信息技术的不断发展,设备的维护与使用所需要的技术资料的数量急剧增加,技术资料编写过程中的问题也日益突出。传统的技术资料编写形式已经不能够满足信息化发展的
随着信息技术的不断发展,全球信息存储量正在以57%的复合年增长率膨胀。大量数据密集型应用对现有的网络存储架构提出了更高的要求。对象存储技术同时具备传统SAN快速访问的
二十世纪九十年代,随着人类基因组计划的开展,极大地促进了基因组学和蛋白质组学的发展,人们获得了海量的氨基酸残基序列和蛋白质序列。但在蛋白序列数据迅猛增长的同时,蛋白
如今,如何在海量的信息中检索到自己感兴趣的资料已经成为非常值得关注的问题。而图像所包含的信息,具有丰富和直观的特点。因此,图像检索技术在近年来成为了一个新的研究热