基于概念描述及内容扩展的短文本分类方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:mubila
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,使得人们越来越依赖手机和互联网获取信息,而在这些信息中有很大的一部分都是以短文本的形式存放,因此对这些海量短文本的挖掘能够很好的了解用户的兴趣信息和舆情走向,帮助我们精确的投放广告和了解用户的观点立场。但是由于短文本的文本长度较短,通常不会超过160个字符,而传统的文本挖掘方式往往依赖于文本中的词频等统计信息,因此传统的文本分类算法应用到短文本上效果难以满足人们的要求。基于这样的背景,本文对短文本分类相关的技术进行了研究和探索。本文的主要工作和贡献在于:  ①首先,针对文本处理中的近义词或者同义词,本文通过《同义词词林》构建了一个概念词表,使本文中对短文本进行的处理提高到概念层,使得近义词和同义词在概念层得到统一的概念,提高检索相似概念短文本的准确率;  ②其次,在真实短文本语料的基础上,构建了一种使用概念描述的短文本分类方法。该方法首先对待分类短文本进行一个“概念化”的扩展,即使用 BM25算法到数据库中检索和待分类短文本拥有相似概念的训练短文本,组合形成长文本,然后使用传统长文本分类器进行分类。该方法充分挖掘了短文本所包含的语义信息,并利用了传统文本分类方法研究相对成熟的特点,将短文本分类问题转化为长文本分类问题,实验结果表明该方法可以提高短文本分类的准确性;  ③进而,对待分类短文本扩展时使用的BM25算法进行了改进。在对待分类短文本进行检索拥有相似概念短文本的过程中,本文使用的是信息检索领域经典的BM25算法进行排序,但是BM25算法对文档中每种词性的词并不进行一个区分加权,而这在短文本分类环境中是较为重要的,本文对BM25算法进行了一个改进,加入了词性的权重。实验结果表明该改进可以进一步提高短文本分类的准确性。  ④最后,基于从网络上抓取的短文本测试集,对上述短文本分类方法及优化方法分别进行了对比性的科学实验,初步验证了提出方法的科学性和有效性。
其他文献
群体动画是一种借助计算机对群体行为进行模拟研究的技术,它是随着计算机图形学的不断发展而逐渐成熟起来的。对需要描述的事物用动画的形式表现出来,不仅能清楚的反映事件的过
互联网的迅猛发展和网上信息的爆炸式增长,使其对它们的使用成为人们工作和生活的重要组成部分。而网络上的信息大部分是音视频等多媒体信息,对这些信息按流媒体方式进行处理已
随着智能手机的广泛应用,手机具有的功能和服务也越来越丰富,这就对智能手机的安全提出了更高的要求。基于生物特征的身份认证技术是当前的研究热点,具有非常重要的应用价值
随着无线网络技术和硬件技术的飞速发展,移动互联网成为一个热门的研究课题。在移动互联网中,移动用户的需求最终还是要通过移动事务来实现。鉴于此,移动事务处理应该是移动数据
无线传感器网络是当今工业界和学术界的研究重点,在许多领域有着非常广阔的应用前景。IEEE802.15.4是IEEE专门针对低速无线个人区域网络制定的标准,该标准低能量消耗、低速率传
随着各种高新技术的广泛应用,战场探测手段日趋多样化,设计出高质量的迷彩成为愈来愈迫切的需求。而数码迷彩因其边缘模糊、破碎,具有较强的立体感和层次感,更易于模拟自然场景,伪
网络和通信技术的迅速发展,导致了网络规模扩大、复杂性增强。互联网用户和新兴网络服务的增加,也对网络管理提出了更高的要求。如何对网络进行有效的监控和管理是人们迫切需要
随着物联网(IOT)技术的广泛应用,它给传统的应用管理模式带来了重大改进。作为物联网信息采集端的无线传感器网络(WSN),对于其关键技术的研究又重新引起人们的重视。目前,物联网
随着虚拟现实技术的发展,操作自由、交互智能友好成为下一代人机交互技术发展的趋势,它以人为本,把计算机作为多通道、多模式、多媒介的感知识别器,通过识别人的语音和动作包括人
本体是一种有效地表现概念的层次结构和概念语义的模型,它被广泛的应用到了计算机科学的许多领域。在对语义网技术的研究过程中,本体更是我们研究的重点。但是伴随着语义网的快