支持多语义层次的短文本特征提取及其分类技术

来源 :东北大学 | 被引量 : 8次 | 上传用户：javabudong

【摘要】

：

随着互联网等信息技术的高速发展,网络上无时无刻都在产生着海量数据,以广告词、论文标题、网页评论以及微博信息为代表的短文本数据是这些数据的主要存在形式之一。因此,如

【作者】

：

贾霞光

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2014年01期

【关键词】

：

短文本分类多语义层次特征提取 Probase LDA SVM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网等信息技术的高速发展,网络上无时无刻都在产生着海量数据,以广告词、论文标题、网页评论以及微博信息为代表的短文本数据是这些数据的主要存在形式之一。因此,如何智能的对这些短文本数据进行挖掘、分析和归类是数据挖掘领域普遍关注的热点问题,近年来已经出现了多种短文本分类技术。现有的方法在对短文本分类时,只是单纯的根据知识库对短文本进行同义词和近义词扩展,然后按照长文本的分类方法指导短文本分类。这种方法引入了大量无关特征,而且没有考虑词语间层次上的语义关系,以及词语间的组合语义。因此,本文重点对短文本的多层语义特征的生成和提取做了研究,并用这些特征来指导短文本的分类。本文首先综述了现有的文本分类技术,并基于此,将短文本的特征抽象为四层语义特征,并提出了支持多语义层次的短文本特征提取和分类框架。为了尽最大限度的保留了文本原有语义特征,本文首先提出了改进的基于词性标注的分词方法,并以此作为短文本的分词方法。提出了基于Probase的短文本的三层语义特征生成与选择方法,将短文本中原有的单词扩充到概念、实例和属性三层语义特征集合上,达到了文本特征层次化的效果。同时,在基于Probase生成特征词典时,通过同类特征求交集不同类特征求并集的方法来生成特征词典,并且基于贪心思想的优化算法来降低特征词典的维度,有效的提高了短文本分类的精确性。提出了基于潜在狄利克雷主题模型生成文本主题特征的方法,考虑了词与词之间的组合语义特征,使短文本的层次化特征表述更加全面。提出了基于Probase和潜在狄利克雷模型的四层语义特征模型,以进一步全面表述短文本的特征,使短文本分类的准确性大大提高。最后,在真实的数据集上进行了大量的测试研究,通过实验结果本身及对实验结果的分析,证明了支持多层语义的短文本特征提取方法更能全面的抽取短文本的特征,同时短文本的多层语义特征更能精确的指导短文本分类。

其他文献

基于元搜索的商务模型应用实践

当今Internet技术正将世界各地的丰富信息资源带到我们每一个人面前。随着网络信息的爆炸式增长，人们越来越关心怎样高效、准确地检索出自己想要的信息资源。传统搜索引擎的发

学位

搜索引擎元搜索引擎搜索调度页面提取

基于局部过滤的字符串近似匹配算法和优化技术

随着计算机的发展,社会中各行各业都离不开计算机,同时计算机可以给人们带来很大的方便和创新。字符串在计算机领域中是一种重要且基础的存储结构。现如今大量的数据都是以字

学位

编辑距离近似匹配字符串估计算法局部过滤

基于中间件的WEB数据库开发组件的研究与实现

在对各种WEB数据库中间件技术的研究基础上，本文选择JDBC作为典型的对象进行研究。文章指出了JDBC技术在开发网络数据库过程中存在的一些问题，并对其提出自己的改进意见。

学位

中间件WWB数据库开发组件JDBCMVC设计模式

中文语句压缩关键技术研究

近年来,随着计算机和互联网的广泛应用和迅速发展,自然语言处理技术正进入到一个飞速发展的时代。与此同时,如何从海量数据中迅速而准确的获取有价值的信息越来越受到研究人

学位

自然语言处理语句压缩语料库标注规范自动评价

基于数据挖掘的矿山企业产品结构的研究

随着世界经济的飞速发展，经济全球化的趋势已经越来越明显，世界各地经济联系日趋紧密。二十世纪九十年代以来，以计算机技术为代表的信息技术在企业的经营、管理、设计和制造等社

学位

数据挖掘规模经济点线性规划产品结构结构优化矿山企业

基于网格的任务调度的研究

“网格”是一个新出现的概念，代表了一种先进的技术和基础设施，是继Intemet之后又一次重大的科技进步。网格是以资源共享为目的，支持对可计算资源的远程和并发的访问，用高速网络

学位

网格任务调度负载平衡网络带宽

基于构件技术的电力营销系统研究

电力营销系统对于保障电力市场运营具有重要意义。当前，随着计算机技术的迅速发展，电力营销系统得到日益广泛的应用，而且要求也越来越高。构件技术是可复用的软件单元，利用构件技

学位

电力营销电力市场营销系统软件开发

基于TRIZ理论的CAI在浮筏减振器上的研究与应用

课题的目的是将基于TRIZ理论的CAI技术引入到浮筏的开发中，形成针对减振浮筏CAD/CAE/CAI集成系统。CAI在浮筏概念设计阶段为工程人员提供创新设计的思路；参数化的浮筏CAD模型系

学位

浮筏减振器有限元模型概念设计船舶动力装置

城市供水智能监测网络系统的研究

城市供水是城市发展的命脉产业，是保障人民生活、发展生产建设必不可少的物质基础。随着网络技术的普及和计算机技术的深入发展，人们已经意识到利用计算机和地理信息系统管理城

学位

城市供水供水管网系统经济效益软件设计

基于内容的垃圾邮件过滤技术的若干研究

电子邮件系统是互联网应用的一个成功典范，它诞生时间不长却给人们的工作和生活的诸方面带来了深刻变化。然而，电子邮件在给人们提供便捷通信手段的同时，也遭到了一些人的滥用。

学位

垃圾邮件过滤文本分类机器学习信息检索

支持多语义层次的短文本特征提取及其分类技术

与本文相关的学术论文