支持多语义层次的短文本特征提取及其分类技术

来源 :东北大学 | 被引量 : 8次 | 上传用户:javabudong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网等信息技术的高速发展,网络上无时无刻都在产生着海量数据,以广告词、论文标题、网页评论以及微博信息为代表的短文本数据是这些数据的主要存在形式之一。因此,如何智能的对这些短文本数据进行挖掘、分析和归类是数据挖掘领域普遍关注的热点问题,近年来已经出现了多种短文本分类技术。现有的方法在对短文本分类时,只是单纯的根据知识库对短文本进行同义词和近义词扩展,然后按照长文本的分类方法指导短文本分类。这种方法引入了大量无关特征,而且没有考虑词语间层次上的语义关系,以及词语间的组合语义。因此,本文重点对短文本的多层语义特征的生成和提取做了研究,并用这些特征来指导短文本的分类。本文首先综述了现有的文本分类技术,并基于此,将短文本的特征抽象为四层语义特征,并提出了支持多语义层次的短文本特征提取和分类框架。为了尽最大限度的保留了文本原有语义特征,本文首先提出了改进的基于词性标注的分词方法,并以此作为短文本的分词方法。提出了基于Probase的短文本的三层语义特征生成与选择方法,将短文本中原有的单词扩充到概念、实例和属性三层语义特征集合上,达到了文本特征层次化的效果。同时,在基于Probase生成特征词典时,通过同类特征求交集不同类特征求并集的方法来生成特征词典,并且基于贪心思想的优化算法来降低特征词典的维度,有效的提高了短文本分类的精确性。提出了基于潜在狄利克雷主题模型生成文本主题特征的方法,考虑了词与词之间的组合语义特征,使短文本的层次化特征表述更加全面。提出了基于Probase和潜在狄利克雷模型的四层语义特征模型,以进一步全面表述短文本的特征,使短文本分类的准确性大大提高。最后,在真实的数据集上进行了大量的测试研究,通过实验结果本身及对实验结果的分析,证明了支持多层语义的短文本特征提取方法更能全面的抽取短文本的特征,同时短文本的多层语义特征更能精确的指导短文本分类。
其他文献
当今Internet技术正将世界各地的丰富信息资源带到我们每一个人面前。随着网络信息的爆炸式增长,人们越来越关心怎样高效、准确地检索出自己想要的信息资源。传统搜索引擎的发
随着计算机的发展,社会中各行各业都离不开计算机,同时计算机可以给人们带来很大的方便和创新。字符串在计算机领域中是一种重要且基础的存储结构。现如今大量的数据都是以字
在对各种WEB数据库中间件技术的研究基础上,本文选择JDBC作为典型的对象进行研究。文章指出了JDBC技术在开发网络数据库过程中存在的一些问题,并对其提出自己的改进意见。
近年来,随着计算机和互联网的广泛应用和迅速发展,自然语言处理技术正进入到一个飞速发展的时代。与此同时,如何从海量数据中迅速而准确的获取有价值的信息越来越受到研究人
随着世界经济的飞速发展,经济全球化的趋势已经越来越明显,世界各地经济联系日趋紧密。二十世纪九十年代以来,以计算机技术为代表的信息技术在企业的经营、管理、设计和制造等社
“网格”是一个新出现的概念,代表了一种先进的技术和基础设施,是继Intemet之后又一次重大的科技进步。网格是以资源共享为目的,支持对可计算资源的远程和并发的访问,用高速网络
电力营销系统对于保障电力市场运营具有重要意义。当前,随着计算机技术的迅速发展,电力营销系统得到日益广泛的应用,而且要求也越来越高。构件技术是可复用的软件单元,利用构件技
课题的目的是将基于TRIZ理论的CAI技术引入到浮筏的开发中,形成针对减振浮筏CAD/CAE/CAI集成系统。CAI在浮筏概念设计阶段为工程人员提供创新设计的思路;参数化的浮筏CAD模型系
城市供水是城市发展的命脉产业,是保障人民生活、发展生产建设必不可少的物质基础。随着网络技术的普及和计算机技术的深入发展,人们已经意识到利用计算机和地理信息系统管理城
电子邮件系统是互联网应用的一个成功典范,它诞生时间不长却给人们的工作和生活的诸方面带来了深刻变化。然而,电子邮件在给人们提供便捷通信手段的同时,也遭到了一些人的滥用。