中文短文本分类技术的研究与实现

被引量 : 0次 | 上传用户:Mafei19881016
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处理长文本的分类方法并不能很好用于处理短文本。本文首先总结了国内外针对短文本分类技术的研究现状,现有的短文本分类方法大多需要背景知识库的支持,但是这些分类方法的普适性不是很强,而且处理背景知识库需要耗费大量的精力。常见的短文本主要有论坛发帖、产品评论、手机短信以及微博等等。与传统长文本相比较,短文本具有自己鲜明的特点,比如长度很短、用词不规范、新词不断出现等等。对短文本进行分类研究具有重要现实意义,与长文本相比较,短文本具有自己的突出特点,本文提出了基于搜索引擎和LDA主题模型的短文本分类方法。然后,本文讨论了传统文本分类过程中重要的技术方法。包括文本的预处理,文本向量化表示,特征提取方法,常用分类方法等。同时指出这些方法需要改进的地方以便用于短文本的分类处理。接着,文章介绍了LDA主题模型。并在主题模型的基础上结合搜索引擎,对短文本进行扩充处理和向量化表示。通过实验验证,本文提出的方法能够有效表示短文本,提高短文本分类的效果。相信随着短文本分类技术不断的发展完善,短文本分类对于政府决策、网络信息监管、舆情引导等社会工作会起到广泛而深刻的意义。
其他文献
目的探讨中性粒细胞胞质抗体(ANCA)相关性系统性血管炎伴肾损伤患者的临床和病理特征。方法回顾性分析了16例ANCA相关性系统性血管炎伴肾损伤病例的临床及肾穿刺活检标本的病
目前对于我国古建筑的研究已经受到了人们广泛的关注,对于这些古建筑的研究以及保护也成了计算机图形学领域内研究的热点。随着计算机技术的发展,利用计算机来实现古建筑的三
农业行政执法工作是否有效,直接关系到农村的稳定和农业经济的健康发展。近年来,农业行政执法开始引起大家关注,但已有研究很少对农业行政执法有效性作出明确的判断。基于既
在分析信息化战场条件下复杂电磁环境特点的基础上,描述了复杂电磁环境对作战的主要影响,提出了复杂电磁环境的构建方法,重点阐述了复杂电磁环境仿真涉及的主要数学模型。
目前,会计造假和会计信息失真导致的会计诚信危机日益严重,国内外资本市场不断有违规公司被查处,对全球的资本市场产生了重大的影响,会计诚信危机已经成为了一个国际性的难题
本文运用访谈、问卷调查、文献资料等方法,对安徽省高校网球开展状况进行分析指出:当前安徽省高校网球开展在场地设施、师资力量、网球选项课、课余竞赛等方面存在着问题并提
本文主要基于财政性教育经费占GDP比重问题的5个影响因子进行分析。2012年中国将财政性教育经费占GDP比重的4%的转变成为现实,这是我国自1993年以来4%的目标被提出后首次成功
明清时期是中国资本主义的萌芽时期,这一时期商品经济得到了进一步的发展,社会产生了一些地域性的商帮。其中晋商势力之大,财力之雄厚是除了徽商之外其他商帮不可比拟的。在众多
油画作为一门外来的艺术传入中国,在我国的发展也有近200多年的历史,但我国对油画本身艺术语言的研究很少,在西方传统绘画中以材料为载体所形成的间接绘画技术得到了前所未有的
违宪审查制度是立宪国家维护宪法权威,保证宪法正确实施的一项重要制度。然而令人遗憾的是,我国迄今为止还没有建立起完善的违宪审查制度。有鉴于此,本文将对我国违宪审查制