短文本分类语料库的构建及分类方法的研究

被引量 : 0次 | 上传用户:hebeihuazi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库和词典作为自然语言信息处理研究方向重要的基础资源,与信息技术之间有着相辅相成的关系。语言形式的发展和复杂性决定了了解语言的特点必须有符合要求的语料支持。中文语料库经过近几年的发展,在建设与应用方面都做了大量的工作。但由于数据挖掘技术的研究越来越受到重视,用于分类的语料库在各领域上的需求无论是在量还是在专业性上的要求都逐渐增加。前期构建的传统语料库在新颖程度、专业性、构建方法等方面无法完全达到研究要求。所以,文本分类语料库的构建研究对于信息处理领域是一个十分重要的研究方向。在文本分类己经成为大规模数据应用处理的核心和基础的今天,语料库研究的滞后成为信息技术发展的阻碍。同时,由于社交网络的出现,短文本形式的信息大量涌入人们的生活中。这就意味着传统的语料库已经不足以应付现在的理论研究,传统的研究方法在短文本分类上也体现出缺陷和不足。而大规模的短文本语料涵盖了人们对各种社会现象中的各种立场与观点,因此在舆情调查、热点话题的挖掘发现、新词发现、话题识别等领域有着重要的应用前景。分类是对这些短文本进一步挖掘的重要步骤,短文本的分类也越来越受到人们的关注。本文针对短文本数据构建了适合分类、主题建模的短文本语料库,并融合了主题特征对分类方法进行改进,提高短文本分类的效果。涉及的工作内容主要有以下几个方面:1.针对各种专业短文本语料库和通用短文本语料库的缺少,构建小规模的短文本实验语料库。通过新浪API获取微博短文本数据,搜集6个类别共2万余条。并对语料库进行一定的加工处理,如类别标注、主题建模和词典构建等工作。最后,对构建的语料库进行相关的验证实验。2.针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不是理想的问题,在TF-IWF的基础上进行改进并结合BTM主题模型,提出了一种综合特征提取算法来进行短文本分类。首先,在特征权重计算方面对TF-IWF算法中的TF的计算方式进行改进,同时引入词分布熵变量,通过实验验证分类效果。其次,引入BTM主题模型中“文档-主题”概率分布来加强文档之间的上下文联系。一定程度上解决短文本由于长度短、上下文信息缺失导致二义性的词含义难以确定的问题。最后,根据短文本在进行特征选择之后容易出现文档为空的问题,利用BTM主题模型中“主题-词”概率分布对短文本进行扩充。选择哪个主题下的主题词集对文档进行扩充的依据在于:选择该文档主题概率分布值最大的那个主题的主题词集。实验证明当补充主题词个数为1时可以提高分类效果,同时在计算效率和空间上并没有带来额外的开销。
其他文献
构建社会主义和谐社会是党和政府从中国特色社会主义事业总体布局和全面建设小康社会全局出发提出的重大战略任务。建设社会主义新农村是落实科学发展观、协调城乡发展、建设
实践的观点是马克思主义哲学首要的基本的观点。实践思维方式是我们认识世界改造世界的基本思维方式。实践观在马克思主义哲学所占据的地位要求我们,只有对马克思主义实践观
为了自动快速地选取适合不同人脸的边缘检测方法的目的.采用了计算原始人脸图像与其边缘检测后所得图像的均方误差和峰值信噪比的方法,做了比较Roberts,Sobel,Prewitt,Canny,
脉络膜新生血管是眼底疾病中一种常见的病理改变,可见于年龄相关性黄斑变性、病理性近视、特发性脉络膜新生血管和中心性渗出性脉络膜视网膜病变等多种眼科疾病。临床中常结
国家身份认知是一个相对、复合概念,它主要涉及国家政治身份、国家实力身份、国家文化身份三个维度。国家政治身份指人们对本国与他国的权力结构的主从认知;国家实力身份是指
<正>自20世纪80年代初期至今,茅盾文学奖已经走过了近四十年的历程。在这一历程中,它逐渐成为了中国的最高文学奖,并被誉为当代文学的高峰走势与存在真景。但也正是这一点使
斜拉桥、悬索桥混凝土桥塔塔身在桥梁运营使用中出现竖向裂缝,裂缝是否稳定,有无扩展、扩展到何种程度,对结构造成的损伤有多大?这一系列问题关系着结构的使用性、安全性、耐
农村剩余劳动力的转移是世界各国谋求现代化过程中所伴随的一个普遍性问题。新中国成立以来,特别是在改革开放之后,农村剩余劳动力的转移就业一直是党和政府高度关注的问题。
随着我国改革开放的逐渐深入,开发区在社会经济发展中扮演着越来越重要的角色。然而,在我国目前人多地少,耕地资源日益紧张的情况下,土地问题已成为开发区发展中至关重要和关键的
武汉市洪山区位于长江南岸,武汉市东南部,全区自西向北呈半圆形,环抱武昌、青山两区,是武汉市中环和外环线内的主要经济发展区域,是一个由近郊区发展而成的新型带郊城区,是武