【摘 要】
:
随着互联网技术的快速发展与普及,用户对互联网发展的参与程度大大提高,各种各样的互联网社交应用,如微博、微信、QQ等,每天产生的交流数据量呈爆炸式增长。这些文本信息通常
论文部分内容阅读
随着互联网技术的快速发展与普及,用户对互联网发展的参与程度大大提高,各种各样的互联网社交应用,如微博、微信、QQ等,每天产生的交流数据量呈爆炸式增长。这些文本信息通常内容相对较短,表达方式简洁,称之为短文本。在海量的短文本中,尤其是用户对互联网上诸如产品、新闻、人物等的评价文本中,蕴含了丰富的个人情感倾向信息。这些信息具有非常广泛的应用领域,如网络舆情监控、个人情绪管理、商品推荐等。因此,针对互联网上大量中文短文本信息进行情感倾向性研究,已经成为了当前自然语言处理研究的新热点。中文短文本具有内容相对较少、数据特征稀疏和表达方式多种多样等特点,对于传统的短文本处理是在bag-of-words范式的基础上进行分类。其分类效果相对较差,准确率较低,且依赖性较强。针对上述问题,本文从短文本的评论转发等相关信息中挖掘具有语义相关联的语料对原文本进行扩展。在特征扩展方面,为了解决扩展信息有歧义和信息稀疏的问题,本文首先使用关键词提取算法获取短文本中的关键词生成集合,然后过滤检索得到的互联网信息,并将扩展信息与原语料进行融合。通过特征融合,既保证了原文本所要表达的信息,又解决了特征稀疏的问题。接着,本文利用权重投票组合分类器和基于AdaBoost集成学习方法对单一分类器进行了改进,并构建了 Vote-AdaBoost组合分类方法。实验结果表明Vote-AdaBoost组合分类方法与传统方法相比,准确率、召回率及F值获得了 7%左右的提高。最后,本文在特征扩展和组合分类方法的基础上,根据文本分类系统的功能需求和工作流程,设计并实现了一个简单易用的原型系统。同时,详细阐述了原型系统的核心模块,并完成了原型系统的功能测试。
其他文献
从物理学角度讨论了分子马达定向运动机制的基本观点,介绍了用Fokker-Plank方程求解几率流的一般思想,以及分子马达力学和化学过程可能的耦合方式。
目前,我国正处于轨道交通高速发展时期,有效利用有限的土地资源,避免造成土地浪费和交通拥挤,是城市规划和可持续发展的关键问题。集约型土地利用与轨道交通发展之间存在着双
将不同挤压条件下得到的糙米粉与小麦粉按1∶1比例进行混合,研究挤压改性对混合粉糊化特性及面条品质的影响,并分析两者之间的相关性。结果表明:物料水分的增加使混合粉峰值
<正> 心痛定引起糖尿病,临床上极为少见,我院收治1例,现报告如下。男,49岁。患者1年前被诊为“急性下壁心肌梗塞”,在某部队医院住院2个月痊愈出院。2个月前
通过对铁路专用线的自管模式、代维修模式、委托管理模式等3种运营管理方式的利弊分析,指出委托管理模式是充分发挥企业与铁路各自优势,实现双赢的目前最优管理模式。
综述了稻谷及其加工产品的平衡水分测定方法、吸湿平衡时间、等温线拟合方程以及平衡水分数据影响因素,以促进我国杂交稻谷、转基因稻谷、地方特色稻谷的吸湿特性分析。
通过滚动直线导轨副动态特性的试验 ,结合理论分析 ,发现随着滑块数目、跨距的增加和阻尼的加大 ,工作台系统的共振频率将增大。此外对滚动直线导轨副动态特性进行了深入的研
胃脘痛辩证施治举隅陈典梅(江西省都昌县人民医院332600)关键词胃脘痛,辩证论治胃脘痛(以下简称胃痛)临床上颇多见,本人在10多年的临床工作中.观察胃病患者100例;其中男50例,女50例;年龄20岁~30岁的30例,31岁~49岁的
随着资源的急速消耗,资源枯竭型城市越来越多;随着空气污染物的排放增多,大气污染蔓延了整个中国。据调查,汽车尾气已经成为了我国大型城市的主要污染来源,为了节约资源、减少排放
本文从对比《大学英语课程教学要求》和《高中英语课程标准》出发,分析我国大学英语教学的现状及面临的挑战,提出应对挑战的措施之一就是改革课程结构,为非英语专业学生开设