基于CRF和名词短语识别的中文微博情感要素抽取

被引量 : 0次 | 上传用户:qq346278056
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,信息的发布和传播速度越来越快,如何从海量数据中提取有价值的信息显得越来越重要。微博作为近年来新的社交平台工具发展很快,用户数量庞大,除了主动发布信息,还可以通过话题的方式参与讨论,话题的类别多种多样,很多有价值的话题的讨论内容会带有作者的主观意愿。如何分析出这些话题微博的情感要素就是本文的研究内容,情感要素的抽取包括情感对象的抽取和情感倾向的判断。在情感倾向判断问题上,由于中文微博可以包含较大的信息量,一条微博可能含有多个情感对象,因此基于机器学习的情感倾向分类较难以划分边界。本文采用建立词典的方法对情感对象的情感倾向进行判断,通过词典的匹配形成情感单元,使用情感单元的情感值判断情感对象的情感倾向。在情感对象抽取问题上,本文使用条件随机场(CRF)模型进行情感对象抽取。结合词形、词性、是否为情感词和依存信息等语义特征,实现对情感对象的自动抽取。该方法在闭式测试中效果较好,但开式测试效果较差。造成结果的原因很大一部分是CRF方法的训练语料规模不够,但人工标注语料的成本过高,语料规模难以扩大。由于CRF方法在该问题上的表现不佳,本文提出一种基于名词短语识别的候选情感对象表自动生成的方法,该方法结合依存信息对候选情感对象进行有效的过滤,得到候选情感对象表,利用该表对CRF未识别出情感对象的句子进行情感对象抽取。实验表明该方法在情感对象抽取问题上较为有效。
其他文献
武汉网球公开赛是在北京中国网球公开赛网和上海大师赛之后,国内级别最高的网球赛事。武汉网球公开赛从2014年到2028年每年的9月在武汉举行。武汉网球公开赛是WTA超五巡回赛
<正>一、一般纳税人资格认定政策调整情况我国税法根据国际上通行的做法,对增值税纳税人按不同标准进行分类管理。主要分为一般纳税人和小规模纳税人两类,并实行不同的征收和
为解决小电流接地系统故障定位问题,提出一种利用IEC61850规约进行设备信息交互、比对故障特征波形的配电网故障定位方法。相对传统基于上下游低频波形的差异判别,通过对小电
招商引资是当前政府工作和经济领域的一个关键词,伴随着改革开放的深入发展日益受到各方面的关注和重视,特别是对像衡阳市这样的欠发达地区而言,更是如此。本文以调研报告的
<正>近年来,随着房地产行业的迅猛发展,房地产税收已成为地方经济的重要支柱。而作为直接调节房地产开发收益的土地增值税,因相关税收政策不完善、操作技术难度大、清算过程
目的 观察中医健脾清肠法治疗放射性直肠炎的临床疗效.方法 50例放射性直肠炎患者随机分为治疗组(n=25)和对照组(n=25),治疗组采用中药治疗(补脾清肠汤口服+中药灌肠);对照组采用西
湖北兴山大峡口剖面二叠系自下而上可以分为栖霞组、茅口组、吴家坪组和长兴组,总厚度为433.72m。该剖面岩石以石灰岩为主,含少量的白云岩、硅岩和页岩。石灰岩可进一步分为生屑
综合分析了近5年增强UV-B辐射对植物影响的最新研究进展.结果发现近5年来增强UV-B辐射对植物影响的研究明显具有以下趋势:1)增强UV-B辐射对植物个体影响的研究总体上趋于减少
文章结合萍乡邮政发展实际,从组织机构、工作职责、竞赛活动过程、创新设置等几方面,探讨了过程管理在企业劳动竞赛活动中的具体应用以及所取得的成效。
为增进对土地利用空间行为变化的理解,以分形理论和景观生态学为指导,以吉林省镇赉县镇赉镇的土地利用空间数据为基础,应用GIS对土地利用类型的分形及稳定性进行了研究。将土