新闻评论的评价对象抽取研究

来源 :中国科学院大学(中国科学院人工智能学院) | 被引量 : 1次 | 上传用户:cmccetehi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻评论评价对象抽取是挖掘网民观点的一种重要技术,该任务旨在对新闻评论文本进行分析,抽取出其中包含的评价对象。新闻评论可以方便的获取到对应的正文内容,新闻正文内容和评论具有很高的相关性。基于上述特点,本文充分利用新闻正文内容,提出融合新闻正文的评价对象抽取模型。针对现有评价对象抽取模型需要大量训练样本而数据集样本较少的问题,本文提出基于外部知识辅助数据集扩充的评价对象抽取方法。具体研究工作包含以下内容:1.融合正文信息的评价对象抽取。本研究结合新闻评论的特点,首先将新闻正文通过中心命名实体识别获取候选评价对象,然后利用获取的候选评价对象构造对应的特征向量,接着将候选评价对象对应的特征向量和评论文本的向量融合输入循环神经网络学习到文本和候选评价对象的特征,最后输入到条件随机场进行序列标注抽取出评论中的评价对象。实验结果表明,融合新闻正文信息后抽取效果有显著提升,表明该方法在融合正文信息后可以更好的抽取新闻评论中的评价对象。2.外部知识辅助数据集扩充的评价对象抽取。针对现有深度学习模型需要大量训练样本才能充分训练而数据集样本少的问题。本文提出一种基于外部知识辅助数据集扩充的评价对象抽取方法。首先,将从正文中获取的候选评价对象和相关评论已标注的评价对象结合,构造一个候选评价对象知识库;然后,利用该知识库,使用远程监督的方法来自动标注样本,在远程监督方法标注中,本文提出直接匹配和分类器匹配两种算法。实验结果表明,使用本文提出的方法扩充数据集之后,评价对象抽取F1值有了显著的提升。表明采用基于外部知识辅助数据集扩充的评价对象抽取方法的有效性。3.评价对象抽取系统与应用。本文基于前面提出的研究在业务系统中进行了实现,介绍在实现系统中用到的技术和实现的方法,通过在业务系统中的应用来验证本文提出模型的有效性,通过应用效果体现了本工作的研究价值。通过上述研究和系统实现工作,本文充分利用新闻评论的特点,融合新闻正文信息,提出了融合正文信息的深度学习模型。针对现有深度学习模型需要大量训练样本才能充分训练而数据集样本少的问题,进一步提出利用外部知识辅助数据集扩充的评价对象抽取方法来扩充数据集提升模型效果。最后本文开发实现了评价对象抽取系统,通过在业务场景中的使用验证了工作的有效性。
其他文献
玉米作为我国三大粮食作物之一,2016年其产量和种植面积占据我国粮食总产量和种植面积的33.6%和32.5%。近年来,随着我国种植业结构的调整,籽粒玉米的种植面积调减,鲜食玉米和
近年来,全球自闭症儿童年增长率显著。2017年《中国自病症教育康复行业发展状况报告》蓝皮书显示,中国现有自闭症人群已经超过1000万,并以每年十几万的速度递增。随着我国自闭症儿童数量的不断增加,自闭症儿童融合教育问题也逐渐引起学术界的广泛关注。因此,本研究以郑州市J项目为实务基础,以G小学融合教育资源班的自闭症儿童为服务对象,运用小组工作方法对其进行介入。首先,对自闭症儿童融合入教育现状进行需求调
近年来,随着经济的持续增长,中国始终保持了对世界主要经济体出口贸易顺差。与此同时,世界主要经济体经济增速放缓,各国纷纷加大对进口产品贸易壁垒的设置,以增强对国内相关产业的保护,新贸易保护主义在全球范围内兴起。反倾销是在WTO体制下被允许采取的保护措施,中国是制造产业大国,全球贸易保护主义的抬头,首当其冲的就是中国企业出口遭受主要经济体反倾销调查,据WTO统计,每年针对中国企业出口发起的反倾销调查,
在现代企业飞速扩张发展的同时,两权分离的存在愈发受到人们的重视。在职消费作为因两权分离产生的代理问题之一,也越来越受到人们的关注。同时因为腐败现象的不断被披露,作
改革开放至今,作为社会主义国家,高速发展的中国受到了全球各国的瞩目。随着中国的不断崛起,和中华民族伟大复兴的中国梦的提出,“中国威胁论”等一系列的不利于中国国际形象维护的言语盛行,导致中国在国际社会中有理说不出,如何提升我国在国际舞台上的政治影响力和话语权,是我国在国际政治舞台上需要主要思考的问题。虽然随着我国综合国力的提升,在全球范围内具有了更强的话语权,但“他强我弱”的总体格局依旧没有太大的改
目的:骨髓增生异常综合征(MDS)具有向急性髓系白血病(AML)转化的高风险,近年来发现其发病机制及恶性进展与自噬有关,Bcl-2是经典的抗凋亡蛋白,近来发现其与自噬有关。本文旨
心血管疾病多年来一直位于全球居民疾病致死的首位。其中,脑卒中(Stroke)、冠心病(Coronary heart disease)、肺原性心脏病(Pulmonary heart disease)和心力衰竭(Heart failu
研究目的:经典棕色脂肪组织(BAT)主要由富含线粒体的棕色脂肪细胞构成,能够表达解偶联蛋白(UCP-1),消耗ATP并以产热的形式释放能量,进而防止肥胖的发生。BAT主要存在于婴幼儿
近年来,随着生活质量的不断提高,中国城镇化建设不断的完善,人民的生活水准也得到了质的飞跃,市场经济从卖方市场转变为买方市场的同时出现了生活垃圾、餐厨垃圾、医疗垃圾等
目的:探讨肾上腺增生性高血压行腹腔镜下单侧肾上腺切除术术后血浆基础皮质醇水平变化曲线及其影响因素,为围手术期激素替代治疗提供参考。方法:收集自2015年10月至2017年10