基于Co-training训练CRF模型的评价搭配识别

来源 :山西大学 | 被引量 : 1次 | 上传用户:zhyy3611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以用户为中心的语义Web2.0的迅速发展,互联网用户的数量也不断增加,随之涌现出批量的评论文本,其中主要包括人们对产品、事件或者人物的观点、态度和想法等情感倾向。这些评论信息对于企业和个人来说都是非常重要的。但是,紧靠人工力量从网络上海量的数据中挖掘出有用的语义信息需要耗费大量的时间。为了快速、准确的挖掘出用户需要的信息,对评论文本进行情感倾向分析成为一项迫切的任务。本文通过Co-training训练多特征CRF模型对评价对象和评价短语进行识别,在此基础上对中文评论文本中的评价搭配进行识别,具体内容如下:(1)基于Co-training思想训练CRF模型对于CRF模型,特征的选择是至关重要的。特征模板的好坏直接影响到最终标注模型的性能,而且标注信息的多少也对模型有重要的影响。因此,本文提出基于Co-training训练CRF模型的方法。主要利用CRF模型中通用特征,即词特征、词性特征及上下文特征,采用不同比例的已标注初始训练集,通过Co-training思想训练CRF模型。当模型性能趋于稳定时结束训练。(2)基于Co-training训练CRF模型的评价对象和评价短语识别为了识别评论文本中的评价对象和评价短语,本文利用上述(1)训练的模型对文本中的评价信息进行识别。随着标注比例不断增大评价信息的识别效果越来越好。在汽车领域中,对待标注汽车评论语料中评价对象识别的精确率为67.483%,召回率为67.832%。对于评价短语识别效果:与通过模板识别评价短语的实验结果进行比较,当标注比例≥0.03时,F均高于模板的实验结果;当标注比例为0.1时,实验结果接近于标准实验结果。(3)基于近邻法的评价搭配识别评价搭配是文本中评价对象与其相关评价短语的组合。评价搭配的识别是情感倾向分析领域的一项基础任务。本文通过Co-training训练CRF模型,然后分别对评价对象和评价短语进行识别,在此基础上采用近邻法对评论文本中的评价搭配进行识别。实验结果表明,本文提出的方法能够有效的识别评论文本中的评价搭配。
其他文献
倒立摆系统具有非线性、强耦合、多变量和自然不稳定等特性,反映了共程系统中的许多典型问题,是控制领域算法研究的典型平台。本文选用拉格朗日方法对平面二级倒立摆建模,并
摘要:水下图像在开发和探索海洋领域有着重要作用,是研究海洋资源的重要手段。由于水下环境复杂,成像条件恶劣,使得水下图像通常包含各种噪声。为获取较清晰的水下图像,对水下
近几年来,伴随着计算机科学与技术的不断发展,计算机被越来越多的应用于人类生活中的各个领域。虚拟现实技术是人类利用计算机模拟现实世界的一种手段,虚拟医学仿真系统是虚拟医
最近几年以来,我国一直加快城镇供热计量改革的步伐,热量表作为供热按户计量的基础,必将迎来巨大的市场需求。所以,本课题旨在设计低成本、低功耗、高精度且适合我国供热现状的热
瞬态温度由于能够对物质性质的变化过程进行表征而备受关注。在生物医学、微电子等领域中,瞬态温度变化往往发生于非透明介质的内部,受测量速度和深度的双重限制,目前观测方式较为匮乏。磁纳米温度传感技术是一种有效的半侵入式(无创)测温手段,可以解决物体内部的温度测量问题。因此,本文基于磁纳米粒子的磁温度敏感性,研究了适用于非透明物体内部的瞬态温度测量方法,分别为肿瘤磁热疗中活体内部动态温度的监控和纳秒尺度超
随着生活水平的提高,人们对生活中各式各样产品的质量也有了更高的要求,这使得工业生产线对产品质量控制的要求也越来越高。而一些有缺陷的产品必须在使用之前检验出来。羽毛
无线射频识别技术(Radio Frequency Identification,RFID)是21世纪十大重要技术之一,随着物联网的高速发展,射频识别技术的重要性将越发体现。作为一种非接触式无线通信识别技术,RF
工程实际当中,由于外部环境的干扰,或是内部器件的损坏,维修等,系统的工作模态经常会发生随机的切换。在一些情况下,可以用一个马尔科夫链来描述系统工作模态的切换情况。马尔科夫
目前,我国大多数的煤矿井下供水管路都是建于几十年前,随着时间推移,管道长期处于阴冷的地下,管道锈蚀现象严重,加之随着煤矿采掘区的不断深入,供水管路也不断延长并且日益复杂。如
学位