论文部分内容阅读
随着以用户为中心的语义Web2.0的迅速发展,互联网用户的数量也不断增加,随之涌现出批量的评论文本,其中主要包括人们对产品、事件或者人物的观点、态度和想法等情感倾向。这些评论信息对于企业和个人来说都是非常重要的。但是,紧靠人工力量从网络上海量的数据中挖掘出有用的语义信息需要耗费大量的时间。为了快速、准确的挖掘出用户需要的信息,对评论文本进行情感倾向分析成为一项迫切的任务。本文通过Co-training训练多特征CRF模型对评价对象和评价短语进行识别,在此基础上对中文评论文本中的评价搭配进行识别,具体内容如下:(1)基于Co-training思想训练CRF模型对于CRF模型,特征的选择是至关重要的。特征模板的好坏直接影响到最终标注模型的性能,而且标注信息的多少也对模型有重要的影响。因此,本文提出基于Co-training训练CRF模型的方法。主要利用CRF模型中通用特征,即词特征、词性特征及上下文特征,采用不同比例的已标注初始训练集,通过Co-training思想训练CRF模型。当模型性能趋于稳定时结束训练。(2)基于Co-training训练CRF模型的评价对象和评价短语识别为了识别评论文本中的评价对象和评价短语,本文利用上述(1)训练的模型对文本中的评价信息进行识别。随着标注比例不断增大评价信息的识别效果越来越好。在汽车领域中,对待标注汽车评论语料中评价对象识别的精确率为67.483%,召回率为67.832%。对于评价短语识别效果:与通过模板识别评价短语的实验结果进行比较,当标注比例≥0.03时,F均高于模板的实验结果;当标注比例为0.1时,实验结果接近于标准实验结果。(3)基于近邻法的评价搭配识别评价搭配是文本中评价对象与其相关评价短语的组合。评价搭配的识别是情感倾向分析领域的一项基础任务。本文通过Co-training训练CRF模型,然后分别对评价对象和评价短语进行识别,在此基础上采用近邻法对评论文本中的评价搭配进行识别。实验结果表明,本文提出的方法能够有效的识别评论文本中的评价搭配。