论文部分内容阅读
随着社交网络平台的日益开放,越来越多的评论文本数据呈现出半结构、口语化、不规则等特点,随之语言的缺省现象也越来越普遍。在观点句中,评价对象与属性的缺省可使语言表达简洁,与此同时也给基于自然语言处理技术的观点挖掘带来诸多不确定性问题。随着细粒度观点挖掘相关研究的不断深入,评价要素缺省问题也引起了研究者的关注。为了解决评价对象与属性的缺省问题,本文围绕评价对象与属性缺省的识别与恢复两个任务开展研究,系统性地提出了一套完整的缺省识别和恢复的方案。主要研究工作如下:(1)评价对象和属性缺省项识别方法从句法成分角度,利用关联规则构造缺省项识别规则集,用于获取缺省项待识别的候选集。在此基础上,将缺省项识别问题看作二分类问题,引入词性特征和依存句法特征,利用决策树C4.5分类算法训练分类器模型。在测试集上对待识别的缺省项进行识别,实验结果显示,词法特征与依存句法特征融合后,缺省项识别的精确率达到了66.3%,优于任一单类特征。(2)评价对象和属性缺省项类型判定为了准确地对评价对象和属性缺省项实现恢复,需要评价对象和属性缺省项类型判定为缺省项恢复提供指引线索。本文根据语料中评价对象和属性缺省项的分布特点,分别提出了基于规则匹配和构造动态属性-指示词集(A-I)的方法。通过在汽车评论和手机微博两个数据集上进行的实验,实验结果表明,评价对象缺省类型判定方法在汽车和手机的召回率分别达到了92.1%和67.8%,评价属性缺省类型判定方法的召回率分别达到了91.8%和78.0%,说明本文提出的方法适合于汽车评论数据,同时,也进一步说明微博较论坛评论数据更加不规范。(3)评价对象和属性缺省项恢复针对评价对象和属性缺省项恢复问题,在缺省项类型判断的基础上,对于评价对象缺省项恢复,设计了3种缺省恢复策略,采用最近邻匹配方式用于获取缺省的评价对象。对于评价属性缺省项恢复,利用A-I方法用于获取缺省的评价属性。通过汽车评论和手机微博两个数据集上的实验,评价对象缺省项恢复的精确率分别为61.2%和90.1%,评价属性缺省项恢复的精确率分别为46.4%和45.5%,说明本文给出的评价对象缺省项恢复方法对于评价对象较少的情况效果较好。评价属性缺省项恢复方法在汽车数据集上的整体效果略优于手机,说明语料规模越大,获取A-I的信息越多,对评价属性缺省项恢复的效果越好。