论文部分内容阅读
意见是人们对实体、事件或它们的特性所产生的情感倾向、评价或感觉等内在想法的主观性表述。组织和个人都倾向于决策时参考他人意见。本世纪互联网应用的迅猛发展使人们收集意见的途径扩展到网络空间,论坛、社区、博客、交易网站等平台产生了海量的评价性文本,其中包含着人们对于特定产品、政策法规、人物或事件的评价、态度、立场或情感倾向等信息,这将对政府、企业和个人的行为决策产生重要影响。从大量非结构化自然语言文本中自动发现出意见趋势的需求催生了计算领域中面向意见的情感倾向分析和意见挖掘研究。其中,情感倾向分析是以计算方式判别篇章、句子或词语在应用文本中所体现出的情感倾向,目前通过把情感词典与词袋方法等文本分类技术相结合,取得了一定的成效;意见挖掘是从大规模文本集合中自动提取出意见信息并按语义进行结构化表示与存储,以支持意见统计或摘要,仍然面临着诸多挑战。现有的意见挖掘方法以按主题分类和情感词识别为主,由于对意见内涵和词语序列及词义间的关系研究不足,导致意见的识别率不高。因此,需要系统地发现与意见表达相关的各类语言因素来建立意见挖掘的理论基础,并找出意见表达方式规律与挖掘性能的量化关系,以支持有效的意见挖掘计算模型的构建,最终达到意见挖掘研究成果的实际应用。
本文选择具有代表性的3个领域的评价文本语料进行标注和统计研究,发现意见的表达方式受多种语言现象的综合支配,既有基本的“特征-评价语”式的表达,也有隐式特征和不使用情感词的表达,而且这些意见表达信息还被层层包裹在诸如指代与省略、特殊句式、篇章结构和语境等语言形式之中,仅通过字面语义和词典的比较是无法准确识别语句所要表达的意见。本文首次从语言学角度探究了语言学基本概念与意见表达之间的联系,建立了该领域描述意见的基本概念和判别依据;并给出了意见所处粒度、要素、类型及语言影响因素等4个方面的分布规律。其中,基本意见表达模式的子句占全部意见的63.76%;意见具有5种主观句式、3种客观句式及3种混合句式的表达方式,传统上重视的主观句式的意见并不占明显优势(33.89%)。这些规律为构建高效的意见挖掘模式与算法提供了数据基础。提出了基于序列模式匹配的迭代式意见挖掘方法,其主要思想是从词性序列中发现核心模式,从核心模式提取出特征词和情感词;再把特征词和情感词迭代进词性序列,形成更有代表性的模式,完成对大部分基本子句的意见挖掘,进而发现起倾向指示作用特殊词语,迭代进词性、特征的序列,构成三元序列模式,实现对特定句式的挖掘和非意见句的去除。本文提出的迭代式序列模式意见挖掘方法,在保证准确度的同时提高召回率,解决了意见挖掘中准确度与召回率的性能冲突的问题。构建了课程评价意见挖掘原型系统,从50.9万条记录选择4万条包含优点和缺点评价的数据进行了特征与情感词的识别,抽样1000条数据进行了意见挖掘,并与人工识别结果进行了对比评测。描述了原型系统的体系结构、识别课程评价意见要素的过程,最终给出意见挖掘的实现及性能分析结果。实验数据表明,意见挖掘准确度为85.81%,召回率为39.08%。该结果与C0AE2011的相应评测任务对比,指标有明显提升。在研究途径上改变了意见挖掘领域传统上仅依据计算结果的反馈来优化计算模型的方法,代之以从意见的表达规律出发,建立充分反应意见语言形式特点的规则,通过规则的扩展与优化来提高计算结果的方法。这种研究路线适用于大部分依赖于文字的组合与排列方式的语义相关的研究。