论文部分内容阅读
随着互联网进入Web2.O时代,人们可以通过互联网平台发布、获取和传播具有观点性评论信息。面对迅速增长的评论数据,有效区分有用、无用的评论信息,有效组织、分析和挖掘蕴含着大量主观情感的评论信息是当前文本信息处理领域面临的挑战之一。观点挖掘(Opinion Mining)旨在通过分析和挖掘文本中的观点持有者、评价对象、以及观点、情感等信息,对评论者持有的情感倾向性做出判断,是当前十分新颖的研究热点,同时在商业智能、社会舆情监控、网络信息检索等领域具有重要的实用价值。
网络评论的质量参差不齐,低质量评论信息为面向网络评论的观点挖掘研究带来巨大挑战,因此在进行观点挖掘之前需要准确地评价评论的质量,过滤掉低质量评论。同时,网络评论的多元性和多样性使得观点的广度和深度明显增强,因此面向网络评论的观点挖掘需要从多角度、多侧面、多视点、多层次分析民众的观点,从而增加观点的完整性,体现民意的真正走向。另外,在观点的传递和交换过程中涌现出观点领袖,观点领袖对其他评论者观点的形成,以及观点的变化发展有着深远影响,对引导舆论起到举足轻重的作用,因此从中挖掘出观点领袖具有重要意义。针对网络评论的上述特点,本文针对网络评论质量评价模型、评价对象和观点词(情感词)挖掘、观点词倾向性识别、面向领域的情感知识库构建、主题层观点领袖挖掘、以及观点检索排序算法等方面展开研究。主要研究内容包括:
1、提出了集成评论文本信息和评论者信息的网络评论质量评价模型,该模型融合了评论的文本特征和评论者特征,提高了低质量评论检测的精度,同时对评论者特征进行深入分析,选择出最有判别意义的特征,为特征选择工作提供有意义的参考,并验证了该评价模型在不同数据集上的有效性。
2、提出了基于条件随机场(Conditional Random Fields)的评价对象特征和观点词抽取方法,该方法将被评价对象特征和观点词抽取问题转化为序列标注问题,根据词、词性、句法、上下文、领域知识库等一系列特征完成评价对象和观点词的抽取。同时,将条件随机场算法和Boot strapping框架结合,提出一种半监督的评价对象特征和观点词抽取方法,该方法在评价对象特征和观点词抽取任务中,可以达到和有监督方法相当的性能,最后根据语义相关性对评价对象特征进行合并处理。
3、提出一种基于情感知识库的观点词倾向性识别算法,首先利用半结构化评论和通用情感词典构建领域情感知识库,然后根据领域情感知识库中评价对象特征和观点词、评价对象特征之间以及观点词之间的语义关系来实现对给定观点词情感倾向性的识别,并通过实验验证该方法对观点词,特别是上下文敏感观点词倾向性识别的有效性。
4、提出一种在主题层进行观点领袖挖掘的方法,该方法综合考虑了评论者对某一主题的兴趣和权威度以及评论者之间的链接关系。首先使用AT模型挖掘评论者的兴趣,然后结合评论者之间的链接关系对评论者进行排序。实验结果表明,该方法能够有效的识别主题层观点领袖。
5、提出了一种融合相关性、质量因素和动态性的观点信息排序方法,同时结合上述研究实现面向电子产品领域观点检索原型系统。