论文部分内容阅读
随着Web2.0的快速发展,互联网的载体已经不仅仅是单一的电脑,手机、平板电脑等移动终端已经悄然进入了人们的视野。人们获取、分享信息也不单单通过社区、博客,而是能够随时随地发表微博,实现即时分享。微博用户的大幅度增长吸引了一大批学者对其发表言论进行研究,面向微博热门话题的主客观分类问题是其中的重要课题之一。到目前为止,国内外学者主要针对无话题的微博文本进行研究,而面向热门话题的微博文本研究尚处于起步阶段。热门话题下的微博言论文本具有话题分散性,即用户发表的言论常常与当前的热门话题不相关,这个现象会导致针对微博热门话题的主客观分类方法准确率不高。基于此,本文将面向微博热门话题的主客观分类问题看成是两个子问题——话题相关性分类子问题和主客观分类子问题,对两个子问题独立建模,再使用Logistic回归对两个结果集建模,得出当前热门话题下的主观性观点表达。本文的主要研究内容如下:(1)研究了基于同义词词林的话题相关度计算方法。在话题相关性分类子问题中,主要研究当前微博语料是否与所关注的热门话题相关,如何度量两者之间的相关程度是此问题的关键之处。本文以同义词词林扩展版作为资源,通过计算当前词与热门话题词的距离来刻画两者之间相关程度,以此来简化话题相关度的计算方法。(2)研究了基于汉语框架语义网生成有效观点词集的方法。在主客观分类判断子问题中,主要是判断当前微博是否属于主观观点表达。其中构建有效的观点词集是该问题中重要的步骤之一。本文利用汉语框架语义网中框架间关系和词元,以“观点”框架内词元为种子集,构建了有效的观点词集。(3)研究了将话题相关性模型结果和主客观分类模型结果统一的方法,使用Logistic回归模型将两重结果统一在一个模型下,得到热门话题下的主观文本。(4)本文使用无话题相关性分类的主客观分类方法作为Baseline,并与多分类主客观分类方法与分步主客观分类方法进行对比分析。分析了使用Logistic回归模型并行融合话题相关性分类结果与主客观分类结果的重要性。