论文部分内容阅读
伴随着互联网技术的迅速发展,网上购物、博客、微博、BBS论坛等各种新兴的互联网应用正成为人们感兴趣的热点,而网上购物后的评论、博客、微博以及BBS上的意见信息也在与日俱增。这些评论和意见信息蕴含着丰富的价值,商家可以根据反馈信息改进生产质量和服务,提高效益,顾客可以根据评论选择合意的商品,而管理部门可以根据日常意见,提高管理效率。面对这些数量庞大的意见评论信息,如何高效,快捷地挖掘这些意见中的各种要素,并提炼成为有用的结构化信息成为当今意见挖掘技术研究的焦点。本文针对意见挖掘中的主题特征提取以及极性分析问题展开了以下工作的研究:(1)概述了意见挖掘的概念以及基本任务,在此基础上分析了意见挖掘的粒度与层次问题,并总结了它与相关技术之间的联系和区别。(2)针对已有的主题特征提取方法大多采用的是统计、句法分析或模板的方法,忽略了评论句的结构特点从而存在效果上的不足,提出了一种基于评论模式的主题特征提取方法(OFESP),将评论的句式结构用评论模式刻画,弥补传统方法的不足以及中文分词在词性划分上的多样性。实验结果表明该方法是有效的,与经典的特征提取方法相比,在总体评价指标上有一定的优势。(3)针对已有的中文词语极性分析方法采用语义相似度来代替极性相似度进行极性分析时,存在极性类别分类的不足和极性类别层次不明显等问题,分析研究了问题的根源,引入利用极性相似度进行词语的极性分析,提出了基于极性相似度度量的极性分析方法(POS),从而补充了语义相似度在极性分析上的不足。与基于语义相似度方法(SOC)相比,POS比SOC在分类准确率上有一定的优势,在极性层次类别的表现上有较大的优势。(4)将论文研究的工作集成到OURS小组开发的在线意见挖掘系统中,提供可视化的效果。