论文部分内容阅读
随着互联网技术的迅速发展,如今越来越多的人通过互联网发表他们对商品服务的意见、交流对各种事件的看法,互联网已不仅仅是人们获取信息的仓库,更成为人们发表观点、交流看法的园地,对于互联网用户来说,互联网不仅改变了他们的工作方式,同时也改变了他们的生活方式。通常,人们对某件事物进行评论或者表达自己的观点的时候,常常是具有倾向性的,为了能从这些丰富的信息中提取出有用的信息,文本的倾向性分析研究便应运而生了。对文本的倾向性进行分析,是现在自然语言处理中比较活跃的一个领域,其目的是判断一篇文章对评价对象所持有的倾向是支持还是反对。本文的主要工作概括如下:(1)分析研究了传统的文本倾向性分析方法,并指出了其中的不足。通过对语义信息和语义倾向的理论知识分析,讨论了三种基于语义倾向的语义分析方法。(2)提出一种基于HNC的语义相关度方法计算词语的原始极性算法。在深入研究HNC基本理论的基础上提出了基于HNC概念基元符号体系理论的语义相关度计算方法,根据HNC理论给出了语义相关度计算策略,并实现了概念符号比较的量化计算的详细方法。最后将基于HNC的语义相关度方法运用到词语的原始极性分析上,从而可以较容易也较准确地计算出词语的原始极性。(3)提出一种改进算法计算词语的上下文极性。首先给出文本倾向性算法的整体框架,然后对算法的流程进行了详细的说明。由于忽略句子中的关联词有可能导致极性词的方向或者强度发生错误,所以提出基于上下文的词语的倾向性分析方法来解决这一问题。利用计算极性成分在文本中出现的广度、密度和强度的方法,根据极性词语的分布情况确定评论文本的倾向性。(4)在理论研究的基础上,将文本倾向性分析应用到网络舆情监控系统—国保情报系统中,实验表明,将文本倾向性分析应用到网络舆情监控系统中可提高系统的使用效率。