论文部分内容阅读
随着互联网的高速发展,网络给人们提供了前所未有的开放、便捷的信息共享与发布平台,越来越多的人通过网络来表达自己的意见、想法、情绪和态度,其中既包括对对事件的发展有着正面、积极作用的信息,也包括一些负面、消极的信息。同时,网络平台的开放性、直接性和隐蔽性使得网络舆论越来越重要地影响人们的意识形态。因此,对大量舆情信息的及时有效监控分析,对维护社会稳定、促进国家发展具有重要的现实意义。网络舆情监控系统与自然语言处理技术密切相关。受限于自然语言处理技术水平,传统的网络舆情监控系统,主要为话题识别的相关内容,而对舆情的情感因素关注较少。虽然也有学者对舆情情感意见信息挖掘进行了研究,但由于处理结果与语料相关性较高,导致实用性不足。近年来,随着自然语言处理研究的逐步深入,浅层语义分析开始崭露头角,并在相关应用研究中体现出相对词性标注、句法分析更为智能实用的优势。浅层语义分析是一种简化了的语义分析形式,它利用动词对句意理解的关键作用,以动词为中心对句子意义的进行了形式化表示。语义角色标注作为一种浅层语义分析,对句子中一些成分为给定动词谓词的语义角色进行了标注,具有分析任务定义明确、便于评价等优点。结合这种最新的自然语言处理技术,基于对现有舆情监控分析算法的对比分析,我们设计并实现了一个网络舆情监控分析系统,创新性的提出了:(1)一种新的结合HowNet中公开的计算词语语义相似性算法和基于字的倾向计算算法,并对现有话题识别与追踪技术进行优化整合;(2)通过对大量样本的统计分析,得到倾向性语言表现形态规律,具体表现为角色-特征性概率表和角色-情感性概率表,为后续分析提供客观数据基础。本文包括的主要内容有:(1)舆情监控分析系统框架设计与模块设计。根据网络舆情信息的特点,提出系统总体框架,并对信息预处理模块、信息挖掘模块和信息服务模块进行了设计。(2)舆情热点话题识别技术研究。对网络中一段时间内大量出现的某个新闻主体进行提取追踪,通过对ICTCLAS分词技术、文档频率特征抽取方法、TFIDF权重计算以及K均值聚类算法的有效整合,实现热点话题识别与追踪。(3)舆情信息浅层语义分析研究。主要利用语义角色标注工具,通过训练测试,对文本语义层角色进行标注。(4)舆情信息倾向分析研究。实现文本中意见、情感等信息的提取,主要包括情感词库建设、特征库建设、情感倾向计算算法研究以及语料知识发现等。本文所涉工作在国内相关事件和分析中得到应用,可有效辅助舆情监控并减少人为干预,必将在未来的网络信息管理中发挥积极的效益。