论文部分内容阅读
在社会主义民主政治以及和谐社会发展的过程中,论坛BBS已成为人们交流意见和发表评论的重要平台。为了及时采集BBS舆论信息,掌握BBS热点话题评论内容的观点、态度和情感倾向,监管和净化BBS网络环境,为党政机构和相关部门提供民众意见倾向,以便快速和科学的决策,而BBS主观倾向分析则是BBS舆论监管的重要手段之一。在国外,英国科波拉软件公司的“感情色彩”软件能判断媒体文章对政党政策或网络产品评论信息所持评价态度和情感倾向。在国内,方正智思舆情监测分析系统帮助监管部门对网络舆论信息进行评估、分析和规划舆情内容,形成舆情预警信息。基于机器学习和语义模式的BBS文本倾向性研究都是将文档看作是词或模式的集合,根据计算或查找这些短语或模式的倾向性值,将计算结果累加得到整个将要判断评论性文档的BBS文本倾向性值;然而并没有将观点评价对象和对应的极性情感倾向进行细化和对应并且忽略了句子语法结构中主谓与动宾结构间的连动关系,导致BBS热点的主题词对应的情感词极性倾向判断偏差和BBS文本倾向分析的不准确。BBS主观倾向性分析的数据获取具有复杂性和多样性,常常与讨论的热点主题相关,具有随意性、广泛性、领域独特性和实效性。因此,本文首先对BBS主题的观点评价对象和相应的极性倾向进行细化与对应;然后结合极性情感词典、基于语法结构的依存句法分析Parsing以及主题极性识别算法进行BBS主观倾向分析,利用一种改进的基于上下文的倾向分析方法计算主题极性倾向值;最后进行极性主题、焦点主题和敏感主题分析和发现,利用倾向离散度的时间变化来发现主题走势,并进行对比实验验证在主题识别和对应极性倾向判断的准确率方面上本文的BBS主观倾向分析方法具有更高的有效性和可行性。主要工作:(1)利用Html和DOM抽取非结构化的BBS文本信息,进行禁用词过滤后完成中文分词预处理并以XML方式存储。(2)提出基于极性情感词典、依存句法分析技术Parsing和主题极性倾向识别算法的方法,分析主题词和对应极性情感词的极性倾向以进行BBS主观倾向分析。建立与整合正负情感词典和否定词典,计算句子的倾向值提取BBS评论内容中具有情感描述项的主题倾向句,并利用主题极性倾向识别算法计算基于上下文的词语极性倾向值。(3)提出一种改进的计算上下文极性的方法,通过添加主题识别标记和主谓与动宾结构之间的连动关系,弥补SBV(Subjective-Verb,语法中的主谓结构关系)极性传递算法主题词判断错误和极性词极性倾向判断偏差的问题。(4)进行BBS主观倾向关键点分析以发现极性主题、焦点主题和敏感主题;定义倾向离散度、聚焦度和敏感度,并通过倾向离散度的时间变化来分析和发现主题趋势。(5)通过对比实验验证在主题识别和对应极性倾向判断的准确率上,本文的BBS主观倾向分析方法具有更高的有效性和可行性。