论文部分内容阅读
当今的中国,客观存在两个社会舆论场,一个是以报纸、广播电视等为主流媒体的社会舆论场,一个是以互联网和近几年来兴起的Web2.0应用为平台的民间舆论场。在新的Web2.0环境下,基于互联网的社会舆论平台除了原有的网站新闻评论、BBS等形式外,又涌现出了聚合新闻(RSS)、维基百科(Wiki)、QQ等即时通信工具(IM)、(微)博客、播客、淘宝与易趣综合的商务平台等新形式,使得网络当中的评论信息量得到了快速增长。目前我国网民规模已经进入发展平台期,手机成为新增网民的第一主力,微博、社区等微内容成为网络评论观点的主要来源,及时性、开放性、交互性、思想性、草根性成为网络评论信息的新特征,深深影响着人们生活的各个领域,改变了社会舆论生成演变与聚合的机制,拓展了社会舆论的传播空间。在Web2.0环境下,人们普遍感到,获得观点已经与获取信息同等重要,但要想从中获得体现价值的观点信息却变得越来越困难。究其原因在于:一是由于发表评论的人角度或目的不同,评论观点经常是正面和负面意见相混合,从中准确获取评论信息将花费很多时间和精力;二是由于以Web2.0应用为平台的民间舆论场的信息源受到较大的污染,网络评论中的这些主观信息五花八门、纷繁芜杂,良莠不齐,而以往采用的传统网络社会舆论分析技术手段(主要对象是网页和论坛)对动态性更强、结构更复杂的Web2.0网络应用处理能力有限,无法获取这些深层社会舆论信息要素,也无法甄对信息真伪,影响了网络评论信息分析效果。鉴于此,开展对于Web2.0的网络评论信息的分析研究,有助于我们更好地发掘蕴含在网络评论背后的观点信息,为决策和对未来的预测提供更加深层和丰富的信息支持,同时在理论上丰富网络评论信息分析的理论体系。本论文以Web2.0应用为平台的民间舆论场的信息源为逻辑起点,综合运用文本挖掘、观点挖掘、知识发现、LDA主题模型、本体学习等理论和方法,从主题聚类视角对网络评论信息分析模式、观点挖掘的理论、技术、方法及其应用等问题进行了较深入系统的研究。论文所做的主要研究工作如下:(1)对选题相关的国内外研究现状、热点与前沿、应用进展进行了较全面系统的分析与综述。梳理、分析了网络评论观点知识发现的相关理论与方法,为本研究工作的展开奠定了坚实的理论与方法基础。(2)以显式观点的特征-情感关联关系发现方式作为非结构化评论文本的观点挖掘基础,利用网站提供的半结构化的显式观点提取评论对象的特征、情感极性和二者搭配关系,构建观点知识库,在一定程度上解决情感词语境敏感问题,将观点知识库作为非结构化评论文本的观点挖掘基础,辅助完整的挖掘工作。(3)提出基于LDA(Latent DirichletAllocation,潜在狄利克雷分配)主题聚类的网络评论知识发现的主要任务和解决方法,包括相似评论文本聚类、评论主要观点抽取、深度观点判定等方法。(4)从认知视角,分析探讨了面向隐性认知的网络评论知识发现规律,在此基础上以领域知识为核心,将基于观点词的一般挖掘与基于主题的深度挖掘相融合,构建了多库融合的网络评论观点知识发现模式。(5)以教育领域网络评论观点挖掘为例进行了实证研究,为其应用研究提供了有价值的参考。论文取得的创新研究成果包括以下三个方面:(1)构建了基于本体的观点知识库,并提出了基于观点本体知识库的观点挖掘模式,有助于解决隐式观点识别和语境敏感问题,并可辅助提高领域词典的动态扩展性。(2)基于主题聚类视角,运用LDA主题模型,结合观点分离与观点摘要集成算法,提出了网络评论主要观点识别、深度观点发现等方法。(3)将基于观点词的一般挖掘与基于主题的深度挖掘相融合,通过领域知识进行互补,构建了观点-领域知识-主题多库融合的网络评论观点知识发现模式。