论文部分内容阅读
随着网络技术的不断发展和普及,越来越多的网民将自己对新闻事件、商品服务的观点和看法在评论、博客、微博等网络应用上进行表达,互联网上集聚了海量的用户观点信息。从上世纪末开始,计算机科学、计算语言学、认知心理学、语言学、行为科学等领域的学者开始研究利用自动化手段对网络用户的评论意见进行搜寻、分析、挖掘,这一方面的相关研究被称为意见挖掘。意见挖掘是当前互联网智能化信息处理中的一个重要研究热点,是一项具有较大实用价值的研究课题,其可以在信息检索、信息过滤、电子商务、网络舆情监控、垃圾邮件处理、网络用户行为跟踪等领域得到广泛应用。本论文借鉴文本数据挖掘的基本研究框架,尝试从语义层次对网络用户评论数据进行意见挖掘,采用主题模型、句法分析、组合原则、评价理论等模型方法重点对主题抽取、主题指代消解、情感分析、评论数据排序四个核心问题进行研究。文中附图25幅,表17个。全文约13万字,共分为7个部分,主要内容如下:第0章以意见挖掘的四个基本子任务为主线,分别归纳总结了主题抽取、陈述选择、情感极性分类以及意见挖掘实验系统在国内外已有研究中的研究思路、理论方法、技术路线、发展趋势,在此基础上提出本文的研究任务和研究思路。第1章对意见挖掘研究的理论基础进行解析。在对意见挖掘内涵分析基础上提出意见挖掘的研究框架,指出情感计算理论是意见挖掘的理论源泉,文本分析、文本分类其技术基础,文本挖掘是其方法基础;并对情感计算、情感表示、文本情感计算方法、文本词法分析、句法分析、文本情感识别方法、文本分类步骤、文本分类器等内容进行归纳总结,从而为后文的研究奠定理论方法基础。第2章对评论主题的自动抽取进行研究。本章首先对评论数据主题抽取的概念、任务进行分析,在分析总结常用概率主题模型的基本思想及实现算法的基础上,提出基于主题模型方法hPAM实现评论数据主题抽取的思想,并通过获取各离散主题之间语义信息,生成层次化评论主题。第3章对评论数据的文本分割进行研究。本章对评论数据中存在的主题指代现象进行分析,归纳了11个指代消解特征,采用SVM方法实现评论数据的主题指代消解,并在此基础上采用Labeled LDA算法完成评论数据的文本分割。第4章对评论数据的文本情感分析进行研究。本章构建了静态极性词典,确定词语的先验极性、极性强度、极性权重,归纳总结了词语搭配情感极性判断的6个基本原则,并依据这些原则,构建了21条动词词组极性判断原则,在此基础上借助于句法分析工具和组合原则方法,完成评论句子情感极性分析和情感强度分析。第5章对评论数据排序问题进行研究。本章基于系统功能语言学中的评价理论框架,将意见表达形式分为情感、评判、鉴赏三种类别,并结合情感强度、情感表达式频率构建评论数据的价值评价体系,依据此体系完成评论数据进行排序。第6章对本文的研究进行总结,指出其中存在的不足之处,并对未来的研究做了展望。