论文部分内容阅读
摘要:信息传播与交互随着互联网的发展变得日益普遍,网络舆论的表达方式也日益多元。中文贴吧作为网络舆论表达的重要通道,已逐渐成为网民反映自身情感需求的一个平台,对其观点进行识别进而判断其情感倾向非常重要。根据三支决策理论对贴吧观点进行识别,采用基于三支决策的贝叶斯分类器,给出了中文贴吧观点句识别方法和主要步骤 ,取得了较好的识别效果。
关键词: 三支决策;观点句识别 ;贝叶斯分类;贴吧
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2019)10-0164-03
开放科学(资源服务)标识码(OSID):
1 概述
互联网的快速发展吸引了越来越多的用户,这一趋势随着移动互联网兴起更加明显。针对某一事实或者观点,这些用户可以便捷的表达自己的情绪、态度和立场等,形成了海量的客观或者主观信息。中文贴吧作为个人情感表达的一个重要渠道,使得对同一个话题感兴趣的用户方便地展开交流,其主题内容广泛,可以涵盖社会、生活、教育等方面。作为用户观点表达和思想交流的网络空间,对中文贴吧的观点进行识别已经愈发受到重视。
中文贴吧观点句识别是数据挖掘的子领域,其目的在于分析和判断用户对事物的观点倾向。在不同主题贴吧的观点句识别具有很强的实用性。如针对某一热点时事,通过有效识别贴吧中的观点句,可以实现对舆情的及时监测和有效引导,从而化解舆论危机,这对维护社会稳定促进事态向有益方向发展具有极其重要的现实意义。
2 三支决策基本思想
三支决策(Three-way Decision)是一种符合人类认知的决策模式。在实际决策过程中,对于掌握足够信息的事物,立即做出接受或者拒绝的判断;而对于哪些信息掌握不充分、认知不够彻底的事物,则往往会推迟判断。
3 中文贴吧的语言特征
与微博相比,微博发言具有严格的字数限制,体现观点的语句表达较为集中,而贴吧发言语句较长,字词较多,表达作者情感或观点的句子较为稀疏分散。与新闻或者评论相比,新闻或评论的撰写发表须符合特定的格式,文体较为集中统一,主旨明确,往往首尾句在很大程度上即表明了作者的态度和观点,而贴吧的发言具有较大的随意性,语言风格因人而异,反映帖子情感或观点的语句甚至是隐藏起来的,即使是同一个词语,在不同的语境或上下文环境下其情感倾向完全不同甚至是相反的,如“呵呵”,既可以表示赞同也可以表示戏谑。这一语言特点在新兴网络用语日益普遍的情况下尤为明显。
因此,针对不同主题环境的贴吧,对观点句的识别需结合其自身的语言特征,考虑到不同的领域观点词所表现出的不同的语义。
4 基于三支决策的中文贴吧观点句识别
4.1 设计三支决策分类器
常见的机器学习算法(常规分类器)有朴素贝叶斯算法、最近邻算法、支持向量机等,将三支决策与机器学习算法结合,形成了基于三支决策的相应算法分类器。由于朴素贝叶斯分类器具有稳定的分类效率、易于处理多分类任务、可分批进行增量训练等优点,本文采用经拉普拉斯校准的朴素贝叶斯分类器。其基本思想是利用先验概率和类条件概率估计帖子中句子x属于观点句集合C的概率,公式如下:
4.2 构建贴吧领域观点词库
判断贴吧中的语句是否属于观点句,实际上是一个二分类问题,由两步组成:即训练和预测。因此需要有一个训练数据集。本文采用基于词典和统计分析相结合的方法构建贴吧领域观点词库。基本步骤如下:
1)对某一主题的贴吧,采用人工标注的方式,将其中的语句分成两类,即观点句和非观点句。根据贴吧的语言特征,标注过程中,对可能反映观点倾向的网络用语或者符号如“??”“!!”“”“”等,需加以考虑。从观点句集合中抽取主观特征(能反映贴吧观点的词)作为候选领域观点词库1。
2)采用文献[3]的方法,将知网HowNet的情感词典中正面情感词、负面情感词、正面评价词、负面评价词合并去重,得到候选领域观点词库2。
3)将上述两步得到的候选领域观点词库1和候选领域观点词库2合并去重,最终得到贴吧的领域观点词库。
4.3 设定阈值
5 实例及结果
本文从某贴吧选取了一个主题为“非机动车撞上违停机动车该不该赔偿”的部分回帖,对每个回帖的句子进行编码,用id表示,首两位数字表示回帖的编号,末两位数字表示该回贴中句子的编号。经过文本预处理,将所有句子保存在一个文本文件中,同时构建出训练样本集和领域观点词库。为便于说明原理,现从回帖中抽取6句已经标注的帖子作为训练样本集,选择1句作为测试集。分词后的结果如表1所示。
5 结论
本文给出了基于三支决策的中文贴吧观点句识别的基本原理和步骤,分析了具体的计算过程。通过简例表明,这一方法可以有效避免人为判断的主观性,如果在测试集数量足够大的情况下,基于三至决策的识别方法能够更好地提高识别的准确性。分类过程中,阈值的选取是关键,是值得深入研究的一个方面。
参考文献:
[1] 杜丽萍,李晓戈,于根,等.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报:自然科学版,2016,52(1):35-40.
[2] 葛斌,李芳芳,郭絲路,等.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333.
[3] 朱艳辉,田海龙,刘璟,等.基于三支决策的新闻情感关键句识别方法[J].山西大学学报:自然科学版,2015,38(4):595-600.
[4] 陈刚,刘秉权,吴岩.求三支决策最优阈值的新算法[J].计算机应用,2012,32(8):2212-2215.
[5] 杜丽萍,李晓戈,于根,等.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报:自然科学版,2006,52(1):35-40.
[6] 于洪,王国胤,李天瑞,等. 三支决策:复杂问题求解方法与实践[M].北京:科学出版社,2016: 219-228.
【通联编辑:谢媛媛】
关键词: 三支决策;观点句识别 ;贝叶斯分类;贴吧
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2019)10-0164-03
开放科学(资源服务)标识码(OSID):
1 概述
互联网的快速发展吸引了越来越多的用户,这一趋势随着移动互联网兴起更加明显。针对某一事实或者观点,这些用户可以便捷的表达自己的情绪、态度和立场等,形成了海量的客观或者主观信息。中文贴吧作为个人情感表达的一个重要渠道,使得对同一个话题感兴趣的用户方便地展开交流,其主题内容广泛,可以涵盖社会、生活、教育等方面。作为用户观点表达和思想交流的网络空间,对中文贴吧的观点进行识别已经愈发受到重视。
中文贴吧观点句识别是数据挖掘的子领域,其目的在于分析和判断用户对事物的观点倾向。在不同主题贴吧的观点句识别具有很强的实用性。如针对某一热点时事,通过有效识别贴吧中的观点句,可以实现对舆情的及时监测和有效引导,从而化解舆论危机,这对维护社会稳定促进事态向有益方向发展具有极其重要的现实意义。
2 三支决策基本思想
三支决策(Three-way Decision)是一种符合人类认知的决策模式。在实际决策过程中,对于掌握足够信息的事物,立即做出接受或者拒绝的判断;而对于哪些信息掌握不充分、认知不够彻底的事物,则往往会推迟判断。
3 中文贴吧的语言特征
与微博相比,微博发言具有严格的字数限制,体现观点的语句表达较为集中,而贴吧发言语句较长,字词较多,表达作者情感或观点的句子较为稀疏分散。与新闻或者评论相比,新闻或评论的撰写发表须符合特定的格式,文体较为集中统一,主旨明确,往往首尾句在很大程度上即表明了作者的态度和观点,而贴吧的发言具有较大的随意性,语言风格因人而异,反映帖子情感或观点的语句甚至是隐藏起来的,即使是同一个词语,在不同的语境或上下文环境下其情感倾向完全不同甚至是相反的,如“呵呵”,既可以表示赞同也可以表示戏谑。这一语言特点在新兴网络用语日益普遍的情况下尤为明显。
因此,针对不同主题环境的贴吧,对观点句的识别需结合其自身的语言特征,考虑到不同的领域观点词所表现出的不同的语义。
4 基于三支决策的中文贴吧观点句识别
4.1 设计三支决策分类器
常见的机器学习算法(常规分类器)有朴素贝叶斯算法、最近邻算法、支持向量机等,将三支决策与机器学习算法结合,形成了基于三支决策的相应算法分类器。由于朴素贝叶斯分类器具有稳定的分类效率、易于处理多分类任务、可分批进行增量训练等优点,本文采用经拉普拉斯校准的朴素贝叶斯分类器。其基本思想是利用先验概率和类条件概率估计帖子中句子x属于观点句集合C的概率,公式如下:
4.2 构建贴吧领域观点词库
判断贴吧中的语句是否属于观点句,实际上是一个二分类问题,由两步组成:即训练和预测。因此需要有一个训练数据集。本文采用基于词典和统计分析相结合的方法构建贴吧领域观点词库。基本步骤如下:
1)对某一主题的贴吧,采用人工标注的方式,将其中的语句分成两类,即观点句和非观点句。根据贴吧的语言特征,标注过程中,对可能反映观点倾向的网络用语或者符号如“??”“!!”“”“”等,需加以考虑。从观点句集合中抽取主观特征(能反映贴吧观点的词)作为候选领域观点词库1。
2)采用文献[3]的方法,将知网HowNet的情感词典中正面情感词、负面情感词、正面评价词、负面评价词合并去重,得到候选领域观点词库2。
3)将上述两步得到的候选领域观点词库1和候选领域观点词库2合并去重,最终得到贴吧的领域观点词库。
4.3 设定阈值
5 实例及结果
本文从某贴吧选取了一个主题为“非机动车撞上违停机动车该不该赔偿”的部分回帖,对每个回帖的句子进行编码,用id表示,首两位数字表示回帖的编号,末两位数字表示该回贴中句子的编号。经过文本预处理,将所有句子保存在一个文本文件中,同时构建出训练样本集和领域观点词库。为便于说明原理,现从回帖中抽取6句已经标注的帖子作为训练样本集,选择1句作为测试集。分词后的结果如表1所示。
5 结论
本文给出了基于三支决策的中文贴吧观点句识别的基本原理和步骤,分析了具体的计算过程。通过简例表明,这一方法可以有效避免人为判断的主观性,如果在测试集数量足够大的情况下,基于三至决策的识别方法能够更好地提高识别的准确性。分类过程中,阈值的选取是关键,是值得深入研究的一个方面。
参考文献:
[1] 杜丽萍,李晓戈,于根,等.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报:自然科学版,2016,52(1):35-40.
[2] 葛斌,李芳芳,郭絲路,等.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333.
[3] 朱艳辉,田海龙,刘璟,等.基于三支决策的新闻情感关键句识别方法[J].山西大学学报:自然科学版,2015,38(4):595-600.
[4] 陈刚,刘秉权,吴岩.求三支决策最优阈值的新算法[J].计算机应用,2012,32(8):2212-2215.
[5] 杜丽萍,李晓戈,于根,等.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报:自然科学版,2006,52(1):35-40.
[6] 于洪,王国胤,李天瑞,等. 三支决策:复杂问题求解方法与实践[M].北京:科学出版社,2016: 219-228.
【通联编辑:谢媛媛】