三支决策在中文贴吧观点句识别中的应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:lovemy521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:信息传播与交互随着互联网的发展变得日益普遍,网络舆论的表达方式也日益多元。中文贴吧作为网络舆论表达的重要通道,已逐渐成为网民反映自身情感需求的一个平台,对其观点进行识别进而判断其情感倾向非常重要。根据三支决策理论对贴吧观点进行识别,采用基于三支决策的贝叶斯分类器,给出了中文贴吧观点句识别方法和主要步骤 ,取得了较好的识别效果。
  关键词: 三支决策;观点句识别 ;贝叶斯分类;贴吧
  中图分类号:TP391 文献标识码:A
  文章编号:1009-3044(2019)10-0164-03
  开放科学(资源服务)标识码(OSID):
  1 概述
  互联网的快速发展吸引了越来越多的用户,这一趋势随着移动互联网兴起更加明显。针对某一事实或者观点,这些用户可以便捷的表达自己的情绪、态度和立场等,形成了海量的客观或者主观信息。中文贴吧作为个人情感表达的一个重要渠道,使得对同一个话题感兴趣的用户方便地展开交流,其主题内容广泛,可以涵盖社会、生活、教育等方面。作为用户观点表达和思想交流的网络空间,对中文贴吧的观点进行识别已经愈发受到重视。
  中文贴吧观点句识别是数据挖掘的子领域,其目的在于分析和判断用户对事物的观点倾向。在不同主题贴吧的观点句识别具有很强的实用性。如针对某一热点时事,通过有效识别贴吧中的观点句,可以实现对舆情的及时监测和有效引导,从而化解舆论危机,这对维护社会稳定促进事态向有益方向发展具有极其重要的现实意义。
  2 三支决策基本思想
  三支决策(Three-way Decision)是一种符合人类认知的决策模式。在实际决策过程中,对于掌握足够信息的事物,立即做出接受或者拒绝的判断;而对于哪些信息掌握不充分、认知不够彻底的事物,则往往会推迟判断。
  3 中文贴吧的语言特征
  与微博相比,微博发言具有严格的字数限制,体现观点的语句表达较为集中,而贴吧发言语句较长,字词较多,表达作者情感或观点的句子较为稀疏分散。与新闻或者评论相比,新闻或评论的撰写发表须符合特定的格式,文体较为集中统一,主旨明确,往往首尾句在很大程度上即表明了作者的态度和观点,而贴吧的发言具有较大的随意性,语言风格因人而异,反映帖子情感或观点的语句甚至是隐藏起来的,即使是同一个词语,在不同的语境或上下文环境下其情感倾向完全不同甚至是相反的,如“呵呵”,既可以表示赞同也可以表示戏谑。这一语言特点在新兴网络用语日益普遍的情况下尤为明显。
  因此,针对不同主题环境的贴吧,对观点句的识别需结合其自身的语言特征,考虑到不同的领域观点词所表现出的不同的语义。
  4 基于三支决策的中文贴吧观点句识别
  4.1 设计三支决策分类器
  常见的机器学习算法(常规分类器)有朴素贝叶斯算法、最近邻算法、支持向量机等,将三支决策与机器学习算法结合,形成了基于三支决策的相应算法分类器。由于朴素贝叶斯分类器具有稳定的分类效率、易于处理多分类任务、可分批进行增量训练等优点,本文采用经拉普拉斯校准的朴素贝叶斯分类器。其基本思想是利用先验概率和类条件概率估计帖子中句子x属于观点句集合C的概率,公式如下:
  4.2 构建贴吧领域观点词库
  判断贴吧中的语句是否属于观点句,实际上是一个二分类问题,由两步组成:即训练和预测。因此需要有一个训练数据集。本文采用基于词典和统计分析相结合的方法构建贴吧领域观点词库。基本步骤如下:
  1)对某一主题的贴吧,采用人工标注的方式,将其中的语句分成两类,即观点句和非观点句。根据贴吧的语言特征,标注过程中,对可能反映观点倾向的网络用语或者符号如“??”“!!”“”“”等,需加以考虑。从观点句集合中抽取主观特征(能反映贴吧观点的词)作为候选领域观点词库1。
  2)采用文献[3]的方法,将知网HowNet的情感词典中正面情感词、负面情感词、正面评价词、负面评价词合并去重,得到候选领域观点词库2。
  3)将上述两步得到的候选领域观点词库1和候选领域观点词库2合并去重,最终得到贴吧的领域观点词库。
  4.3 设定阈值
  5 实例及结果
  本文从某贴吧选取了一个主题为“非机动车撞上违停机动车该不该赔偿”的部分回帖,对每个回帖的句子进行编码,用id表示,首两位数字表示回帖的编号,末两位数字表示该回贴中句子的编号。经过文本预处理,将所有句子保存在一个文本文件中,同时构建出训练样本集和领域观点词库。为便于说明原理,现从回帖中抽取6句已经标注的帖子作为训练样本集,选择1句作为测试集。分词后的结果如表1所示。
  5 结论
  本文给出了基于三支决策的中文贴吧观点句识别的基本原理和步骤,分析了具体的计算过程。通过简例表明,这一方法可以有效避免人为判断的主观性,如果在测试集数量足够大的情况下,基于三至决策的识别方法能够更好地提高识别的准确性。分类过程中,阈值的选取是关键,是值得深入研究的一个方面。
  参考文献:
  [1] 杜丽萍,李晓戈,于根,等.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报:自然科学版,2016,52(1):35-40.
  [2] 葛斌,李芳芳,郭絲路,等.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333.
  [3] 朱艳辉,田海龙,刘璟,等.基于三支决策的新闻情感关键句识别方法[J].山西大学学报:自然科学版,2015,38(4):595-600.
  [4] 陈刚,刘秉权,吴岩.求三支决策最优阈值的新算法[J].计算机应用,2012,32(8):2212-2215.
  [5] 杜丽萍,李晓戈,于根,等.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报:自然科学版,2006,52(1):35-40.
  [6] 于洪,王国胤,李天瑞,等. 三支决策:复杂问题求解方法与实践[M].北京:科学出版社,2016: 219-228.
  【通联编辑:谢媛媛】
其他文献
1试验方法试验于2004年4月在鹿寨县寨沙镇长塘村三安屯廖克翔的果园进行。供试丰水梨树为4a生、坡地种植、树势较好、管理水平较高。套袋时间在第二次生理落果后(4月10日)进行
摘要:随着 Android系统的市场占有率不断提高,各院校设立Android移动开发课程,然而传统的教学模仿模式已无法满足互联网 时代下的教学需求。近年来,泛雅平台的出现以及迅速发展为课程教学提供了新的方式。本文基于该背景,以Android移动开发课程基本内容、目标以及教学现状为基础,对依靠泛雅平台而建立的Android移动开发课程教学模式进行探讨。  关键词:Android移动开发;泛雅平台;翻
<正>目前纸的需求量越来越大,纸的品种及产量不断增加,所使用的生产原料多种多样,加上生产过程中各种工艺条件的变动及生产设备的不完善,常常使纸的质量不能完全达到质量标准
<正>数学是研究客观的数量关系和空间形成的一种科学,运用数学分析的方法在实践中可以少走弯路。本文运用多元线性回归分析法对纸浆、纸张的一些特性予以分析。 所用数据来源
早在上世纪20年代黄龙病就已经在南非存在了,迄今仍然是南非危害最严重的柑橘病害之一。然而自80年代末以来,柑橘产业制定了有效的策略控制了黄龙病的蔓延,使得黄龙病区柑橘的产
罗汉果是我国特有的药用植物和新兴的甜味植物,其全身均可入药.桂林市作为罗汉果的发源地和主产区,栽培历史悠久,产量约占全世界产量的85%,其产品除出口干果外,还加工制成罗
枇杷是雁山区近年水果产业结构调整主要发展的春夏熟水果之一,总面积达28.5hm^2,产量556.4t,平均667m^2。产达到1300kg。1997年开始雁山区从四川省农科院和福建省农科院引进的大果
硫酸盐法制浆需将蒸煮后的纸浆经过洗浆机提取黑液.我厂现有三种洗浆设备:真空洗浆机、压力洗浆机和置换洗装机.由于这三种洗浆机装备水平不同,洗涤效率也各异.为比较这三种