基于AlphaGo设计思想的网络不良词汇发现模型研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:cainiao13939867
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网发展迅猛,网络的便捷性使得网络语言以前所未有的速度发展和更新,信息爆炸时代早已来临,网络文本作为信息传播的主要载体也得到了前所未有的发展,网络语言日新月异,但同时网络语言低俗化日益严重,由于监管技术的不成熟使得网络语言的监管难以面面俱到,给低俗网络语言的监控也造成了极大的挑战。随着大数据时代的来临,人工智能方面的思想与技术均日渐成熟,其中尤为突出的代表就是一鸣惊人的AlphaGo与人类顶尖围棋选手李世(?)的围棋大战。但究其本质,AlphaGo与李世(?)的“世纪之战”成功的原因并不全是技术的飞跃,而是思想的转变。AlphaGo的成功取决于它的两个大脑:“落子选择器”与“棋局评估器”,即策略网络(PolicyNetwork)与估值网络(ValueNetwork)。本文受AlphaGo设计思想的启发,将策略网络与估值网络的思想衍生到网络舆情监控领域,设计针对这一研究领域的“落子选择器”进行文本分类,以及“棋局评估器”用于不良词汇发现。基于这一研究主题,本文的主要工作有一下几点:(1)研究AlphaGo的设计思想以及相关技术,重点学习AlphaGo的决策网络与估值网络的思想与具体实现,将两种思想迁移发散至舆情监控领域中的不良词汇发现。(2)基于决策思想的启发设计适用于低俗网络语言的“落子选择器”进行文本分类:对比朴素贝叶斯文本分类器与支持向量机(SVM)文本分类器在新闻评论短文本的分类效果,改进SVM算法,利用步长窗口设定获取合适的惩罚因子与核函数参数,获得更高效的决策函数;组合朴素贝叶斯分类算法获取文本概率进行文本分类,从而得到针对文本分类的“策略网络”模型。测试算法改进的有效性,以及组合后模型的分类效率。(3)基于估值网络思想的启发设计适用于低俗网络语言的“棋局评估器”进行不良词汇的发现:基于词向量对词语之间的语义相似度进行计算,定义词语相似度阈值esim,以及SO-PMI阈值esp,通过对比不同阈值下的准确率、召回率以及F值得实验数据对比,同时对比问卷调研的结果测试模型判断结果与自然语义场景的贴合度,确定合适的阈值,组合形成针对于不良词汇发现的“估值网络”。
其他文献
即使安装有杀毒软件的用户在使用时也会遇到一些疑问。比如有的时候提示某个文件是病毒,但是这个文件正好又是非常急需使用的,这样就会让用户非常为难。其实利用VirusTotal这
对病毒木马进行查杀,只是万里长征第一步,接下来,我们还有太多的康复工作要做。1防止死灰复燃,斩尽一切鬼魅病毒木马被查杀后,许多文件会残留在系统文件和磁盘引导区中,如果
脉红螺是我国重要的经济贝类,主要分布在黄海、渤海与东海,其具有繁殖率高、生长速度快、营养价值高等特点。人们对脉红螺的需求越来越高,它已经成为我国渔业重要的养殖捕捞
随着水运行业的迅速发展,水上交通安全越发受到重视。船舶碰撞事故作为水上交通事故中发生最频繁、造成损失最严重的事故类型之一,其发生往往会造成较为严重的后果。识别船舶
微信收费 绝对不合理不管是电信三巨头直接向腾讯收费,还是变相从消费者那里直接收费,在广大消费者限里,这都是不合理的。调查数据中,高达7成以上的读者认为包括微信在内的即时通
目的:探讨胰腺神经内分泌肿瘤(pancreatic neuroendocrine tumours,pNETs)的临床诊断、外科治疗以及预后因素。方法:回顾性分析我院2006年3月至2015年7月收治的30例pNETs患者
我们于1998年9月至2000年12月将收治的100例脑梗死患者,分别采用葛根素和川芎嗪进行治疗,现将疗效对比观察结果总结如下.
电子邮件因为其方便、快捷、低成本的特点成为了人们生活中和工作中不可或缺的信息传递媒介,也因此导致垃圾邮件泛滥成灾。特别是在高校,这种问题尤其严重。杜绝垃圾邮件的传
【正】 近年来,由于学习、借鉴外国经验,引用了一些新的名词,如物流管理、价值工程、行为科学等等。这些名词大多是开始引用或介绍时按照外文直译过来的,在初见时往往使我们
由同济大学联合体汇总的上海市中心城快速道路交通改善方案的结论,提出了未来外环线内(不包括外环)高架快速路的基本形态为"二环十射"和"十"字高架,总里程210公里(其中包括已