论文部分内容阅读
互联网发展迅猛,网络的便捷性使得网络语言以前所未有的速度发展和更新,信息爆炸时代早已来临,网络文本作为信息传播的主要载体也得到了前所未有的发展,网络语言日新月异,但同时网络语言低俗化日益严重,由于监管技术的不成熟使得网络语言的监管难以面面俱到,给低俗网络语言的监控也造成了极大的挑战。随着大数据时代的来临,人工智能方面的思想与技术均日渐成熟,其中尤为突出的代表就是一鸣惊人的AlphaGo与人类顶尖围棋选手李世(?)的围棋大战。但究其本质,AlphaGo与李世(?)的“世纪之战”成功的原因并不全是技术的飞跃,而是思想的转变。AlphaGo的成功取决于它的两个大脑:“落子选择器”与“棋局评估器”,即策略网络(PolicyNetwork)与估值网络(ValueNetwork)。本文受AlphaGo设计思想的启发,将策略网络与估值网络的思想衍生到网络舆情监控领域,设计针对这一研究领域的“落子选择器”进行文本分类,以及“棋局评估器”用于不良词汇发现。基于这一研究主题,本文的主要工作有一下几点:(1)研究AlphaGo的设计思想以及相关技术,重点学习AlphaGo的决策网络与估值网络的思想与具体实现,将两种思想迁移发散至舆情监控领域中的不良词汇发现。(2)基于决策思想的启发设计适用于低俗网络语言的“落子选择器”进行文本分类:对比朴素贝叶斯文本分类器与支持向量机(SVM)文本分类器在新闻评论短文本的分类效果,改进SVM算法,利用步长窗口设定获取合适的惩罚因子与核函数参数,获得更高效的决策函数;组合朴素贝叶斯分类算法获取文本概率进行文本分类,从而得到针对文本分类的“策略网络”模型。测试算法改进的有效性,以及组合后模型的分类效率。(3)基于估值网络思想的启发设计适用于低俗网络语言的“棋局评估器”进行不良词汇的发现:基于词向量对词语之间的语义相似度进行计算,定义词语相似度阈值esim,以及SO-PMI阈值esp,通过对比不同阈值下的准确率、召回率以及F值得实验数据对比,同时对比问卷调研的结果测试模型判断结果与自然语义场景的贴合度,确定合适的阈值,组合形成针对于不良词汇发现的“估值网络”。