论文部分内容阅读
在信息时代,社交网络应用为人们共享各种新闻信息资源提供了平台。每天有数百万人登陆微博并分享他们的意见。为了使网络语言生活健康、文明、有序地发展,应尽量控制不良语言的使用和传播,对这些不良语言进行监测预警,才能有效把握网络舆情的趋势,进而引导网络语言生活方式朝着和谐、健康的方向发展。目前国内外对于文本识别以及情感分析的研究主要体现在包括基于语义词典的情感计算,基于机器学习的情感分类等方法。但是很少有学者深入系统地研究过微博中不良网络语言的监测问题。因此本文首先构建不良语言词典,并通过半监督学习的转导支持向量机方法(TSVM)探究微博不文明帖的识别方法。第一,基于多源数据的网络不文明语言词典的构建。通过整理各种参考文献,从不同数据来源人工收集整理了网络不良语言词典,并提出基于PMI的不良语言词典的自动扩展方法,有助于准确获取不良语言网络新词。不良语言词典主要包括不文明微博词典词汇、政治敏感词典词汇、不文明字母缩写类词典词汇、不文明字母缩写类词典词汇、不文明数字谐音类词典词汇、不文明复合谐音类类词典词汇等六个方面。从微博文本中提取不文明基本情感词典,将不良微博词汇分为基本情感,程度副词,否定词,网络词汇,表情词以及关系连词等六类,网络词主要依赖于互联网搜索,表情词典主要是新浪微博平台提供的表情符号。第二,基于半监督学习的不文明微博帖自动识别。提出基于半监督学习方法转导SVM构建的不良文本识别模型。针对TSVM容易受到局部最大值问题的困扰,本文引入确定性退火策略以克服TSVM局部极大值问题进一步提高分类精度。本文建立了由1100个文本词汇组成的训练集,10次测试运行情况;在每种情况下随机选择10个文本标签,然后将未标记样本的训练集的大小从100增加到1100、实验结果表明半监督学习的结果优于监督学习,TSVM方法精度与模型概率的相关系数为0.9798。