基于半监督学习模型的不文明微博帖识别方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:chris7520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,社交网络应用为人们共享各种新闻信息资源提供了平台。每天有数百万人登陆微博并分享他们的意见。为了使网络语言生活健康、文明、有序地发展,应尽量控制不良语言的使用和传播,对这些不良语言进行监测预警,才能有效把握网络舆情的趋势,进而引导网络语言生活方式朝着和谐、健康的方向发展。目前国内外对于文本识别以及情感分析的研究主要体现在包括基于语义词典的情感计算,基于机器学习的情感分类等方法。但是很少有学者深入系统地研究过微博中不良网络语言的监测问题。因此本文首先构建不良语言词典,并通过半监督学习的转导支持向量机方法(TSVM)探究微博不文明帖的识别方法。第一,基于多源数据的网络不文明语言词典的构建。通过整理各种参考文献,从不同数据来源人工收集整理了网络不良语言词典,并提出基于PMI的不良语言词典的自动扩展方法,有助于准确获取不良语言网络新词。不良语言词典主要包括不文明微博词典词汇、政治敏感词典词汇、不文明字母缩写类词典词汇、不文明字母缩写类词典词汇、不文明数字谐音类词典词汇、不文明复合谐音类类词典词汇等六个方面。从微博文本中提取不文明基本情感词典,将不良微博词汇分为基本情感,程度副词,否定词,网络词汇,表情词以及关系连词等六类,网络词主要依赖于互联网搜索,表情词典主要是新浪微博平台提供的表情符号。第二,基于半监督学习的不文明微博帖自动识别。提出基于半监督学习方法转导SVM构建的不良文本识别模型。针对TSVM容易受到局部最大值问题的困扰,本文引入确定性退火策略以克服TSVM局部极大值问题进一步提高分类精度。本文建立了由1100个文本词汇组成的训练集,10次测试运行情况;在每种情况下随机选择10个文本标签,然后将未标记样本的训练集的大小从100增加到1100、实验结果表明半监督学习的结果优于监督学习,TSVM方法精度与模型概率的相关系数为0.9798。
其他文献
目的分析新生儿窒息的产科原因,寻找预防措施,提高医院产科质量.方法回顾性分析本院发生的149例新生儿窒息病例.结果新生儿窒息的产科原因以脐带因素居首位,其次顺序为宫缩过
煤中伴生微量元素和有机化合物的研究对煤炭资源的综合利用具有重要的意义,不仅可以为成煤沉积过程分析提供数据支撑,还能够为煤中有价元素的提取和有害元素的脱除提供理论依
近年来海洋工程混凝土耐久性问题受到的关注越来越多,相关问题的室内加速模拟试验研究也在广泛的开展当中。对于模拟海洋环境下的室内加速试验来说,不仅要模拟混凝土在氯盐、
安娜,一个光彩夺目的艺术典型——《安娜·卡列尼娜》浅析师墨“幸福的家庭都是相似的;不幸的家庭各有各的不幸”。也许人们并不一定都知道这句话的出处,但即使是第一次听到
随着计算机技术、嵌入式技术和无线通信技术的飞速发展,无线传感器网络被广泛应用于环境监测、辅助医疗、军事国防、目标跟踪以及工农业等领域。与传统网络不同,无线传感器网
目的探讨慢性肾衰和肾病综合征患者血浆脂质水平的变化及其临床意义.方法分别测定 91例慢性肾衰患者和 21例肾病综合征患者血清脂蛋白(a)、载脂蛋白AⅠ、B、高密度脂蛋白胆固
现实主义题材的电影作品实时聚焦社会现实,反映当下的社会问题。纵观近年来我国的影视行业,现实主义题材的影视作品不断出现在大众视野中,并且在业界取得了不少成就。现实主义题材的电影主角大多以现实中的小人物为典型观照对象,影片通过对小人物生活的展示,反映当下社会的热点问题,引发大众深入的关注和思考。小人物形象在现实主义题材的影片中种类繁多,主要类型有欲在城市扎根的“边缘者”、现实和理想发生冲突面对抉择的“