【摘 要】
:
近些年来,随着互联网的飞速发展,各种社交平台应运而生,由于这类平台往往言论自由且难以管控,导致网络上出现了大量的不文明文本信息。它们不仅影响了人们正常健康的交流,更
论文部分内容阅读
近些年来,随着互联网的飞速发展,各种社交平台应运而生,由于这类平台往往言论自由且难以管控,导致网络上出现了大量的不文明文本信息。它们不仅影响了人们正常健康的交流,更不利于营造良好的网络环境和国民素质的提高。为了塑造健康、文明的网络氛围,需要加强对网络上不文明文本的监管工作,而自动识别不文明文本是监管工作的首要任务。目前,对于不文明文本的自动识别主要是通过文本分类方法实现的。本文研究了基于支持向量机模型的百度贴吧不文明帖分类方法,具体内容包括以下两个方面:第一:由于没有合适的百度贴吧数据集,尤其是缺少一定数量的百度贴吧不文明帖子,构建了基于百度贴吧的不文明数据集。本文首先使用网络爬虫技术依据不同的主题爬取了大量百度贴吧的帖子,根据定义相应的规则将对研究毫无意义的帖子进行删除;再通过建立的不文明词表筛选出具有不文明倾向的帖子;最后采用人工标注的方式对具有不文明倾向的文本进行标注,从而构建出基于百度贴吧的不文明帖的数据集。第二:研究百度贴吧不文明帖的文本分类方法,将支持向量机作为分类模型,根据词的卡方统计值进行特征项的选择。在完成百度贴吧不文明帖数据集的构建后,把数据处理成与分类模型相对应的格式并训练分类模型。由于构建的百度贴吧不文明帖的数据集规模较小,本文使用了支持向量机模型,其专门针对文本数量较小的情况,将文本通过计算抽象成向量化的文本数据,提高了分类的精确率,解决了以往需要大量样本数量的问题。LibSVM作为一个简单、易于使用的快速有效的支持向量机模式识别与回归的软件包被应用于本文。对于使用向量空间模型表示分词处理后的文本出现空间维数和计算量增大的问题,使用卡方统计量进行降维处理,首先计算所有词的卡方统计值,再选择卡方统计值最大的N个词作为候选特征向量,最后将所有类别的N个特征向量进行合并得到最终的特征向量。根据最终的特征向量输出所有文本的量化格式并对分类模型进行相应的训练和预测。
其他文献
直升机因具有可在较小空间区域实现起降、可进行空中悬停、机动灵活等优良的飞行性能,无论在军用领域还是在民用领域都发挥着越来越重要的作用。在军用领域,通常利用武装直升机对敌方的军事设施进行打击。在直升机靠近目标时,为了防止过早地暴露自己,飞行员通常采用低空飞行的方式躲避敌方雷达的探测。在低空飞行时,由于低空存在的高压电力线不易被发现,很可能发生撞线的事故。此外,在民用领域,尤其是在抗震救灾等自然灾害中
民事撤诉制度作为民事诉讼法的重要一项制度,其立法的初衷是为充分尊重当事人的处分权,是私法自治原则在民事诉讼中的具体体现。作为法院审结案件的方式之一,撤诉制度设置的
目的发现并考证中国药典2015年版中药材植物基源的中文名及拉丁学名与经典分类著作不同、同基源的相同部位作2种药材分别收载等情况,并提出建议。方法查询历版中国药典,并借
肛肠疾病手术前后疼痛,一直困扰着医生和病人,尤以术后换药为甚,多数病人惧怕换药而影响了治疗.
从杂粮产业链的各个环节出发,剖析杂粮品牌建设中存在问题,探讨品牌建设思路,并从4个环节出发提出了相应的解决对策:延伸价值链长度,提升产品附加值;提升组织链的紧密度,提高
近年来,智能语音技术的发展为家电、医疗、传媒以及教育领域提供了新的发展机遇,各种智能化产品层出不穷,为人们的生活带来了极大的便利。语音评测技术是智能语音技术的重要组成部分,与语音识别、语音合成技术一起,在语音教学、口语评测领域得到了广泛应用,使得各种智能化语言教学系统和口语学习软件在社会上迅速流行起来。在口语评测领域,语音评测技术为考试的评分工作带来极大的便利,如“国家普通话水平智能测试系统”利用
<正> 近3年来,用《傅青主女科》完带汤加味治疗带下病50例,均获良效。加味完带汤组方:太子参10克,焦白术15克,制苍术6克,车前子(包)10克,
传统民居是中国传统文化的重要物质载体,反映了不同时期、不同地域人们对理想居住环境的追求,承载了中国人对自然、对乡村生活等的愿景.在系统梳理中国传统民居历史发展的基
冲洪积扇地势平坦,面积分布广阔,为我国人类活动的主要区域之一。由于受沉积环境影响,冲洪积扇从扇顶到扇缘,水平向及垂向上岩层都具有空间分异性特征。冲洪积扇的沉积特征导
近年来,温室气体比例增高引起的气候变暖问题已引起了国际社会的广泛注意。本研究以中国新疆塔克拉玛干沙漠北缘流动沙漠—古河床过渡带肖塘地区为研究靶区,利用肖塘气象站20