网络暴力语言检测系统的实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:c948221078
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴着21世纪互联网和计算机的快速发展,人们相互沟通交流,表达观点也越来越方便。网络给我们带来了难以估量的信息,也大大拓展了我们的言论空间。在新闻评论、微博留言、视频弹幕、游戏交流中,我们都可以看到大量各种各样的言论。由于网络的开放性、虚拟性和隐蔽性,我们经常可以看到大量的网络暴力语言,这些网络暴力语言给他人的精神和心理带来了严重的侵犯和损害。然而网络的大部分平台并没有做到非常有效的管理,他们采用的策略基本都是屏蔽掉少量常见的网络暴力词汇,而网络暴力语言仍然比比皆是。所以寻找一种新的网络暴力语言检测方法显得非常必要。本文实验目的为:建立一个可以成功检测出网络暴力语言并且能够准确定位导致网络暴力语言的词汇或者短语位置的系统。针对网络暴力语言的特点和表现形式,在情感分析的研究基础上,提出了基于词典和规则的网络暴力语言检测方法。网络暴力语言会以网络暴力词汇或者特定句法结构短语出现,所以建立网络暴力词汇词典和提取特定的句法结构短语规则是研究的重点。本文首先通过HMM模型和内容熵的方法构建了分词词典,然后通过人工构建少量的暴力词汇种子词,计算词向量相似性并结合基于语料统计方法找到和暴力词汇意思相近的暴力词汇,进而建立暴力词汇词典;同时以x~2统计为基础,结合词频、词性、词位置信息提出了一种句法结构短语规则提取方法x~2-FPN,通过实验验证了x~2-FPN算法相比x~2统计方法有很大的优越性,同时实验结果表明了暴力词汇词典和规则相结合方法的有效性。为了减少提取的规则中可能会出现的误检测现象,提出了将规则和语言模型相结合的方法,通过语言模型对规则加入了一个概率约束,对规则进行优化,实验结果表明了将规则和语言模型结合的优越性。建立最终的网络暴力语言检测系统准确率、召回率、F值都达到90%以上,满足了实验预期,在网络暴力语言检测系统建立完成后,利用该系统收集和创建了一个网络暴力语言语料库。
其他文献
随着信息技术和通信技术的飞速发展以及网络技术的逐渐普及,信息安全成为当今社会的热门话题,身份识别技术也越来越为人们所重视。在传统的身份识别方法已经无法保证人们对信
软件无线电作为一种新兴的通信体系结构,因其标准化模块化的结构,具有很强的灵活性和开放性,而受到广泛关注并日渐普及。但经过宽带软件无线电接收前端的小信号通常会被大信
随着网络与信息技术的发展,信息量急剧扩增,给人们的工作和生活带来了极大方便。人们在享受日益丰富的信息的同时,也被其所淹没,想要搜索自己感兴趣的信息或者管理这些信息都
随着互联网的发展和层出不穷的各种应用,互联网产生着大量的数据,如何有效存储和处理这些大规模数据成为了一个亟待解决的问题。为了解决相关问题,运行大规模分布式计算的数
随着人机交互技术的不断发展,动态手势识别以自然便捷的交互体验,逐渐获得了用户的认可,在虚拟现实、增强现实等新型多媒体技术应用中展现出广阔的前景。基于视觉的动态手势识别
近年来,目标特征提取以及相应的具有不变性的相似度测量算法已经成为机器视觉领域的研究热点。对于目标识别和相似性检索,目标物体的形状特征是非常重要的信息,因为形状特征
智能电网是电网的发展趋势,智能电网的实现需要先进通信系统的支持。智能电网环境下广域网是实现智能电网各个领域之间通信的网络,它承载的通信业务种类很多,包括SCADA业务、语音控制业务、广域测量业务等,各种通信业务对通信的需求(带宽、实时性、安全性)不同。本文分析了广域网的通信业务,得到在智能电网环境下的广域网的通信业务的通信需求。广域网通信系统的构建需要先进通信技术的支持,目前广域网主要的通信技术包
3GPP长期演进(LTE)项目是近两年来3GPP启动的最大的新技术研发项目,这种以OFDM/FDMA为核心的技术可以被看作“准4G”技术。TD-LTE完全符合3GPP对于LTE的定义,可以实现更低的延
正交频分复用(Orthogonal Frequency Division Multiplexing, OFDM)是一种特殊的多载波传输技术,它具有频谱利用率高、抗衰落能力强、抗码间干扰能力强和适合高速数据传输等优
长期演进(Long Term Evolution)是3GPP组织为了在未来的十年提供高速率、低时延、高频谱效率而设立的项目。LTE-Advanced是LTE的平滑演进,是3GPp组织向国际电信联盟(Internationa