面向不良文本信息过滤的概念网技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:qzx1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着信息技术与信息产业的迅速发展,特别是国际互联网的迅速发展,互联网上的应用日趋增多。随着网络黑客与计算机犯罪活动的猖獗,人们对于网络与系统安全展开了大量研究,但对于网上媒体信息内容的安全问题,只是在近年来才逐渐得以重视。同时巨大的开放信息源也使一些恶意的和不良(反动、恐怖、色情等等)的内容信息趁机而入,成为用户获取有效信息的严重障碍。为保护国家安全、稳定,同时保护网络用户远离有害信息的侵扰,以及控制对这些信息的访问,有必要采取有力措施对这类信息进行监控,同时也有必要为运行Web服务的各种组织,提供对此类信息的访问加以监控的技术和服务。为此开发先进的文本信息安全监控技术是一项紧急而又重要的课题。 因此,针对这一问题,本文结合自然语言理解、中文信息处理、粗糙集理论等学科的相关知识,通过分析各类不良信息的特征,结合本实验室文本信息处理目前研究进展,研究了适合不良文本信息过滤的概念网分析模型、过滤算法等。 本文首先介绍了互联网发展过程中所面临的安全问题,分析了文本信息过滤的概念及意义,以及针对不良文本信息,国内外对其进行过滤监控的研究现状,并在针对现有过滤监控技术的缺点的基础上,提出了将概念网技术用于信息监控的必要性和可行性,为给出本文课题的背景与目标提供了依据。在接下来的章节中,本文在提出信息内容过滤监控必要性的基础上,主要介绍了现有的文本信息过滤监控方法,并且分析了这些现有方法的性能,针对这些方法的缺点,提出了基于概念网的文本过滤监控方法。然后引入介绍文本的概念表示形式及与语义分析相关知识,在介绍了与概念网相关的基础知识后,通过分析现有的两个典型的概念网的构造方式,为后面概念网的构造提供了参考。 围绕概念网的构建问题,本文接下来主要介绍了常用的文本处理技术,包括对中文文本的分词等预处理技术及中文文本的表示和特征提取方法,权重计算方法等,并在此基础上,通过分析不同的文本处理技术的实现方法,选取了在实现上比较有优越性的处理方法作为文本概念表示方法的前期处理方式,并且提出了在本文中具体的概念抽取方法的实现。在已有的文本概念表示技术的基础上,提出了一种多关系模糊值动态约束性概念网络模型,并详细的介绍了该概念网络模型的构建,最后分析了这种新的概念网的特点。 在已构建好的概念网模型的基础上,本文通过研究目前通用的文本过滤分析技术:基于规则的文本过滤分析方法,和基于统计的文本过滤方法。并指出了这些方法的性能。随后,根据前面章节概念网的模型提出了基于多关系模糊值动态约束性概念网络的不良文本过滤监控方法,从而对截获的文本利用概念表示来进行分类判决。最后,本文提出了一种实现概念网对文本过滤监控的方法,并且通过实验来验证了这一方法的可行性。实验结果表明,经过概念网的分析,基本上保留了文本原有的语义关系,在训练样本集和测试样本集上都得到了比较满意的过滤效果。
其他文献
随着通信技术日益成熟,直接序列扩频通信系统以其特有的优势,显示了极强的生命力。而PN码同步与PN码捕获是直接序列扩频通信中的关键技术,因此对其进行细致的讨论是十分必要
随着移动互联网的迅速发展,移动应用开发成为当前十分热门的一个产业,与之相关的自动化测试技术成为当前研究的热点。由于软件测试有着重复性强、程式化高的特点,为软件测试
本文首先分析了逆合成孔径雷达成像的几何模型,在此基础上讨论了其成像的基本原理。并指出运动补偿是逆合成孔径雷达成像的关键技术。此外,主要分析了距离多普勒成像算法和极坐
随着多媒体技术与计算机网络的快速发展,多媒体图像信息同样以惊人速度增长。为了从海量图像库中快速、准确地获取用户所需图像信息,高效的图像检索技术成为人们研究的热点。
随着中国3G牌照发放的日益临近,3G的技术也日臻完善。3G网络的QoS已经成为一项重要的性能指标,也是系统能否成熟商用的关键问题之一。无线资源管理算法作为保证3G系统QoS的重
射频识别(Radio Frequency Identification,RFID)是一种通过射频信号来识别、跟踪目标和进行无线通信的新兴技术[1]。射频识别相比其它技术,具有无需接触、识别速度快、安全
伪随机码同步是任何扩频通信系统中最为重要的部分,因此成为研究的热点,对短PN码捕获算法的研究已有较长时间,也取得了不少成熟的理论和实践成果。当前对伪随机码同步的研究主要
在计算机视觉领域,从自然场景中检测并分割出显著物体是一个活跃的课题,也产生了很多有意义的应用。当前大多数的显著物体检测方法利用颜色信息以及多种先验信息来获得较好的
首先围绕手持移动设备的应用实际,阐述了视频图像分割的研究意义和方法,然后深入比较分析了现有的理论和算法,提出改进意见。最后基于Intel Xscale嵌入式处理器,实现了OpenGL
合成孔径雷达是的二维成像(距离和方位)雷达,其方位分辨率决定于合成孔径长短,而距离分辨率则借助于宽带信号的脉压技术。由于距离分辨率与信号的带宽成反比,要想获得距离向