基于信息搜集与内容分析的互联网不良信息监测技术研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:qixiannu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet以其前所未有的信息传播能力在给人们生活带来巨大便利的同时,也成为反动、色情、暴力等不良信息的载体。这些不良信息,尤其是有关国家安全的敏感信息借助于Internet传播,成为一个危害极大的社会问题。从海量信息中迅速有效地识别这类不良信息,进而阻止其非法传播,确保网上信息内容安全,已成为内容安全领域的重要研究课题。目前相关的研究大多集中在网关或用户端的信息过滤与自动屏蔽上,而国家安全部门对嫌疑站点进行主动核查,大多采用手工的形式,效率低下。为解决此类问题,本文以信息搜集与内容分析为基本思路,围绕不良信息的自动发现以及处理展开研究工作,深入研究了互联网结构体系、自然语言处理、人工智能与机器学习等相关原理与技术,具体工作涉及网页采集、关键词形式特征分析、文本特征提取、文本分类等方面。文章首先从Web结构入手,研究了基于内容的链接权重计算方法,提出基于内容评价的爬虫搜索策略;结合不良信息的固有特征,分析了不良信息形式化特点,同时针对不良信息隐蔽、多变的特点,研究了基于重复串的特征提取方法;基于贝叶斯理论,提出了实时文本分类器的设计方案,并提出文档特征反馈机制以提高分类性能。最后结合现实网络环境,提出一种Internet不良信息监测平台的实现框架。在Internet应用飞速发展的今天,本文研究工作对于提高相关部门工作效率、净化网络环境、促进构建和谐社会具有一定的积极意义,成为网络环境下内容安全领域的一次有益探索。同时,相关研究成果促进了网络、自然语言处理、人工智能等技术在信息安全领域的协同应用。
其他文献
交通客流量预测作为智能交通系统的一个重要研究方向,能够有效的为城市道路建设,智能交通疏导等领域提供行之有效保障措施。通过对大量过往交通客流量数据的分析,同时结合神
随着科技的迅速发展,人们对数字信号处理的要求也越来越高,传统的奈奎斯特采样定理在很大程度上限制了信息的处理能力。而压缩感知理论打破了传统的采样限制,实现了采样方式
近年来,数字图像已经成为人们获取信息的主要手段,如何保护图像信息的安全已经成为各界广为关注的问题。由于混沌系统产生的混沌信号具有类似噪声、结构复杂、难以分析以及对
时间序列是数据挖掘中一种重要的数据类型,在现实世界许多领域中广泛存在,如股票价格,商品销售数据,气象数据等。且随着时间推移,这类数据的存储规模呈现爆炸式地增长。如何
近年来,基于物理的流体动画成为计算机图形学的研究热点,如对日常生活中暴雨拍打海面溅起水花的场景、烟雾在海上缓缓升起的现象等的模拟;而在电影特效制作、军事演习及计算
目前,空间物流信息系统集成方案主要采用RPC、DCOM、CORBA和JAVA等技术来实现。但是这些组件技术存在部署复杂、紧耦合、不适合分布式异构网络、不能实现基于Internet上的GIS
本文介绍了国内外嵌入式系统的发展、FPGA的概念以及ITU656信号的基础知识,并详细叙述了利用QuartusⅡ软件设计平台和VHDL硬件描述语言设计的ITU656信号源。   论文详细介
学位
随着P2P网络的不断发展,用户对P2P网络中资源的有效性、即时性及传输效率都有了更高的要求。在P2P网络中,数据复制是提高分布式系统中资源可用性、可靠性、传输效率的一项关
作为新一代典型的分布式计算技术,对等计算能够充分利用网络边缘分散的闲置资源如节点的计算力资源、存储资源、数据资源等,促进资源共享、合作计算和信息的交互。随着网络带宽
传统的计划管理系统中存在用人多、速度慢、工作量大、差错率高、可信度低等缺陷。本文以某供电分公司为实例,针对以上计划管理系统的缺陷,研究开发了综合计划管理与决策支持系统,在系统实现过程中对J2EE体系架构及决策支持等技术作了深入研究,保证系统的高效运行,注重实用性,简化工作流程,降低工作量,提高工作效率。通过建立数据中心的模式消除了公司内部“信息孤岛”,实现了企业内部数据的统一管理和应用。同时渗入决