面向非法文本的安全过滤

来源 :东华大学 | 被引量 : 0次 | 上传用户:mj19830512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和通讯技术的发展和进步,人类社会进入了信息社会。互联网已经在人们的日常信息交流中占据这越来越重要的地位,但是,Web网页中也包含有不少不健康的内容,其中不乏反动、暴力、封建迷信等内容的不良信息,使得人们不胜其烦,迫切地期望在浏览各种网页的时候,能够有效的避免垃圾信息的干扰,因而对对网络内容的监控和过滤逐渐成为研究热点。本文研究了面向Web页面中特定主题的过滤问题,分析了面向特定主题进行内容过滤的特点以及Web页面的内容特征,并基于分类的潜在语义模型(CLSI),设计了基于CLSI的Web内容过滤器,主要工作如下:1)本文研究了主题信息中特征词的特点后,在对页面的预处理中,采用只对词性标注后的名词,动词,形容词进行处理,取代了传统的去除停用词的步骤,并且在系统的训练过程后将提取的特征词保存在特征词表中,作为本主题的主题词典,在以后的过滤过程中,可以对页面内容直接根据特征词表进行处理,提高了系统的运行效率和过滤的准确性。2)文章对Web页面标签与文字重要度进行了研究,对一些web标签进行了权重设计,在对页面进行文本的特征项提取和权重计算中,加入对网页中的文字标记格式的处理,使得对web页面的文字处理更有针对性。3)潜在语义模型(LSI)解决了传统的文本过滤模型只针对词语进行浅层统计的局限性,能很好的体现出了整个文档集的语义结构,但由于其并没有对主题信息中的正反文本进行区分学习,因此对特征词的区分度不是很好,本文提出了一种基于分类的潜在语义索引(CLSI)模型,CLSI在降维过程中使用了主题文本中正反文档的类别信息,实验证明该模型对主题过滤中提取的文本特征具有更好的区分能力。最后,在Windows平台下对本过滤系统在过滤效果和性能上分别进行了测试,收到了满意的测试结果。
其他文献
WCDMA是目前应用最为广泛的第三代移动通信系统,为用户提供不同类型的多种业务。由于多媒体和分组等数据业务对网络的要求更为严格,而Iub接口是实现移动业务QoS保证的瓶颈,所以
基于图像序列的场景重建是近年来兴起的一种新的虚拟现实实现方法,它以计算机视觉和图像处理等学科的理论和方法为基础,试图利用真实的图像来代替传统的几何建模,同时又用图
随着通信、计算机、自动化技术的发展,监控系统也经历了集散系统、现场总线系统两个阶段,并逐渐演变成具有数字化、网络化以及智能化特征的现代化网络监控系统。近年来,集群
无线传感器网络具有移动性、自组织性、以数据为中心等诸多特点,被认为是未来最具有影响,最能改变世界的技术之一。因为嵌入在每个节点中的电池寿命有限,所以减少节点和处理
随着科技的不断发展以及人们对医疗服务需求的不断增加,医院传统的服务模式已经不能适应社会的发展。打破传统的医疗服务模式,提高医院管理效率,改善工作环境,已成为现代化医
学位
作为一种广泛存在的图像模式,纹理自然成为计算机视觉,图像处理方面的重要研究课题。近年来,纹理图像的分类算法一直受到人们的关注,人们提出了各种各样的纹理特征提取和分类
本文的研究内容着重集中在以下两个方面: 第一部分,利用基于图形接口的GPU通用计算,结合计算流体力学中的格子Boltzmann方法实现了对二维方腔流的数值模拟。首先介绍了GPU的
随着计算机科学和芯片制造工艺的飞速发展,数据采集、处理和传输这三大信息技术基础相互促进,推动着数字系统向着大容量、小体积、高速度的方向发展。数据采集凭借其灵活性、适
P2P是人们针对C/S结构提出的一种网络结构,这种网络结构中所有的网络结点是互相对等的,它们既是Client又是Server。P2P通过这些对等体之间的直接交换实现计算资源和服务的共享