论文部分内容阅读
随着计算机和通讯技术的发展和进步,人类社会进入了信息社会。互联网已经在人们的日常信息交流中占据这越来越重要的地位,但是,Web网页中也包含有不少不健康的内容,其中不乏反动、暴力、封建迷信等内容的不良信息,使得人们不胜其烦,迫切地期望在浏览各种网页的时候,能够有效的避免垃圾信息的干扰,因而对对网络内容的监控和过滤逐渐成为研究热点。本文研究了面向Web页面中特定主题的过滤问题,分析了面向特定主题进行内容过滤的特点以及Web页面的内容特征,并基于分类的潜在语义模型(CLSI),设计了基于CLSI的Web内容过滤器,主要工作如下:1)本文研究了主题信息中特征词的特点后,在对页面的预处理中,采用只对词性标注后的名词,动词,形容词进行处理,取代了传统的去除停用词的步骤,并且在系统的训练过程后将提取的特征词保存在特征词表中,作为本主题的主题词典,在以后的过滤过程中,可以对页面内容直接根据特征词表进行处理,提高了系统的运行效率和过滤的准确性。2)文章对Web页面标签与文字重要度进行了研究,对一些web标签进行了权重设计,在对页面进行文本的特征项提取和权重计算中,加入对网页中的文字标记格式的处理,使得对web页面的文字处理更有针对性。3)潜在语义模型(LSI)解决了传统的文本过滤模型只针对词语进行浅层统计的局限性,能很好的体现出了整个文档集的语义结构,但由于其并没有对主题信息中的正反文本进行区分学习,因此对特征词的区分度不是很好,本文提出了一种基于分类的潜在语义索引(CLSI)模型,CLSI在降维过程中使用了主题文本中正反文档的类别信息,实验证明该模型对主题过滤中提取的文本特征具有更好的区分能力。最后,在Windows平台下对本过滤系统在过滤效果和性能上分别进行了测试,收到了满意的测试结果。