网页内容过滤的关键技术研究及实现

被引量 : 0次 | 上传用户:YING1216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网给我们带来信息爆炸、快速经济的同时,也带来了很多不利于经济发展和人民生活的不良信息,对WEB信息的过滤成为一个热门的研究课题。当前的网页过滤系统主要采用URL过滤和关键字过滤的技术,而这些技术在网页过滤的准确性和速度方面都存在不足。要提高网页过滤的准确性和速度,必须对网页内容进行智能分析。本文在对当前网页过滤技术进行综述的基础上,提出了一种对基于人工神经网络的智能分析网页内容和高效过滤网页的技术,并用软件实现了对色情网页的过滤。 网页是一种结构化的文档,DOM是一个针对HTML和XML文档进行灵活操作的编程接口。在对网页结构进行详细分析后,本文提出了按照结构对网页进行解析,利用DOM技术提取网页文档的不同元素中的文本内容的方法。 把文档以向量的形式定义到实数域中,能够使用模式识别和其它领域中各种成熟的计算方法,极大地提高自然语言文档的可计算性和可操作性。本文论述了几种经典的信息过滤模型,并对其优缺点进行了剖析,根据系统的特点选择向量空间模型作为网页文档的表征形式。 自动分词技术是中文文档向量化的关键,本文阐述了当前的中文分词技术、中文分词中的难题以及当前的中文分词所取得的成果,根据色情网页的特点建立了专用词典,与引入的分词模块相结合,大大提高了中文分词的准确率。 网页过滤的实质是根据内容对网页进行分类。本文比较了文本分类的常用方法,将文本分类的方法应用到网页过滤中。人工神经网络的分布-并行原理使其能用一般速度的处理单元完成极高速的运算,其学习能力和非线性可使之完成过去传统方法无法完成的若干任务。特别是将大量数据根据某种属性分为较少的类,或利用大量数据进行具有较少数可能结果的决策时,神经网络具有无可比拟的优势。本文将自组织特征映射神经网络应用于网页的分类。 最后,作者对实现的系统和当前已经存在的系统的效果进行了比较,并得出结论:本文提出的方法具有快速、准确、高效等特点。
其他文献
在社会主义市场经济条件下,地方政府承担着提供地方公共产品的重要职责。为此,地方政府需要筹集一定规模的收入,以维持政府的职能,满足地方政府的支出需要,并促进当地的发展
保鲜袋巧用于护理中能减轻护士和病人的不少烦恼,现将我们在临床中的应用介绍如下。
在当今世界经济中,服务贸易在一国经济结构中的比重,一定程度上反映出该国的国际竞争力和国际化水平。大多数国家都把发展服务贸易作为实现本国经济现代化的重要途径。 对
水是生命之源,是孕育人类文明的摇篮。水资源更是21世纪国家和城市发展的关键。湖泊作为重要的城市水体形态和财富资源,应得到应有的保护和利用。但是随着工业文明的发展,物
随着计算机技术和因特网技术的飞速发展,数字作品的传播达到了前所未有的深度和广度,其版权保护也正成为一个迫切需要解决的问题。数字水印是近十年来出现的一种有效的数字产
中部地区地处祖国内陆腹地,起着承东启西、接南进北、吸引四面、辐射八方的作用,在全国地域分工中扮演着十分重要的角色。但经过二十多年的改革开放,东部沿海地区借助改革开
采用射频磁控溅射(共溅射)技术制备纳米TiO2薄膜、SiO2-TiO2复合薄膜以及金属掺杂的M-TiO2薄膜,并研究其光催化性和光致亲水性。主要工作包括: 1) 采用射频磁控溅射技术室温
本试验以新疆羊肉的羊前腿或后腿瘦肉为原料,经过加工研制出香味浓郁、风味独特、营养丰富的特色麻辣羊肉肉松。
詹姆斯·乔伊斯的《一个青年艺术家的画像》于1914年面世后,在西方文坛引起了不小的反响,被认为是现代西方文学中别树一帜的实验小说。这篇小说的一个成功之处在于运用矛盾象
两宋是杜学研究史上最辉煌的篇章之一。杜甫这位生前穷愁潦倒、漂泊行吟的诗人,在后世逐步被推上“千古第一诗人”的宝座,有宋三百年的陶铸是最为关键的一段时期。在宋代,杜