论文部分内容阅读
随着新疆维吾尔自治区社会经济文化的不断发展,互联网中的维吾尔语网页信息量呈指数增长的趋势,但是与此同时,各种不良信息也同样开始大量充斥其中。因此研究和开发科学的、高效率的维吾尔语网页监控系统,及时了解和掌握互联网上维吾尔语信息情况,不仅可以为少数民族网民查询互联网信息提供有效的工具,更重要的是可以为技术侦查部门了解和掌握不良信息在互联网的动态提供更好的服务。
针对维吾尔语网页源代码编码不规范现象较多这一特点,首先对维吾尔语网页源代码进行预处理,使其编码规范化。本文设计并实现了一种基于正则规则的维吾尔语网页源代码编码转换算法,将维吾尔语网页源代码统一转换为Unicode编码的格式。
随后本文设计并实现了一种基于正文相关度的正文提取算法。该算法首先利用DOM树结构的方法解析出网页的基本结构,然后计算每个节点的正文相关度,再根据一个阈值对每个节点进行初步过滤。并且针对维吾尔语论坛型网页较多的特点进行数据平滑,提出了节点间正文比例这一概念,利用它和上下文正文密度对每个节点是否为正文节点再次判断,提高了正文提取的效果。在对1200余个维吾尔网页的正文提取实验中,该算法取得了理想的正确率和返回率。
正文中含有大量不良词汇,也就是敏感词,是不良网页的重要特征之一,网页监测系统需要快速有效地监测出其是否含有敏感词和含有哪些敏感词。根据监测到的敏感词情况,再结合下一步的文本分类技术,就可以判定一个网页是否为不良网页。但是维吾尔语网页是个海量数据库,敏感词过滤的速度严重影响着整个维吾尔语不良网页监测系统监测的速度。以著名的网络入侵预防软件与网络入侵检测软件Snort为例,据统计,敏感词匹配占系统整个运行时间的70%和运行指令的80%以上[1]。本文设计实现了一种改进的基于位图的Aho-Corasick算法,在对维吾尔语网页进行敏感词过滤实验中,取得了理想的过滤速度和内存占用率。