维吾尔语网页正文提取与敏感词过滤的研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:tangmanzhuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新疆维吾尔自治区社会经济文化的不断发展,互联网中的维吾尔语网页信息量呈指数增长的趋势,但是与此同时,各种不良信息也同样开始大量充斥其中。因此研究和开发科学的、高效率的维吾尔语网页监控系统,及时了解和掌握互联网上维吾尔语信息情况,不仅可以为少数民族网民查询互联网信息提供有效的工具,更重要的是可以为技术侦查部门了解和掌握不良信息在互联网的动态提供更好的服务。   针对维吾尔语网页源代码编码不规范现象较多这一特点,首先对维吾尔语网页源代码进行预处理,使其编码规范化。本文设计并实现了一种基于正则规则的维吾尔语网页源代码编码转换算法,将维吾尔语网页源代码统一转换为Unicode编码的格式。   随后本文设计并实现了一种基于正文相关度的正文提取算法。该算法首先利用DOM树结构的方法解析出网页的基本结构,然后计算每个节点的正文相关度,再根据一个阈值对每个节点进行初步过滤。并且针对维吾尔语论坛型网页较多的特点进行数据平滑,提出了节点间正文比例这一概念,利用它和上下文正文密度对每个节点是否为正文节点再次判断,提高了正文提取的效果。在对1200余个维吾尔网页的正文提取实验中,该算法取得了理想的正确率和返回率。   正文中含有大量不良词汇,也就是敏感词,是不良网页的重要特征之一,网页监测系统需要快速有效地监测出其是否含有敏感词和含有哪些敏感词。根据监测到的敏感词情况,再结合下一步的文本分类技术,就可以判定一个网页是否为不良网页。但是维吾尔语网页是个海量数据库,敏感词过滤的速度严重影响着整个维吾尔语不良网页监测系统监测的速度。以著名的网络入侵预防软件与网络入侵检测软件Snort为例,据统计,敏感词匹配占系统整个运行时间的70%和运行指令的80%以上[1]。本文设计实现了一种改进的基于位图的Aho-Corasick算法,在对维吾尔语网页进行敏感词过滤实验中,取得了理想的过滤速度和内存占用率。
其他文献
随着对区域化探异常识别研究的深入,研究者提出了许多有效的区域化探异常识别方法。近些年来,随着该领域相关计算机技术的进一步深入研究,新的数据挖掘分类方法逐渐被引入到区域
可视化技术日趋成熟,已在虚拟现实和三维交互设计等许多重要应用中体现出来,特别是实时仿真的应用领域。虚拟现实是可视化技术应用的一个重要体现,在网络技术的发展推动下产
随着传感技术、互联网、通信技术的高速发展,物联网的概念被提出来并且逐渐深入到人类的日常生活中。物联网的使用遍及各行各业,特别是在物流管理中已经得到很成熟的使用。之外
半导体分选机是集成电路半导体元器件在基板封装后切割成单个芯片,并对其进行剥离及外观分选的自动化设备。目前,国内尚无生产半导体分选设备的厂家,而且从国外引进价格昂贵、维
片上多核处理器以其效能高、设计周期短等优势成为高性能处理器设计的主流架构。相变存储器以其集成度高、漏电功耗低等优势受到多核处理器系统结构设计和研究的广泛关注。另
并行应用对计算能力的需求永无止境,推动着超级计算机在不断提高单个计算单元性能的同时不断增大系统规模。系统规模的急剧增长,造成消息通信带来的开销日益增加。以全局归约
高光谱遥感是目前遥感技术的前沿,其纳米级的光谱分辨率能够提供更加丰富的地物信息。随着高光谱遥感的在各个领域的深入研究,其广泛的应用价值备受到国内外的关注。   高光
访问控制技术是信息系统安全的重要保障,在SOA架构及云服务日渐成为主流的今天,目前基于角色的访问控制技术难以适应跨域的访问控制要求。XACML标准中提出了基于属性的基本访问
数控伺服进给系统的性能不仅直接影响着机床加工精度,也间接关乎数控加工能力能否充分发挥。传统数控伺服系统的调整常常是对单轴进行的,如响应速度、超调等方面的优化,但在
高光谱遥感是20世纪80年代兴起的新型对地观测技术。与传统遥感技术相比,高光谱遥感能够探测到更多的物质,其最大的特点是能同时获得观测区域的图像信息和光谱信息,是当前遥感领