面向特定主题的网页敏感内容提取关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:redbattleline
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为信息学、网络工程学的重要支撑技术,网络爬虫在信息时代的作用日益凸显,它的相关技术发展受到广泛关注。同时,网络爬虫技术也是检索网络敏感信息的主要手段之一,国内外众多的研究者都在研究这一课题。然而随着研究的深入,网络爬虫技术的发展面临着网络中信息形式日趋复杂多样性的挑战。针对这一问题,本文结合主题网络爬虫技术对网络敏感信息检索问题进行研究,主要取得了以下研究成果:1.为了有效实现针对网络中敏感内容的提取,本文在深入研究一般主题网络爬虫模型和网络中敏感信息分布特点的基础上,提出了面向特定主题的网页敏感内容提取技术模型,为针对敏感信息检索的主题网络爬虫技术实现建立了基本框架。2.为了有效利用基于链接分析的主题爬虫技术的计算性能优势以及基于内容分析的主题爬虫技术的检索准确性优势,本文基于现有的爬虫策略,设计实现了基于PageRank策略改进的链接分析技术。3.为了提高主题爬虫技术针对网络敏感信息的检索准确度,实现对网页中敏感信息的检索覆盖面最大化,本文基于DOM树模型提取网页内容技术以及关键词相关性分析技术提出了针对网页敏感内容的综合分析方法。4.本文基于Scrapy开源爬虫框架,设计实现了面向特定主题的网页敏感内容提取技术,并将它应用到具体的敏感信息检索中,进行了相关测试。通过测试分析,验证了本文研究的技术对网页敏感内容检索的有效性。
其他文献
近年来,随着传感器技术、无线网络通信技术等日新月异的飞速发展,多功能化的智能设备充斥在人们的社会生活、学习工作中,以智能手机、平板电脑等为首的移动设备充当了移动计
通用的搜索引擎接到不同用户输入查询词后,按照统一模式处理,搜索引擎返回一样、成百上千、与用户兴趣不相关、重复甚至是过时的信息。个性化技术针对不同的用户采取不同的服务
近年来,随着高等教育事业的推动,高等院校的信息化发展来到了一个前所未有的时代,但是随着高校图书资源的规模的不断扩大,图书管理人员需要花费大量的人力、物力、财力及时整理图
现有的事件机制多采用传统客户机朋艮务器结构,两层结构虽然给人们带来了相当的灵活性,但也逐渐暴露出其客户端和服务器端负担过重的现象,并且其系统拓展性也较差。随着网络
随着互联网的发展,人们在习惯于通过互联网来获取信息的同时,也发现由于互联网中信息量的庞大及其无组织性,如何高效地取得有用的信息成为了一个亟待解决的问题。搜索引擎的
在现实世界的一些生产加工企业中,存在一类由生产加工站作为加工主体的生产线,其中,加工站由传送带输送工件进行加工,这样的一类系统称为传送带给料生产加工站(Conveyor-serviced
随着网络的发展,电子文档大量涌现,Web文档自动分类以迅速、快捷、客观等手工分类无可比拟的优势,使得其实用价值得到充分体现。Web文档分类越来越受到人们的重视,在网络信息
随着Internet的迅速发展和普及,Peer-to-Peer(P2P)网络技术得到了快速发展。在应用领域,P2P系统弥补了传统C/S系统的不足,但同时给网络带来了许多额外的安全隐患,信任机制是P2P网
监控设备的普及催生了大量的监控数据,使得对监控视频中的异常进行人工检测变得非常困难。为了减轻人力资源和经济负担,同时提高异常检测的准确率,人们不断寻求对视频当中的
基于轮廓特征的碎片拼合技术是计算机视觉、图像分析及模式识别中的重要课题,可以应用于很多领域,比如考古学、文物复原及分子生物学等,属于形状匹配也称曲线匹配的范畴。本