WebCM:一种基于搜索引擎的网络内容监控系统的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xcgxcgxcg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在最近的十年里,互联网得到了惊人的发展,它成为一个海量的、异质的、非结构化的信息中心,成为人们生活中不可或缺的一部分。 在网络蓬勃发展的同时,网络安全也成为网络发展的一个中心议题。各种类型的网络安全系统应运而生,诸如入侵监测系统、软件防火墙、电子邮件监控系统得到了广泛的应用。然而,作为人们最关心的一个问题—对网络内容的监控发展滞后。 导致这一结果的原因是是多方面的,其中最重要的原因是TCP/IP协议带来的平台的分布性、开放性以及HTML语言造成的内容的多样性,同时HTML语言也无法为计算机提供足够的语义支持。 在缺乏成熟的网络内容监控系统支持的情况下,对网络内容的检查都是通过人来完成的,其效率低下,无法适应网络发展的需要,人类迫切需要计算机提供辅助来进行网络内容的监控。 本文以网络“电子警察”研究为背景,围绕网络内容监控的三个关键问题进行了探索性研究。 第一个是内容监控中监控模式的识别、表达、匹配问题。本文用机器学习的方式来识别监控模式。我们提出了基于关键字的概念模型,来表达领域无关情况下的监控模式。为了提高模型表达的精度,我们提出了基于ontology(本体论)的概念模型以充分利用领域相关的信息。通过计算监控模式与被监控的文档之间的概念匹配度,解决了模式匹配的问题。 第二个是网络内容的获取、组织、表达问题。本文描述了一个高性能的网络信息采集器,在有限的时间里获得所要监控的网络上的信息。这些信息经过压缩处理后分布在仓库中。最后,我们定义了一个HTML标记集,通过“属性—值”对的形式表达了网页的内容。 第三个是内容监控系统的总体架构问题。本文描述了WebCM(Web ContentMonitor)的原型系统的框架,通过可配置的学习模块、信息采集模块、内容分析与匹配模块、结果显示与反馈模块,在实现基于文本的内容监控的同时,为以后的基于图象、语音的监控提供了合理的框架。
其他文献
无线Mesh网络融合了传统ad-hoc网络和传统无线网络的技术特点,以多跳、自组织、自适应、自愈合的方式,为用户提供动态的接入服务。路由协议对于无线Mesh网络的性能影响巨大,是无
由国际OMG组织提出的CORBA体系结构是提出最早也是目前最完善的分布式体系结构,CORBA体系结构提供了良好的跨语言性,底层可用任何CORBA规范支持的语言如C++、Java、Pascal等
在对国内外无线局域网物理安全和协议安全研究进行综述的基础上,分析了IEEE802.11无线局域网存在的安全缺陷和典型无线局域网安全的改进方案,提出了基于IPSec VPN的无线局域
词性标注是自然语言处理中的一项基础性课题,词性标注的正误对汉语语料库标注、机器翻译和大规模文本的信息检索等都有重要的意义。 本文对词性标注的方法进行了研究,分析了
论文介绍了本课题的研究背景、系统需求背景以及系统开发中所涉及的几种前沿技术背景,又较为详细地论述和说明了三层模型结构的过程工业监测系统的企业应用环境、中间层服务接
针对目前大型网络管理工作中的管理效率低的问题,结合作者工作实践,研制开发了网络服务自动监测、分布式报警系统.系统中,可以对各种网络互连设备和服务器上运行的各种服务进
移动代理是一种可以移动的Agent,它可自主地在异构的网络上,按照一定的规程移动,寻找合适的计算资源、信息资源或软件资源,利用与这些资源处于同一主机或网络的优势,就近处理或使
该文对宽幅面彩色喷墨绘图机RIP软件开发中的主要技术进行了分析研究.对以打印机驱动程度模式开发RIP进行了分析,论述了Windows打印子系统、打印驱动程序运行机制.并对用DDK
在国家自然科学基金的资助下,研究目标为:研制一个全新的,基于微内核的实时嵌入式操作系统(ARTs-OS),将仅涉及输入/输出(I/O)部分.在吸收了部分软件体系结构的思想,并在设计
该文通过分析智能家庭网络技术中现存及正在发展的相关技术标准,对智能家庭网络模型的设计及实现方案进行了研究,并提出了基于嵌入式系统的技术实施方案.首先分析了智能家庭