论文部分内容阅读
在最近的十年里,互联网得到了惊人的发展,它成为一个海量的、异质的、非结构化的信息中心,成为人们生活中不可或缺的一部分。 在网络蓬勃发展的同时,网络安全也成为网络发展的一个中心议题。各种类型的网络安全系统应运而生,诸如入侵监测系统、软件防火墙、电子邮件监控系统得到了广泛的应用。然而,作为人们最关心的一个问题—对网络内容的监控发展滞后。 导致这一结果的原因是是多方面的,其中最重要的原因是TCP/IP协议带来的平台的分布性、开放性以及HTML语言造成的内容的多样性,同时HTML语言也无法为计算机提供足够的语义支持。 在缺乏成熟的网络内容监控系统支持的情况下,对网络内容的检查都是通过人来完成的,其效率低下,无法适应网络发展的需要,人类迫切需要计算机提供辅助来进行网络内容的监控。 本文以网络“电子警察”研究为背景,围绕网络内容监控的三个关键问题进行了探索性研究。 第一个是内容监控中监控模式的识别、表达、匹配问题。本文用机器学习的方式来识别监控模式。我们提出了基于关键字的概念模型,来表达领域无关情况下的监控模式。为了提高模型表达的精度,我们提出了基于ontology(本体论)的概念模型以充分利用领域相关的信息。通过计算监控模式与被监控的文档之间的概念匹配度,解决了模式匹配的问题。 第二个是网络内容的获取、组织、表达问题。本文描述了一个高性能的网络信息采集器,在有限的时间里获得所要监控的网络上的信息。这些信息经过压缩处理后分布在仓库中。最后,我们定义了一个HTML标记集,通过“属性—值”对的形式表达了网页的内容。 第三个是内容监控系统的总体架构问题。本文描述了WebCM(Web ContentMonitor)的原型系统的框架,通过可配置的学习模块、信息采集模块、内容分析与匹配模块、结果显示与反馈模块,在实现基于文本的内容监控的同时,为以后的基于图象、语音的监控提供了合理的框架。