论文部分内容阅读
近年来,因特网难以置信的飞速发展,使得web成为一个巨大、分布广泛、全球性的信息中心。在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,如何从海量信息中快速有效的获得有用的信息,并及时过滤垃圾信息成为一个非常重要的研究课题。
本课题基于分布式的语义感知技术是根据以上需求提出来的,它包括如下两方面的含义:第一,数据对象是分布在网络上的海量的动态的无结构或半结构数据。特定的数据存储特点决定了该项技术是基于分布式的;第二,仅对关键词的把握是不够的,我们需要感知和过滤垃圾信息,本文中的感知区别于人类认知的抽象能力,而是利用语义感知来逼近人类的类比认知。感知能力主要体现在对获取到的网络数据的针对性和准确性。其中感知的针对性体现在对特定信息屏蔽,准确性体现在从语义的角度来研究和解决问题。这个过程是通过提取信息来构建本体进行推理,从而感应网络上数据的变化、自动获取网络上感兴趣的信息、最后将这些信息智能转化为可供人类直接决策参考之用的知识。
分布式技术目前已经在现代信息网络中得到广泛的应用,并且在大型应用系统中有很强的适用性。本文将传统的分布式技术和基于本体的语义感知相结合,提出一种在分布式框架下的语义感知模型,并且在该模型的基础上,通过一个简单的分布式的过滤系统来对本框架做了具体的实现。在实现的过程中把过滤信息分为两种,一种是色情、反动、暴力等垃圾信息,在文中描述为敏感信息;另一种是正常信息。对分布式节点服务器中含有的敏感信息,主站点的服务器根据语义感知,能对其做监控,并且控制其操作,能够通过开发的软件对其过滤。本文通过对比上下文感知和基于本体的语义感知,最终选择基于本体的语义感知作为本文的研究方向,由于本体是语义网的主要研究方向,在语义分析方面具有不可替代的优势,为研究语义感知提供了一定的研究基础。
本文主要通过信息抽取,构建本体,语义标引,语义推理等几个方面来实现语义感知。首先在介绍本体论的相关概念和本体在信息提取领域的相关工作。其次,本文通过设计分布式体系结构,主要针对分布式并行处理的理念、分布式的索引机制、数据同步容错、汇总排序及分页实现等方面的描述,对分布式系统做了详细的描述。在分布式基础之上设计语义感知模型,主要实现分布式感知的三个模块信息抽取模块、语义标引模块和推理感知模块。最后本文描述了一个具有基于语义过滤和内容监控功能的分布式构架的设计和实现。分布式信息过滤系统具有监控节点服务器、节点服务器网页信息抽取、应用层上关键字过滤和语义过滤、基于URL、关键字的访问控制、根据本体对文本信息过滤等功能,系统运行稳定,达到了预期效果。