论文部分内容阅读
运用语义万维网(Semantic Web)需要对传统的网络资源进行一些具有一定语义的标注。目前建立用于标注的本体(Ontology)是比较困难的。为了降低技术难度可以用一些具有结构化信息的资源作为数据来源。
维基百科(Wikipedia)就具有一些优良的标注性质,它是一个对各个领域都有描述的协同编辑的大型知识库。例如:文章的内容是对某个特定的实体进行描述;文章的分类已经具有一定分类学意义;文章之间通过超链接具有很强的联系;文章内容组织具有结构性,如,表格信息和段落标题等等。如果我们把这些标记看作是具有一定语义的对于文章的摘要,那么我们就可以从这些摘要中得到一些构成本体(ontology)的元素,例如类(class),个体(instance),关系(relation)等等。
但是语义摘要的获取完全靠人工的方式编辑有很多潜在的问题。
例如:标注存在不确定性,标记的缺失,标记的噪声,标记过于多样等等。本文利用已有的标注信息,通过他们之间的联系,自增强地获得一个明确的联系,例如:某个分类具有特定的表格,段落标题。具有相同表格和段落的文章属于同一类。这就得到了这些浮出的语义摘要。例如当用户编辑了一个分类下的文章,我们就可以提示他编辑相应的表格和段落。当用户编辑一些表格和段落信息后,我们又可以提示他用相应的类对文章进行标注。这样我们就可以在用户编辑新文章或者对现有文章进行改进时提供帮助,例如,对缺失的信息进行补全,对噪声进行过滤,对标注多样性的文章规范。作为将来的应用,我们可以利用已经生成的语义标记,可以很好地有指导地从维基百科学习一个更加形式化更加规范的本体。
本文将介绍相关的工作和现状,在维基百科下运用自动协同式的方法获取语义摘要,并通过实验加以验证,对相关的领域的贡献以及潜在的应用也将做出简要的分析。