论文部分内容阅读
尽管搜索引擎极大的方便了人们在Web上进行信息查找,但其还是有着很多的缺点。问答系统以其符合普通用户习惯的表达方式、返回简单准确的答案弥补了搜索引擎的不足,成为信息检索技术中的研究热点。随着Web智能特别是语义Web相关技术的发展,OWL成为W3C的推荐标准,网络上存在大量的OWL知识,以问答的方式检索这些知识是更好的利用这些知识的方式之一。
现有的OWL知识问答系统依然存在一些问题,如对OWL元素的处理不全面,不能处理多变量问题等。针对这些问题,本文集中研究问答系统中多变量问题到OWL查询语句的转换方法,包括三个子问题:期望答案类型识别、变量提取、组合OWL查询语句,具体工作如下:
针对期望答案类型识别,在参考Webclopedia的期望答案类型分类标准后,本文根据实验所采用的领域知识库,总结出以“Who”,“When”和“Where”开头的问题的期望答案类型。对于以“What”和“Which”开头的问题,则提出先识别问题的目标,再根据问题目标来得到问题期望答案类型的方法。对以“What”和“Which”开头的问题进行的实验结果表明该方法具有较好的效果。
在变量提取方面,提出了一种提取变量、识别变量潜在类型的方法。该方法采用Stanford Parser工具对问题进行解析,若解析结果表明问题中含有从句则提取变量,变量的潜在类型通过关系词所指代的先行词直接得出或从用同义词典对先行词进行扩展后得到的集合中得出。实验结果表明该变量提取方法是可行的。
在组合OWL查询语句方面,为了组合所有的变量及OWL元素到RDF元组,采用了基于模板的组合方法,组合过程中用到了Agile系统没有用到的二变量模板。得到RDF元组后,为了剔除元组中的噪声,对Agile系统中已有的噪声剔除规则进行了部分修改。实验结果表明基于模板的组合方法能够较好的组合RDF元组,噪声过滤能提高组合精度。
综合前面描述的期望答案类型识别、变量提取、组合OWL查询语句三个子内容的所有实验结果,整个结果表明方法对以“What”,“Which”,“Who”,“When”开头的问题比较有效,对以“Where”开头的问题效果较差。