论文部分内容阅读
互联网技术已经给人类社会带来翻天覆地的变化,人们已经习惯于从互联网上获取各类信息,这得益于搜索引擎技术的发展。然而,搜索引擎仍然有一些问题没有解决。首先是用户检索时,相关信息返回太多且不精确,其次是检索只能按关键字进行匹配,实际上并不能精确表达人们的检索需求。
由于以上问题的存在,问答系统应运而生。问答系统允许用户以自然语言方式进行提问,系统返回的是简洁的答案。由于基于web的问答系统,不足以专注于研究语义理解在问答系统中的应用。因此本文选择特定领域,结合FAQ(常问问题库)和本体知识库的问答策略,针对问句处理、答案抽取、语义推理等问答系统的主要技术进行深入的研究。本文的主要内容和创新点如下:
1、为了提高问答系统的性能,提出了一种多策略混合的问答系统模型,结合FAQ库和本体知识库问答技术的优势,实现了以此为框架的受限领域问答系统。对于常见的问题,本系统首先采用策略一:用户输入问句和FAQ库问句匹配技术实现问答;对于特定的领域知识采用策略二:构建领域本体库,浅层语义分析和SPARQL查询技术实现。浅层语义分析通过语义块定义规则和语义块判定规则,生成了问句向量。再用SPARQL查询技术进行本体库的查询。少量无法回答的问题采用策略三:人工问答或肯返回相关网页等方式回答用户提问。实验结果表明,这种多策略混合的问答系统比采用单一策略更能够有效地提高系统的召回率,准确率以及F测度值。
2、为了检索专业领域的知识,构建了医院领域本体库,提出丁一种基于医院信息本体库的问答系统答案抽取方法。首先建立医院信息本体库,然后使用浅层语义分析技术对问句进行分析,识别出问句的未知及已知信息,最后生成问句向量。接着使用SPAROI。查询技术从本体库中进行查询,从而返回答案。这样有效地提高了对专业领域知识提问而返回的答案召回率,因而改善了系统的性能。
3、为了提高问答系统的召回率,扩充本体知识库,提出了一种用于问答系统中进行推理的Jena推理方法。首先构建推理规则,然后把这些规则加入到Jena推理机中。再将推导的结果加入到知识库,从而扩充了知识库。这样可以使一些在本体库中查找不到的答案,能够通过Jena推理而得到答案,从而可以提高问答系统的召回率。另外,为了挖掘出医院本体中的一些隐含信息,提出了一种用于问答系统中进行推理的SWRL描述推理规则并结合Jess推理引擎的推理方法。实验表明,这种方法可以使计算机拥有一定的症状推理能力,从而扩展了问答系统的性能。
4、将提出的问答系统模型用于医院领域中。通过应用,可以验证本课题的相关技术和算法。经实验测试,本系统具有较高的准确率和召回率,因此本文对自动问答系统的设计和应用做了有价值的研究。