限定域中文问答系统关键技术的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:rhetthusida
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是新一代的智能搜索引擎,它允许用户以自然语言的方式提问,并向用户返回答案。限定域问答系统是指针对特定领域,如教育、银行、法律、旅游等专业领域的问答系统,其领域范围有限,具有更好的应用效果和较强的实用价值,目前已成为研究的热点。 本文以《现代操作系统》课程的领域知识为例,针对限定域中文问答系统的关键技术(包括FAQ中问句相似度计算、问句分类以及答案抽取策略等)进行了一定的研究,引入潜在语义分析、支持向量机等技术和方法来提高问答系统的性能。本文的主要工作成果有以下几点: 1.根据研究的需要,手工收集并构造出常用问句集、同义词词库和专业术语词库,并给出本文研究中使用的中文问句分词方法,使用倒排索引表构建出候选问句集合。在分析目前已有的研究方法和领域知识特点的基础上,设计了一种具有较好性能的新的组合式问句相似度计算方法。 2.依据收集到的《现代操作系统》课程的问句构建了领域问句集,并对问句进行特点分析,定义出问句类型。根据领域问句的特点,制定了问句特征的提取策略和SVM编码策略。研究了多种目前常用的问句分类算法,提出了基于LSA和改进SVM多类分类器的问句分类方法,并设计了一组对比实验来检测该方法的性能。 3.将潜在语义分析理论引入到限定领域问答系统的候选答案集的构建中,以消除词的同义和多义现象造成的漏提和错提问题。利用设计的组合式语句相似度计算方法并结合问句焦点和问句类型等信息,设计出适合该限定领域的答案抽取策略,并进行实验测试。
其他文献
当前,搜索引擎是互联网的一个重要组成部分,也是智能信息处理领域的一个研究热点问题。研究快速搜索引擎的关键算法和实现机制具有重要的学术意义和实际应用价值。一个完整的
开发基于Web的管理信息系统(MIS)、最大限度利用高校现有资源、提高教学质量是高等院校教学上的新的研究课题。在线考试系统将实现网络组卷、在线考试、网上判分、在线统计等
移动Agent迁移过程中路径选择的一个经典的、代表问题——旅行Agent问题(TAP),是一个复杂的组合优化问题。蚁群算法(ant colony algorithm)作为一种新的生物进化算法,具有并
文本关键词自动提取算法可分为基于统计的方法,基于词语共现图的方法,基于词语网络的方法三种。基于统计中最基础的词频统计方法是选出文档中词频最高的几个词语作为关键词。
近年来,随着Internet技术和校园网的发展,通过网络来进行学校教育教学方面的管理越来越成为网络研究与应用的热点之一,学分制的管理作为教育教学管理中一部分,在教育教学管理中占
本体在信息集成、语义网和知识管理等领域中被认为是重要的理论基础。然而,在很多情况下,不同领域对许多相同概念会定义出不同的本体,甚至在同一领域,不同机构定义出的本体也
随着中小超市规模的扩大,对于这些超市的资源管理、信息的存储和处理也显得迫切需要,要适应市场竞争,就需要有高效的处理方式和管理方法,因此加快超市的信息化进程是必然选择。本
随着计算机处理能力的不断增强,以及图像处理与识别技术的快速发展,数字图像处理与识别技术在农业中的应用越来越广泛,并将成为实现农业信息化与自动化的重要技术力量。农业
学位
人脸表情识别是模式识别、情感计算、心理学、机器视觉等研究领域的一个极富挑战性的交叉学科课题,是近年来的一个研究热点,目标是设计出具有情感反馈的人机交互环境,并最终实现
学位