中文问答系统中问句理解和相似度计算的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yhcguopdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今的互联网时代,信息成为人们最重要和宝贵的资源之一。但是现有的以关键字和关键词的简单逻辑组合为基础的信息检索模式在某种程度上距离人们对信息快速、准确获取的需求越来越遥远。于是问答系统逐渐受到重视和发展。这些年来,中文信息处理技术的进步也极大地推动了中文问答系统的研究。本文主要借助于自然语言理解技术,对领域专业关键词标注库的构建,中文问句的理解,问句相似度的计算方法等问答系统的关键技术进行了深入的研究和探讨,提出了基于语义依存树和改进编辑距离相结合的句子相似度计算方法,并在此基础上实现了电信产品信息领域的问答系统的原型。实验证明,本文采用的基于语义依存树和改进编辑距离相结合的句子相似度计算取得了比较理想的应用效果。本文主要的工作和成果如下:1.通过领域语料预处理、并利用互信息理论,选择内部结合强度较高的字串作为候选词汇,构造了候选词集,最后在进行领域术语识别等流程实现了领域术语抽取系统,并在知网的基础上构建了领域义原树以及领域专业关键词标注库。2.在问句理解的处理中,我们借助于“问句统一型”以及相应的问句句型库,建立了疑问词表、问句统一型表和可能的回答形式表,实现了从多种提问形式到问句统一型,从问句统一型到多种回答形式的映射。3.分析比较了目前存在的各种句子相似度计算方法,发现基于语义依存的句子相似度计算方法体现了句子内部的结构和词语之间的相互作用关系,而编辑距离能够以较小的开销实现同义词之间的替换,并且可以表达组成句子的每个词的深层语义信息。于是我们利用骨架依存树把两种计算方法结合起来形成一种方法,从而达到扬长避短的目的。这样,我们便综合考虑了词法、句法、语义等方面。实验表明,该方法就有较好的实验效果。4.综合以上研究成果,我们设计并实现了基于电信产品信息的中文自动问答系统的原型。
其他文献
以三代AP1000型与M310改进型压水堆核电站二回路给水系统为例,对给水泵调节阀组配置及主给水泵配置方式进行了比较,分析了AP1000型核电站二回路给水系统配置的优缺、点,为三
农村新民居建设是推进社会主义新农村建设的重要内容,代表农村发展的方向。有鉴于此,总结河北省农村新民居工作的经验,为农村新民居建设提供决策依据。通过广泛而深入的调查
为了更好的对烟草赤星病进行防治,选取了目前市场上常用的防治烟草赤星病的8种杀菌剂进行药效筛选。采用生长速率法测定了8种杀菌剂对烟草赤星病的室内毒力,结果表明:8种药剂
对贵州华电桐梓发电有限公司2×600MW机组工程采用引风机与脱硫增压风机合并的可行性进行了分析,提出了合二为一模式和分别独立设置模式下的风机选型方案。对2种模式下风机的
新闻宣传是高校信息沟通的重要渠道,展示学校成果的主要窗口,也是外界认知高校的重要途径,因此,做好高校宣传工作对塑造学校良好社会形象、提升学校影响力与关注度起着重要作
水利工程管理现代化是一个动态的变化过程,人们对于现代化评价标准的认识随时代进步而不断深入。本文通过对水利工程管理现代化的历史背景、发展历程的分析,以目标管理、人本
随着中国经济发展进程的不断加快,电力建设迎来新一轮的发展机遇,由于电网建设的要求越来越高,电力设计行业的竞争越来越激烈,A电力设计院在经营与管理上也面临着巨大的挑战,
科学合理的配电网规划是保障供电可靠性、完善网架、保障供电企业经济性的前提和基础。城市配电网规划所涉及到的建设工程数量庞大、单项投资相对较小,而整体投资则非常巨大,
水资源的刑事法律保护是水资源法律保护的"最后一道防线",完善水资源刑事法律保护制度,对加强水资源保护具有十分重要的理论与实践意义。我国《刑法》和《水法》等水事法律规
用溶液法合成了4种氯化聚丙烯接枝马来酸酐接枝物(CPP- g- MAH) ,并初步进行了表征。在此基础上,从溶液的分层情况、混合物涂膜的光泽度和树脂的溶解度参数方面对氯化聚丙烯