中文问答系统中的答案抽取算法研究

被引量 : 12次 | 上传用户:xuehua812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“我们正受信息淹没,但却渴求知识。”美国著名未来学家约翰·奈斯比特的一句话,形象地描绘出了现代人面对信息爆炸时的困惑与尴尬。一方面是互联网,以太网的扩张与普及,不用说世界,单是某一个企业中的信息也难以用车载斗量来形容,另一方面与此相对,却是人类获取知识,也就是有效信息的工具的匮乏,尽管google,百度,雅虎等互联网搜索引擎公司,以及IBM,Autonomy,Endeca等企业搜索服务公司在搜索引擎方面提出了很多有益的尝试。但是,事实的情况是,传统搜索引擎的发展并不能满足人们对于准确获取知识的需求。此时,自动问答系统的研究应运而生。问答系统(QA,Question and Answering System)在搜索引擎的基础上融入了自然语言理解的知识与应用,将传统搜索引擎从关键词匹配的语法层面,提高到理解用户意图,分析答案的语义与语用层面。本文主要介绍了中文问答系统的各个模块,以及主流的研究方法与算法。此外,本文的重点将集中于中文问答系统的答案抽取模块,对于这个模块,本文提出了两种实现的方法,一种是在Wikipedia的基础上,构建三层过滤器,对答案进行关键词,以及语法模式的匹配,另一种是在Wikipedia的基础上构建语义社区网络,通过语义社区网络来对答案进行打分、排序及去重,并在实验数据的基础上对这两种方法进行了比较分析,并指出基于语义网络的答案抽取算法将是未来复杂问题答案抽取算法研究的方向。最后,本文会对参加了NTCIR-7的中文问答系统Answer Path进行简要介绍,并提出未来提高与研究的方向。
其他文献
通过分析我国农村科技人力资源开发和管理的社会需求以及人力资源的现状,提出了构建农村科技人力资源开发与管理的机制。
巨磁电阻(GMR)效应自发现以来即引起各国企业界及学术界的高度重视,GMR效应已成为当前凝聚态物理研究的热点之一。它不仅具有重要的科学意义,而且更重要的是,它具有多方面的
根据北疆奎屯垦区12年(1995~2005和2007年)的历史气象资料,用SPSS逐步回归分析法研究棉蚜年发生程度与气象因子的关系,构建棉蚜年发生程度的预测模型,用所建立的模型对12年调
立足实际,通过问卷调查、实地考察、资料搜集等多种形式,在掌握重庆市农民工子女教育情况的基础上,提出了解决问题的基本思路。
玉米花粉是一种具有保健作用的植物资源,提取其有效成分,配以其他辅助因子,可制得风味独特、口感良好的保健饮品。试验对2种不同的取汁方法和产品配方等主要工艺进行了研究。
目的:讨论脂肪栓塞综合征(Fat Embolism Syndrom,FES)早期观察与护理。方法:自2004/2007年,收治5例脂肪栓塞综合征,以呼吸系统和神经系统症状为主要表现,根据脂肪栓塞综合征
第一部分 肝移植术后胆道并发症发病机制的多因素分析 目的 分析总结本单位肝移植术后不同类型胆道并发症(biliary complication,BC)发生的相关高危因素,为建立完善的B
在当今时代,随着国民经济的增长,严重污染的环境问题越来越引起社会公众的高度关注,大家更加意识到生态环境对人类生活的重要性。因此,人们对“保护环境、节约资源”的呼声越
进入21世纪以来,科学技术在促进经济发展的因素中所占的比重越来越大,科技成为各国竞争与国力强弱的核心所在。而R&D经费投入是评价国家科技实力和科技发展水平的首选指标,长
详细介绍了云计算的理论、特点及国内外发展趋势。探讨了在软件即服务(SaaS)的理念下,以云计算为架构的地理信息系统(GIS)的发展趋势。