基于Internet的问答系统答案抽取方法研究与实现

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:siany
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,互联网上的知识资源也在不断的膨胀。然而,网页如此繁杂以至于人们无法快速获取自己想要的信息。搜索引擎的出现,虽然在很大程度上缓解了这个问题,但是效果却不能令人满意。人们对于快速获取信息的强烈需求,使得越来越多的人投入到自动问答系统的研究中。自动问答系统企图不借助任何人力,利用自然语言理解、信息检索、信息抽取等技术,以自动化的方式回答用户的问题。考虑到当今问答系统在网络上的新发展,同时也考虑到构建一个开放领域问答系统的复杂性与系统性,本文将主要研究网页信息抽取、中文问句相似度等。本文试图通过这些方面的研究,为受限领域问答系统做支持,从而实现从网络抽取答案的目标。本研究基于通常的网页抽取方法基础上,提出了一种基于“DOM模板与页面特征信息综合抽取”的方法,具体是从百度知道等网站抽取出用户提问的候选问题及其对应答案集,这相当于将FAQ库从本地扩展到了Internet,增加了知识的广度与范围,使受限领域问答系统不再局限于特定领域知识的问答。然后,利用中文问句相似度计算等思想找到最相似的问句对应的答案返回给用户,从而实现受限领域的自动回答。本文从基于Internet的问答系统研究的相关背景入手,首先阐述了研究的基础平台,接着详细的分析了网页信息抽取与中文文件相似度的计算,最后重点的对答案抽取系统做了相关实现。
其他文献
无线AdHoc网络指的是由若干带有无线收发信机的节点构成的一个无中心的、多跳的、自组织的对等式通信网络,它可以不依赖预先存在的网络基础设施而快速展开,自适应的组网,各节点
随着无线网络技术的发展,彩信已经成为目前社会交流娱乐的一种主要方式。2006年是中国移动公司的彩信业务推广年。一个彩信用户定制业务是否成功主要决定于SP和彩信中心关于
近年来,随着实时多媒体数据的业务量不断增大,人们对网络在带宽、性能、覆盖范围等方面的需求的日益提高。面对这些新的挑战,IEEE 802.16无线城域网技术以其经济便捷、运行维
目前在无线网络环境中,移动IP是众多支持主机移动的方法中较受到研究者青睐的,然而在移动IP中依然存在一些问题没有很好地解决,如三角路由就是一个突出的问题。在这篇论文中,我们
信函自动分拣是机器视觉技术的应用,是邮政自动化的一个重要环节,它直接决定了邮政是否能够实现自动化,是否能满足日益增加的信件处理需求。信函自动分拣涉及到很多机器视觉技术
随着计算机网络技术的高速发展,计算机病毒越来越猖獗,计算机安全越来越受到人们的重视。而随着病毒在网络上的飞速蔓延,传统防御病毒的手段和工具显示出越来越多的缺陷。其中最
最佳离散信号及其设计在现代通信、雷达、声纳、制导、空间测控,以及电子对抗等有线和无线系统的优化设计中,扮演着越来越重要的角色。结构优良的信号可以提高系统的抗干扰、
近些年来,随着影像技术的蓬勃发展与应用,在越来越多的医疗诊断中,影像技术被用来提高医生诊断的效率并降低误诊率。在这种情况下,医疗机构需要处理越来越多的医学影像,而其
本文结合中国石油具体项目,详细阐述了一个QHSE(Quality, Health, Safety & Environment)环境下的商务智能系统的设计和实施过程,并详细介绍了基于这个新的信息平台的应用—
命名实体主要包括人名、地名和组织机构名,是标识某一特定实体的词或词组。而双语命名实体等价对是指来自两种不同语言的具有互译关系的命名实体对。现阶段全球化进程不断加