中文问答系统中信息检索模型的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yichunjekiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。目前,国内外有很多的科研机构参与了英文问答技术的研究,甚至己经有相对成熟的英文问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文问答系统。本文正是对中文问答技术研究的一个探索。基于自然语言处理的中文问答系统包括五个主要组成部分:问题理解、信息检索、信息处理、答案抽取、FAQ模块五个子系统。信息检索模块是自动问答系统中最重要的模块之一,检索的结果对后面的处理,以至找到问题的正确答案都有很大的影响,同时它也是智能咨询系统、机器对话等研究的重要方面。本文充分结合了汉语语言的特点以及计算语言学的技术,对问答系统中信息检索模块进行了深入分析,指出了在实际的使用问答系统的时候,用户的回答质量参差不齐。我们不但要尽量检索相似度高的文档,而且还希望检索出来的文档的质量尽可能的好,而传统的信息检索中常用的四种数学模型:布尔模型、模糊逻辑模型、向量模型和概率模型以及基于语言模型的信息检索模型在计算相似度的时候都没有考虑到问题的质量。本文通过最大熵方法用困惑度、序列模型、词的搭配作为特征来评估文档的质量,最后利用翻译模型把问题质量成功的集成到检索模型中。最后,我们从社区问答系统中抽取问答对作为语料进行测试,试验结果表明引入文档质量到检索模型中比传统的检索模型能取得更好的试验结果。
其他文献
萝藦科杠柳属植物含有C21甾类、萜类、强心苷类、黄酮类等多种化合物,不仅在医学上被广泛应用,其有效生物活性成分还可以防治小菜蛾、粘虫、蚜虫等多种农业害虫及家蝇、孑孓
嵌入式集成开发环境IDE和硬件评估系统是嵌入式产品开发的必要工具。开发嵌入式集成开发系统涉及到的工具较多,过程较复杂,目标芯片的更新换代也较快,所以存在较大的难度。HC
生死问题为人生重大的根本问题,故此中国哲人不约而同都关注和重视生死问题,均曾殚精竭智地加以思考与讨论,从而形成了独特的具有丰富内涵的中国生死观。先秦诸子生死观以其
为了解不同林分及坡位对林下套种的阳春砂产量的影响,对不同林分下不同坡位阳春砂开花和结实情况进行差异性分析。结果表明,杉木纯林下坡、香樟纯林下坡和中坡环境更有利于促
淮安为传统蔬菜大市,当前新冠肺炎疫情肆虐,对蔬菜产业的发展影响深远。做好新形势下蔬菜技术服务工作,不仅有助农脱贫致富的经济考量,更是稳产保供的政治任务。本文从淮安市
摘要 本文简述了番茄斑萎病毒病、番茄黄化曲叶病毒病、番茄褪绿病毒病、番茄花叶型病毒病、番茄蕨叶型病毒病5种主要番茄病毒病的症状识别特征,提出加强植物检疫、选用抗病品种、诱虫板与防虫网联用、切断人为传播和昆虫传播途径、调整定植期、清洁田园环境、合理选择杀虫剂进行杀虫控病等防治措施,以期为番茄产业绿色发展提供参考。   关键词 番茄;病毒病;症状识别;防治措施  中图分类号 S436.421
胡琴类乐器的发展与蒙古族的乐器史有着密切关联,胡琴类乐器的重要分支马头琴、四胡有着蒙古人的深厚的文化底蕴,是蒙古族最有代表性的传统乐器种类。中国北方边疆曾经是“东夷
污染土壤的修复是当今环境科学的热点研究领域,也是最具有挑战的研究方向之一。而重金属对土壤的污染比其对大气和水体的污染更具有隐蔽性、滞后性、累积性和不可逆转性,也不易
随着信息和计算机网络技术的广泛应用,虚拟企业作为以核心能力为基础的、对企业外部资源进行优化整合的一种手段,成为许多企业制度安排的现实选择。如何快速、低成本,低风险
随着人们环保意识的不断增强,林业发展状况受到了社会各界的广泛关注。林业工程是我国积极改善生态环境的有效举措,同时在一定程度上满足了社会经济发展对林业资源的需求,具