基于潜在语义分析的大学概况中文问答系统

被引量 : 0次 | 上传用户:xdh188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是指能够根据用户输入的自然语言描述的问题从大量文本集中找出确切答案的计算机程序。 目前的检索系统只能定位出相关文本,却把具体信息检索的任务留给了用户自己,人们迫切需要一个能定位出用户感兴趣的信息而不是整篇文本的检索系统。基于以上原因,我们设计了一个基于潜在语义分析技术的大学概况中文问答系统QASYS,由于中国大学有上千所,每所大学的网页又是包罗万象,想查出确切信息要花费很长的时间。本系统将使这种查询变得相对简单,这对于想了解各院校情况的高考生们会提供很大的帮助。 本系统引入了潜在语义分析技术进行信息检索,避免了传统信息检索系统的同义词和多义词问题,提高了检索精度。另外,自然语言处理技术在问答系统中也起着至关重要的作用,包括特征项抽取、词频统计、语法和语义分析等。 整个系统划分为三个模块:文本库预处理模块、问题分析模块和答案抽取模块。 文本库预处理模块包括网页抓取、HTML格式滤除、分词、标注、词频统计、特征项提取等工作,并根据tf*idf变形公式计算每一个项的权重,生成项/文本矩阵;最后,对项/文本矩阵进行奇异值分解生成潜在语义空间。 问题分析模块同样要对用户提出的问题进行分词、标注、词频统计以及特征项提取,并根据词频把问题表示成易于处理的向量形式;这一模块中最重要的任务是进行答案类型分析,针对于不同类型的问题制定相应的答案抽取规则,以便在答案抽取阶段应用这些规则来抽取问题的答案。 在答案抽取模块,包括相关文本检索、相关文本段检索以及答案限长处理三部分内容。本文中提出了不同的文本和文本段的权重计算函数,将潜在语义分析技术与关键字匹配结合起来,即考虑了查询的语义信息,又充分认识到焦点对于返回答案的不容忽视的限制性作用,实验表明,将二者结合起来的检索方法比单纯采用其中一种的结果要理想得多;最后验证返回文本段的长度,将答案限制在50字之内返回给用户。
其他文献
“三农”问题始终是困扰我国经济持续、快速和健康发展的主要瓶颈,这与我国农村信用社小额信贷业务没有得到应有的发展是分不开的。国际上,小额信贷最早成功实践于孟加拉乡村银
<正>目的探讨超声对浅表神经鞘瘤的诊断价值。方法回顾性分析29例经手术病理证实的浅表神经鞘瘤的超声表现,分别对其进行二维、彩色分析。结果良性神经鞘瘤图像分以下几型,1
会议
论文以大规模定制背景下的客户定制设计平台为研究对象,分析了平台与客户需求、企业大规模定制生产组织的关系;研究了定制平台的体系结构、功能组成及其实现的若干关键技术;初步
经过几百年来的实践与改良,提单已经成为国际贸易与航运的基石,因此提单的电子化将直接关系到整个运输服务业乃至贸易领域电子商务的发展进程。电子提单是EDI技术与传统提单相
柴胡桂枝湯源於《傷寒論》。《傷寒論》是漢代醫家張仲景所撰《傷寒雜病論》中的一個組成部分,是祖國醫學的經典著作。它將變幻萬千的復雜証候,按照病位,病性,邪正而厘定了六經,根
科场评卷是明代科举考试的重要环节。明代乡、会试实行三场考试,考试内容和标准完全相同。为了保证评阅和录取的公正性,自洪武开科以来,随着科举考试走向正规化,统治者不断提高考
在当代世界经济发展中,贫困问题始终是困扰人类社会进步的一个重大问题。不仅在发展中国家和地区存在着庞大的、且有上升趋势的贫困人口,而且在经济发达的欧美国家也存在大量贫
目前部分高职院校旅游心理学课堂教学存在方法单一、偏理轻实际训练、投入部分设施不健全、缺乏具有专业素养的专职教师、学生缺乏创新精神等诸多现实问题。应采取综合运用多
目的:采用联合分析方法[1-4]分析住院病人的就医偏好信息,得出医院重要属性各水平的分值效用和重要属性的相对重要性;根据预测效用,采用适当的模拟方法模拟出各种医院在医疗市场
作为一种用途十分广泛的重要非金属矿资源,石墨的需求量正日益增大。然而近年可供利用的优质鳞片状石墨储量已大大减少。对于隐晶石墨进行有效的提纯开发十分必要。为了有效开