基于句法分析和机器学习的中文自动问答系统研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:ddall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动问答系统是为了应对信息爆炸的客观挑战和满足信息时代人们对于快速、准确地获取信息的主观需求而发展起来的。它逐渐成为自然语言处理和自然语言理解领域的前沿。本文首先对问答系统的整个框架结构进行了剖析,对问答系统的三个关键模块的实现任务和解决方案进行了细致的综述。其次本文提出了基于汉语问句句型分析和支持向量机相结合的中文问题分类方法。本文还提出了基于最大熵模型对候选答句进行二分类的方法对答案进行抽取。综述部分全面介绍了问答系统三个关键模块的实现任务和解决方案,着重剖析和总结了问答系统中两个最关键的子模块:问题分类和答案抽取的实现方法。本文分析指出,对问句进行句法分析的分类特征抽取和基于机器学习的分类方法成为问题分类的技术发展趋势;句法分析和机器学习成为答案抽取里面两个最重要的组成部分。问题分类模块中,本文首次提出根据距离疑问词最近原则确定问句中的谓语动词,根据疑问词和谓语中心语的距离信息对汉语问句进行句型分析。然后,在此分析的基础上,提取出疑问词、谓语动词、主语和宾语作为问题分类的特征。最后采用支持向量机作为问题分类的机器学习算法,取得了良好的实验结果,准确率达到95.87%。答案抽取模块中,本文首次提出把答案的抽取问题转化成一个对候选答句进行二分类的问题。首先,在对问句进行句型分析的基础上,提取出问句词及词性序列、查询关键词、疑问词、主语、谓语和宾语作为问句特征集;然后,对候选答句进行浅层句法分析,提取出候选答句词序列,候选答句词性序列和正确答案词性标记作为答句特征集;基于问句特征集和答句特征集得到组合特征集;最后,引入最大熵模型,在组合特征集的基础上训练答案抽取的分类器。良好的实验表现证明了这种方法的可行性。
其他文献
<正>塔吉克斯坦总统对新闻媒体称,中亚地区最大的水利设施——罗贡水电站的收尾工程即将开始。塔吉克斯坦和俄罗斯的高层代表出席了2005年9月26日举行的开工仪式。塔吉克斯坦
本文在对外汉语教学语法研究的视角下,以情状类型理论为基础,从动词的时间特征分类出发,描写了被字句中的谓语动词对其后连带的定界成分的选择性,概括了被字句动词组的语义特
出租车在城市公共交通中扮演非常重要的角色,如何降低出租车空载率,解决乘客打车难问题是城市生活中面临的重大课题。出租车拼车系统能够根据乘客需求自动匹配出租车,实现出
本文尝试将传统诗词搭载现代大众传媒的表现样式作为中国古典文学教学中的多媒体教学的媒介材料,探讨其传递、处理和优化教学信息的手段对于现代教育技术环境下的古典文学教
目的比较口服竹沥胶囊与氨溴索对支气管炎患者祛痰治疗的临床疗效和安全性。方法 238例支气管炎的患者,按照随机数字表分为2组,实验组124例口服竹沥胶囊3粒/次,3次/d;对照组1
译者作为翻译活动中最重要的因素之一,其主体性作用在很长一段时间内都被人们所忽视。在传统翻译理论中,译者往往被视为仆人或透明的玻璃。随着翻译研究的“文化转向”,译者
随着认知科学的发展,以形式主义哲学为基础的命题符号理论受到越来越多的挑战,而以体验哲学为基础的知觉符号理论得到了越来越多的支持。在知觉符号理论的框架下,Zwaan提出了
互文性(intertextuality),又称“互文本性”、“文本间性”或“文本互指性”,是西方结构主义、解构主义思潮和现代文论中的一个重要术语。互文性概念是由法国女批评家、符号学
目的了解大学生睡眠障碍与伤害的关系,为预防和控制伤害的发生提供参考。方法采用多阶段抽样的方法,抽取齐齐哈尔市2 017名在校大学生进行问卷调查,收集研究对象一般特征、伤
目的评价Homer蛋白在T2DM大鼠海马中的表达及意义,并分析其与T2DM大鼠认知障碍间的关系。方法糖尿病大鼠模型组(T2DM组)、对照(Con)组大鼠各13只。取T2DM组及Con组各8只大鼠