中文问答系统的问句分类研究

来源 :太原理工大学 | 被引量 : 6次 | 上传用户:zhangliye5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和因特网的飞速发展,人们期望可以高效地从海量信息中获得准确的目标信息,和基于关键词的传统搜索引擎相比,问答系统可以更好的满足人们的检索需求。问答系统作为信息检索的高级形式,它允许采用中文自然语言作为查询条件,而且直接以答案的形式将结果返回给用户,大大提高了用户的检索满意度和时间成本。问答系统一般包含三部分:问题分析、信息检索和答案抽取。问题分析是整个问答系统的基础,而在此部分中问题分类模块又是根基。对问题进行分类,可以有效的缩减候选答案的空间和查找准确答案的时间,而且一个问题所具有的类型信息直接决定了答案的抽取策略,问题分类结果的好坏直接影响着整个问答系统的性能和质量,因此,研究问题分类对于提高问答系统的性能具有重要意义。在对问题分类的相关理论进行全面和深入地学习的基础上,本文面向开放域,针对中文事实型问题,主要研究中文问题分类,研究内容包括以下方面:1.基于机器学习的问题分类在进行学习之前,必须要把问题表示成计算机可以识别的结构化数据形式,本文选用的模型是向量空间模型,为了更好地表示问题的语义类别,通过对中文问题的分析,本文提出了一种融合多种语义的问题分类特征提取的新方法,该方法提取问题疑问词、问题的核心关键词在《知网》中的主要义原、命名实体、单/复数作为问题的分类特征来表示问题,其中每一类特征都有相应的提取方法。2.由于中文自然语言的复杂性和多样性,在提取问题的核心关键词在《知网》中的主要义原的过程中,确定某个词汇的正确义项便尤为重要。本文提出了一种基于义原的词义消歧方法,该方法通过依存关系找到歧义词的上下文,从上下文义项和歧义词义项之间的义原关系中获取指导词义消歧的知识,完成词义消歧。将其引入到问题分类过程中可以比较好地确定某个词汇的正确义项,在一定程度上解决了歧义词对分类效果的不良影响。3.设计了多个实验验证本文提出的问题分类特征提取方法的有效性和引入基于义原的词义消歧方法的必要性,最终得出SVM算法比较适用于本文的分类特征,在大类和小类上的分类精度分别达到92.82%和84.45%,优于其他同类分类方法,并使用SVM算法设计并实现了一个中文问题分类系统。
其他文献
金融存在决定金融意识,金融意识反作用于金融现实。从这个意义上说,农村金融意识的强弱对农村金融生态的优化和金融市场的发展至关重要。以信用为基础的农村金融市场的发展和
20世纪90年代以来,随着我国经济快速发展,国内人居环境建设的不断扩展以及旅游业的蓬勃发展,景观界与旅游界面临更大的机遇和挑战。我国自古以来就是农业大国,乡村景观与旅游
目的:了解我院中成药的应用情况。方法:调查我院1998年~1999年中成药的年销售金额,采用DDDs分析方法和药物经济学方法,分析中成药的销售量、用药频度、日用药金额。结果:1998
自十一五规划提出推动我国社会主义新农村建设以来,农村社区发展和社区建设等领域得到了众多学者的关注和研究,亦取得了较为丰硕的研究成果。笔者作为基层工作人员多年扎根在
长期以来,在科学研究和意识形态领域占据统治地位的“五形态说”其实是后人对马克思社会形态理论的一种误读,不具备充分的文本依据。“五形态说”本身也存在着明显的理论缺陷
上海地处长江入海口,长江携带的丰富泥沙资源在河口堆积,造就了上海的淤泥质潮滩,孕育了极其丰富的滩涂湿地资源。滩涂湿地不仅是上海经济发展的重要后备土地资源,也为上海地
堤防工程是关系国计民生的关键性水利工程,它的安全与稳定至关重要。在汛期,堤基渗透变形破坏是引起堤防险情的主要原因,管涌在其中占了相当大的比例。但由于管涌的随机性和
<正> 失眠是一种常见的症状,调查发现成年人中失眠的发生率在5%~45%之间,在老年人中更加普遍。失眠严重影响人们的生活、工作及身心健康。20世纪60年代以前,临床上主要用巴比妥
随着认知科学的兴起,对于认知出现了内省主义、认知主义、联结主义、动力主义、功能主义、行为主义、建构主义、自然主义等众多流派。自语境化是通过自主性将认知主体与认知
随着高职职业教育改革的不断推进,课程内涵建设成为课程改革的重点,《建筑施工技术》是建筑施工技术专业群的核心课程,为提高教学质量,引入基于工作过程的理念,对该课程进行