基于问句语义扩展的答案检索方法研究

来源 :贵州师范大学 | 被引量 : 1次 | 上传用户:sherpa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动问答系统是自然语言处理中最主要的研究方向之一,它可以在海量数据中获取及时、有效的信息。针对用户给定自然语言问题来给出精确答案,自动问答系统既缩短了查询流程,又提升了办事效率。本文将针对信息检索模块和答案提取模块,结合国内外的研究现状,在特征提取、问句语义扩展、答案抽取等方面进行研究。在使用问句来检索包含答案的候选文档时,存在两个主要问题,一是问句文本通常较短、查询关键词较少,导致检索召回率降低;二是检索时返回的候选文档规模较大,且存在冗余信息,易导致检索结果的准确率较低,最终不利于准确定位答案。针对第一个问题,我们需要对问句进行语义扩展。本文采用自动编码器技术来解决。首先对问句文本做预处理,包括分词、去停用词;然后对处理后的问句词语集合做关键词提取,并词向量化表示;最后采用自动编码器技术训练得出问句关键词,为后面答案抽取做准备。针对第二个问题,本文采用基于Lucene倒排索引,通过扩展后的问句向量,在大量候选答案文档中初步筛选可能包含答案的候选答案句集,然后,计算扩展后的“问题句的表示向量”与候选答案句向量的相似度,确定最终答案。实验的评价方法采用对比方法,即在问句分析模块的分类标准和检索方法相同的情况下,一组不做与语义扩展的答案检索实验与另一组通过本文内容实现的语言扩展实验作比较,证明本文实验内容的可行性与有效性。
其他文献
随着信息技术的快速发展,生物特征识别技术已经开始逐渐取代传统的安防身份认证技术,被广泛的应用于各类安防领域。手指静脉特征识别技术是生物特征识别技术的一项非常重要的
人脸识别技术的飞速发展使人类生活的智能化程度进一步加深。但与此同时人脸识别系统被攻击破解案例的发生导致人脸识别的安全问题日益受到重视。其中最值得关注的安全问题之
随着大型数据中心的发展,一种新的服务器形态——整机柜服务器应运而生,可以满足目前的大型互联网公司对服务器的生产、交付、部署的高效率要求,同时可以有效降低能耗,提升功
全基因组关联分析方法作为目前常用的检测影响表型性状的基因位点的方法,可用于分析复杂疾病中的相关遗传机制。但该方法主要侧重于主效基因的检测,忽略了基因与基因之间的相
阎连科凭借乡土小说在中国当代文坛声名鹊起,却引发颇多争议、毁誉参半,“中国当代最具争议小说家之一”的说法被广为熟知。阎连科的文学创作涉及小说、散文领域,尽管其小说
随着第五代移动通信技术的发展,无人机作为一种可以辅助无线通信的设备,以其低成本、易于部署、有良好的视距链路等优势,迅速成为一种重要的无线通信补充技术,在多个垂直行业
近年来,随着科技的发展和提高,城市规模与自然环境在不断更新变化,土地资源利用率不断提升,利用遥感影像对地物变化进行及时准确的检测、监控已成为环境资源调查和管理、城市
无线可充电传感器网络(Wireless Rechargeable Sensor Network,WRSN)使用主动充电的设备为无线传感器网络(Wireless Sensor Network,WSN)中的传感器节点补充能量并采集传感器
随着海洋资源在人类生产与生活中的地位日益重要,水下无线传感器网络(Underwater Wireless Sensor Networks,UWSN)的研究工作也得到了更多的重视。拓扑控制技术既关系着传感
随着传感器和信息技术的发展进步,高空间分辨率的高光谱图像分类技术得到了越来越多的研究和应用,如人脸识别检测、图像处理等领域。然而,高光谱图像在拥有丰富信息的同时,还