社区问答检索系统的设计与实现

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:cats2106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,充满交互性的社区问答,作为一种以用户为中心的新型问答方式,由于其答案的通常都是经过了人工筛选,具有较高的质量,因而相比传统问答系统的准确性更高,但是由于其答案的获取并不是实时的,不能为用户提供最好的用户体验,也是导致社区问答不能继续发展的主要弊病。所以越来越多的研究者将重点放在如何检索已有的问题,找出与用户提问类似的问题并返回给用户,以达到实时的目的,即社区问答检索(Question Retrieval),社区问答检索系统即是依此为依托的。目前的社区问答检索系统已有不少,但是已有的系统主要有两方面的问题:1)由于依靠词典的同义词扩展方式造成的扩展前后语义不符的问题;2)由于自然语言描述句子的复杂结构和冗长句式导致问句重要词项发现困难的问题。因此本文主要根据以上弊病,设计并实现了社区问答检索系统,使用融合word2vec扩展的词项扩展方法并度量其相似度的方式改善同义词扩展语义不符的问题,同时使用依存关系重要度发现问句中重要词项,为其设置较高的权重,从而提升社区问答检索系统的效果。因此本文的主要研究内容如下:首先设计并实现了社区问答检索系统系统,对检索系统的架构、功能模块、系统详细流程等进行设计,并介绍了各个功能模块的算法流程和实现过程,在检索系统的最核心的检索模型部分,根据目前检索系统存在的问题,为检索系统融入了新的检索模型以解决目前存在的问题。其次提出了融合word2vec的扩展方法,根据现有的词项扩展方法认为扩展词与原始词相同而可能造成语义不符的问题,提出本文采用的融合word2vec的词项扩展方法,在传统扩展方法的基础上使用word2vec引入语义扩展并获得其相似度,然后将两种方式得到的扩展词及其相似度融合后得到新的词项扩展集及其相似度集,用于计算扩展词项的词项权重,以提高检索系统的有效性。然后根据当前的社区问答检索系统中的问句检索模型由于问句结构复杂和句式冗长而无法发现其中重要词项的缺点,提出了基于依存关系重要度的问句检索方法,创新性的为不同的依存关系设置了重要度度量以表示问句中词项之间的关联紧密度,进而将重要度度量应用到词项的权重设置中,得到词项权重以发现问句中的重要词项,然后根据融合word2vec扩展的词项及相似度得到扩展词项权重,最后使用检索模型检索并与未扩展的结果组合再降序排列,得到最终检索的检索结果,以提高检索系统的效果。最后设计实验验证本文提出的方法的有效性,然后给出系统的界面运行图以证明系统的可用性。
其他文献
随着互联网的日益普及和信息传输技术的快速发展,互联网进入了多媒体通信时代。面对有限的网络带宽,流媒体技术为实现实时的网络音视频传输提供了条件,以P2P技术为核心的流媒
目标跟踪是无线传感器网络中研究的一个重点领域,传统的研究方法通常将目标作为一个点来跟踪,但是对于分布密集的目标群来说,这种假设并不合适。为此,在综合分析国内外大量文
本文在Agent技术的基础上,以政策为线索建立了一种新型的政策驱动的Agent行为模型。全文将从政策驱动的单个Agent的行为模型、政策驱动的多Agent协作模型和政策驱动的多Agent
针对遥感影像数据,如生物物理参数产品、大型工程评价区生物环境变化监测产品、国家级自然保护区植物优势群落监测、国家级自然保护区生境破碎状况预警产品、土壤遥感应用产品、区域生态环境灾害遥感应用等进行生产、加工、处理时,第一步要对遥感影像数据进行分割目标,并通过目标识别来提取所需要的信息,第二步是将分割目标结果进行分析,并进行目标识别处理等,这个过程称之为连通域标记。那么,为实现遥感影像数据进行连通域并
随着嵌入式系统与网络的日益结合,如何保证嵌入式系统间重要数据的安全通信,成为嵌入式领域中重要的研究方向。由于SSL协议为TCP层提供安全服务,能有效防止长期困扰人们的许
在网络和多媒体技术飞速发展的今天,数字作品的知识产权保护和内容完整性认证成为人们亟待解决的迫切问题。传统的密码技术由于自身的缺陷已经不能满足人们的需要,在此背景下
网络交易的日益风行,使传统的版权保护手段和数据安全技术面临极大的挑战和某些难以克服的困难。数字水印技术正是通过特定的算法将版权信息嵌入到多媒体数据中,且不影响原媒
学位
随着经济的发展和城市化进程的加快,城市人口的增长、机动车拥有量的增加、城市形态的变化以及社会活动规模的增加都给大、中城市的交通及其管理系统增加了越来越重的负荷,交通
人脸识别技术因其具有重要的科学意义和实用价值,在近几年得到了研究者的高度重视,成为当前模式识别和人工智能领域的一个研究热点。人脸识别一般分为人脸检测、特征抽取和模