虚拟问答社区中面向查询结果的代表性答案提取研究

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:Tianzhh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,虚拟问答社区已成为了一种热门的知识服务平台,用户可以在其中提出问题或解答问题。为了增强知识共享,社区还为用户提供了输入内容查询相关答案的功能,但社区返回的查询结果通常只是一个与查询内容相关并且具有海量信息的问答列表,并且存在以下问题:查询结果中包含了大量的问答对,同时每一个问题下也包含了大量的答案,用户难以在有限时间内浏览完全部的答案;与此同时,不管是查询结果中的问答对、还是其中每个问题下包含的所有答案信息,都存在着大量冗余。因此用户只能自发挑选答案进行阅读,从而难以获取完整全面、有效的知识,容易导致用户的认知偏见。为了缓解这一问题,本文提出了一种面向查询结果的代表性答案提取方法,旨在根据用户查询结果为其提供一个能全面覆盖并满足用户知识需求、同时具有丰富、低冗余、专业的知识内容的代表性答案子集,以此提高用户获取有效答案的效率并实现虚拟问答社区知识资源的重用。本文首先使用BTM主题模型对问题与答案建模,然后基于连续的单目标亨利气体溶解度优化算法(HGSO)对其进行离散化改进,并与迭代自组织数据分析算法(ISODATA)集成,采用集成后的HGSO-ISODATA聚类算法分别对建模后的问题与答案聚类,以此得到更好的聚类结果。然后基于查询结果与代表性答案的相关特征,以某答案是否被提取为代表性答案作为决策变量,以代表性答案子集的提取规模作为约束条件,以问题覆盖度、问题一致性、答案覆盖度、答案冗余度、答案一致性作为目标函数,构建了面向查询结果的代表性答案高维多目标优化提取模型。与此同时,本文基于现有的单目标连续型HGSO算法,提出了二元高维多目标亨利气体溶解度优化算法(BHMO-HGSO),以此求解高维多目标优化提取模型。最后,本文在两大虚拟问答社区—“知乎”与“百度知道”中获取了真实数据集,分别将本文提出的HGSO-ISODATA聚类算法与其它聚类基准算法进行对比实验,同时将本文提出的BHMO-HGSO算法与其它多目标优化基准算法进行对比实验,最终实验结果表明本文提出的方法切实可行且性能良好。
其他文献
三维重构技术目前已经广泛应用于精密检测、辅助医疗、无人驾驶、人脸识别、安检物流、增材制造等领域。标定是三维重构技术系统中的关键步骤。然而,在传统的校准过程中,由于校准板基于二维模型,校准板的平整度和照片拍摄的角度将会影响到后续基于特征点拼接步骤的精度。此外,照片的数量过少也会影响校准结果,为了提高校准精度,需要尽可能的拍摄多张照片。因此,本研究的主要目标是实现系统参数的简单、快速、高精度的校准,满
学位
随着摄像机网络部署的升级和扩张,智慧城市的不断建设,监控视频已经成为主流的数据来源。海量的视频数据造成了人工研究的负担,行人重识别技术开始飞速发展。然而基于有监督的行人重识别研究,需要大量的人力对行人身份信息进行标记,从而不能满足海量视频的研究。因此越来越多的研究人员开始关注无监督的学习,采用无标签的数据集训练网络,模拟真实的监控环境,会使模型更加实际可靠。此外,当前行人重识别研究多是基于静态的单
学位
“富煤、贫油、少气”是我国现实的能源禀赋。目前,我国油气产业的可持续发展面临国际油价低迷、国内常规油气勘探开采难度日益增大以及环境规制强度不断提升的多重压迫。在这样的背景下,油气产业技术创新更需要找准创新方向,突破“卡脖子”的核心技术,制定合理的油气产业技术创新发展战略。本研究基于Derwent专利数据库,从油气产业授权的发明专利视角出发,首先分析油气产业技术创新分布规律,然后运用社会网络分析方法
学位
随着环境问题和能源危机的日益凸显,依据国内外地区的经验和各国有关政策,能源转型是解决此问题最有效的方法。风电作为新能源发电中研究最多的一部分,逐渐成为了新能源发电的主流。以风电为代表的可再生能源发电代替传统的化石能源发电也是大势所趋。但是由于风电出力的随机、间歇、难以准确预测的特性,大规模的风电并网给电力系统的可靠运行带来了巨大的挑战,所以提供充足的旋转备用容量就显得十分有必要。尤其是由于负旋转备
学位
目前JPEG图像作为信息的重要载体,是人们获取信息的主要来源之一。随着各种图像编辑工具的普及,JPEG图像很容易被篡改,对其进行取证研究刻不容缓。在图像伪造过程中,通常会对篡改区域进行重采样操作(旋转、缩放、扭曲等),使合成的伪造图像更加逼真。因此,重采样痕迹取证有助于鉴别图像的真伪,具有较高的理论研究意义和实用价值。现有的JPEG图像重采样检测仍存在一定的难度与挑战。一方面针对JPEG图像降尺度
学位
机器学习模型在生产、流通、销售和服务各个环节都有广泛应用,但随着大数据时代的来临,可用于分析的数据急剧增加,导致模型结构日益复杂,逐渐失去可解释性。为提升复杂模型的可解释性而提出的事后解释方法目前已经取得一些成果,但仍存在若干科学问题亟待解决。针对事后解释方法中存在的部分问题,本文进行了改进研究。首先,系统梳理相关研究,对事后解释方法的种类及每一类方法的优缺点进行归纳总结。其次,在此基础上提出一种
学位
机器人是人工智能的产物,彰显了一个国家的科技力量。路径规划是机器人最关键的技术之一,旨在寻到起点与终点间的最短路径,属于典型的最优化问题。蚁群算法属于经典的群智能算法,善于解决旅行商问题(Traveling Salesman Problem,TSP)等最优化问题。蚁群算法具有收敛速度快、求解质量高等优点。然而,在解决大规模问题时,蚁群算法容易陷入局部最优。为了使蚁群算法更好地解决大规模问题,本文对
学位
近年来,我国的能源需求量不断增加,而石油和常规天然气增量有限,增速较缓,威胁我国能源安全,加大了对外依存度。页岩气作为低碳能源,资源量丰富,大力扶持页岩气产业的发展已是大势所趋。目前,我国页岩气经济效益不佳,但伴随产生的生态和社会效益日益显现,建立综合效益评估模型可以实现对项目的全面评估,对企业正确选区,国家制定适宜的页岩气等非常规天然气补贴政策以推动产业发展具有重要作用。本文对页岩气开发利用的综
学位
生物行为分析在神经学、药物学、疾病治疗和认知科学方面有着重要的研究意义。随着计算机视觉、图像处理和MEMS等检测技术的发展,生物行为自动分析系统的设计实现,可以大幅提高传统人工识别与分析方式的工作效率。本文以小鼠为实验对象,设计了一款基于多传感器信息融合的生物行为分析系统,重点研究基于视觉传感器小鼠行为分析中的图像预处理、目标检测、目标特征信息提取、小鼠运动参数计算等关键技术;以及基于IMU传感器
学位
作为一个纺织服装生产、出口、消费大国,中国纺织产业对质量检测提出了更高的要求,而传统的织物结构与外观分析测试方法难以满足现代纺织行业标准和需求,因此,亟需构建一套客观、精确、高效的织物结构以及外观分析系统,提升相关行业检测的效率和准确性。织物结构和外观的智能化分析,不仅是检测领域的难点,也是纺织工业智能化、数字化发展的研究热点。现有研究提出的客观分析方法大多是基于织物二维图像的,受织物纹理和颜色影
学位