基于文本和非文本特征的问句检索

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wkylyf001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术的快速发展,互联网在生活着得到了普遍的应用。社区问答系统也随着Web2.0时代的到来,吸引大量的用户,积累了大量的信息,逐渐成为最流行的社交网络应用之一,是人们在网络上获取知识和信息的必要途径。相较于搜索引擎返回大量的相关文档再生成答案,或由用户去自行筛选答案,社区型问答通过用户直接自己提问来获取相关和正确的答案,答案的质量和相关性比前者要高出不少。社区型问答为人们获取信息提供了方便快捷的方式,然而却依然存在着一些问题,比如用户等待答案时间长,问题冗余,零答案问题多等。为了减少冗余问题,缩短人们等待答案的时间,提高社区型问答问句检索的性能,我们结合问句的文本特征和非文本特征,对于用户检索的问句返回给已有较高质量答案的相似问题。本文对问句检索展开研究,主要是为了解决问句的相似性和返回的问答对质量。通常问句相似是从基于词法、语法或语义的角度考虑,这里基于语义的问句检索通常会表现出更好的效果,使用word2vec来表示词向量,利用融合了语义信息在里面的词向量计算文本距离,和传统方法比较时,在MAP和p@N评价指标上都取得了显著的提升。其次,研究影响问答对的问句补充信息,答案质量和答案作者等因素,分别考虑它们的内在特征并探讨特征的重要性。问句的补充信息,越详细越能使他人理解提问者的意图从而给出适合的答案;高质量的回答者和答案个数以及占比越多,该问题就越值得被其他人查阅。最后结合三者计算出问答对的质量分数。在ROC数值和F1上,实验结果表示可以有效的预测出高质量问答对。最后在根据文本相似度检索出的问句基础上,结合这些检索出问句的质量分数,重新排序,得到最后的结果。将模型在网上真实爬取的数据集上进行测试,实验结果显示,在加上问答对质量分数后,传统方法和基于word2vec的文本编辑距离都在MAP和p@N值有了进一步的提高,其中基于word2vec的文本编辑距离取得了最好的表现效果。
其他文献
不管是哪个学科都需要作业来加以辅助教学,新课程改革要求小学数学教师要不断的更新自身的教育理念,重视小学数学作业对学生能力提升和知识巩固的重要作用。小学数学作业的设
软件缺陷预测是一项重要的质量保证技术,它通过利用软件仓库中的历史数据和已经发现的相关缺陷信息,来预测软件模块中可能存在的缺陷。但是,大多数的缺陷预测技术,都假设有大
高校思政课是落实立德树人的根本任务的关键课程。为贯彻落实《国家中长期教育改革和发展规划纲要(2010—2020年)》和《教育信息化十年发展规划(2011—2020年)》全国各高校的
利用数显拉压力计对国家果树种质郑州葡萄圃4个种群的600份葡萄种质资源的耐拉力和耐压力特性进行了鉴定评价,对其果柄耐拉力和果实耐压力按具体数值范围划分了不同的等级。
近年来,基于位置的社交网络(LBSN)得到迅速地发展,如Foursquare,Whrrl,Facebook Places。因为兴趣点(POI)推荐可以帮助用户探索新的地方以及协助第三方业务提供个性化的服务,
随着计算机与网络技术的普及,当今社会的信息量随指数形势增长,我们进入了信息爆炸的时代,每时每刻都有海量的数据产生,比如城市交通数据、商品价格数据、人们的消费数据,上
关联成像,又称为鬼成像,因其新颖的物理特性,近年来成为光学成像领域的研究热点。关联成像是一种利用两路相关光进行成像的新型成像机制,其中一路光直接照射物体后经桶探测器
推荐系统作为个性化信息服务和决策支持领域的关键分支,由于其广泛的应用场景和极大的商业价值,近年来一直是学术界和工业界的研究热点之一。推荐系统的关键是推荐算法。其中
草图是产品设计的雏形,设计者绘制草图时无需关注过多的细节,同时也不需要掌握像CAD中繁杂的工具使用技能,只需要纸和笔就能够快速、流畅的完成设计稿。如果要将这种原生设计图转变成可以在计算机中表示并且能进一步编辑修改的矢量图,就需要对草图做简化处理并进行适当的矢量化。目前这部分转化工作有时需要靠人工完成,即将草图导入某些编辑软件中,人工描边完成简化和矢量化,这项工作费时又费力,为了改进这种工作方式,于
党的十九大报告关于民生发展方向的建议中指出要全方位多层次地推进医养结合,在整个国家范围内构建孝亲敬长的氛围和制度完善的服务体系,更符合现代社会老年人对理想晚年生活的向往。黑龙江省作为人口大省,在近年来年轻人口长期外流与老龄化压力增加形成鲜明的对比,尤其是收入低生活困难老年人的家庭本就缺乏劳动力。从社区、养老机构和医院三个着力点出发,其宗旨是实现医、养的的功能互补、相辅相成。全国各地积极响应应对老龄
学位