Wikipedia文章生成及相关图片发现的研究与系统实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:sunshinexpsister
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为世界最大的在线百科全书,维基百科(Wikipedia)提供了大量人工编辑的文章,每篇文章都描述了一个著名或者流行的概念(Concept)。本文首先根据Wikipedia文章内容形式的不足之处,提出了为Wikipedia的文章发现高精度,高召回率和高多样性的图片这样一个问题,并且提出了一个综合的框架来解决这个问题。在这个框架下,本文提出了为每篇文章的不同段落生成查询的方法,并且介绍了两种方法来对获取的图片进行排序。实验结果显示本文的方法能够有效的为Wikipedia的文章发现高精度,高召回率以及高多样性的图片,同时,综合考虑图片之间相似度以及图片和段落相似度的方法达到的效果最好。其次,本文根据Wikipedia覆盖面的不足之处,提出了为任意Concept自动生成wikipedia文章的问题,以及解决这个问题的一般性的框架。在这个框架下,本文首先提出了一个Template的模型,这个模型能够有效的刻画Wikipedia一个类别文章之间共有的特点。之后,本文为每个类别学习出了Template。在此之上,对于给定的概念C,可以根据它的Wikipedia兄弟概念,为C选择最佳的Template,基于这个Template,可以构建查询直至最终生成文章。实验结果验证了本文的框架足够一般性来支持任意领域的Wikipedia文章的生成,同时,综合了输入概念同兄弟之间的语义关系以及Templates质量这两个因素的方法能够达到最好的效果。
其他文献
基于内容的音乐情感识别是近年来在音乐信息检索领域新兴起的重要研究课题之一。它的提出是为了解决不断增长的海量数字音乐的管理问题以及人们多样化的音乐检索需求问题。基
在互联网高速发展和个性化的需求日益增长的环境下,当前主流的基于轮廓线的字体描述方法处理以笔画为基本结构的汉字字符时,已经很难满足个性化的需求。因为在这样的描述方法
可靠性是衡量产品发生故障难易程度的—个指标,是产品的一种固有属性。在工程设计和航空航天领域,高可靠性产品才能满足现代技术和生产的需要,才可以获得高的经济效益和拥有
随着Web技术的不断发展,在线考试系统已经被广泛的应用到各个领域之中,对系统的性能和功能都提出了更高的要求。因此,能否提供更高效、更便捷、功能更完善的在线考试系统将是
访问控制是信息安全体系中非常重要的一环,是实现数据保密性和完整性机制的主要手段,访问控制模型及其扩展一直是一个重要的研究课题。随着应用系统复杂度的提高,复杂的应用环境
随着电子商务越来越受欢迎,网络上的产品评论数量获得快速增长。对于一个流行的产品,评论数量可以达到成千上万条。这使得一个潜在客户很难通过阅读这些评论来制定他们的购买
自然语言文本之间的推理和反义关系被视为文本语义关系的核心,在很多自然语言处理任务中(如信息检索,文档摘要,问答系统等)都有着广泛的应用。   自2005年第一届文本推理识别
随着信息时代的到来,产生了海量的数据,这些大量数据的背后隐藏着许多人们所需要的信息和知识,人们迫切需要将这些数据转换成有用的信息和知识。数据挖掘就是随着人们的这一
随着XML逐渐成为数据表示和数据交换的标准,XML在越来越多的领域得到了广泛的应用,XML文档的数量也在逐渐增多,如何从大量的XML文档中搜索出用户满意的结果已经成为数据库领
随着卫星系统在对地观测、定位导航、气象预报和空间目标监视等领域的广泛应用,保证卫星系统数据传输的机密性、完整性和可用性成为非常重要的问题。通过加密可以保证卫星系统