论文部分内容阅读
在大数据时代,用户面临对海量数据进行有效概括和快速定位的问题。将同一概念的相关内容以专题的形式展现给用户是解决上述问题的有效途径,如百度百科和维基百科等都以目录的形式来组织内容。然而,现有的百科系统尚存在内容不够丰富、目录不够完善等问题,因此需要自动生成知识专题。自动生成知识专题的核心问题在于如何为(新)概念推荐更完善的目录来组织相关内容,即通过具有层次性的描述词来描述概念,以此来组织图书和互联网等资源,从而形成有序的专题。 鉴于此,本文提出了两种面向概念的描述词推荐算法,为(新)概念推荐更完善的内容组织体系,将分散在数字图书馆、互联网中的相关内容进行有效组织,自动为概念构建知识专题。论文的主要工作如下: 1.提出了基于二部乘积图的描述词推荐算法。将概念描述词的推荐问题转化为二部图的预测问题,结合乘积图上的直推式学习的转导和推理,完成概念描述词的推荐与排序,同时优化了图模型的计算瓶颈问题。 2.提出了引入标签信息的神经协同过滤推荐算法。通过引入概念的标签信息,提高了概念的语义向量表达能力;然后,通过融合广义矩阵分解模型和多层感知机模型来推荐概念的描述词。该算法改善了图模型计算复杂且不能保存的缺点,提高了概念、描述词的隐语义表达能力。 3.实现了面向概念的描述词推荐算法,并基于该算法为工程科技知识中心项目搭建了图书专题自动生成系统。