论文部分内容阅读
随着近年来学术网络信息的快速增长,对学术网络的管理与应用也变得尤为重要。学术网络是由论文、会议、作者等多种不同类型的对象构成。这些异构对象之间互相依赖,存在着紧密的语义关联。论文的内容从一定程度上反映了它的语义主题;作者会根据自身的研究兴趣来撰写论文,并投到相应主题领域的会议;会议也具有其主要的研究方向,这与其收录的论文与作者的研究兴趣相呼应。有效地挖掘学术网络中的语义信息,对于学术网络的充分利用具有非常重要的意义。对学术网络对象进行建模则是其中关键的一步。 学术网络的对象建模方法主要包括语言模型LM和几种常用的统计主题模型,如LDA、Author-Topic(AT)Model和Author-Conference-Topic(ACT)Model。LM、LDA和AT都只能实现对单个对象的建模,忽略了学术网络中对象之间的语义关联。ACT通过将网络对象映射到同一个主题空间,能够实现为异构网络中对象的统一语义建模。但很多时候词语主题与会议主题并不等价,相对词语表征的细粒度主题而言,会议所表征的语义主题属于粗粒度级别。因此,对于学术网络对象的统一建模与语义挖掘效果仍有待提高。 本文便基于统计主题模型的思想,对异构学术网络对象的统一语义建模问题展开进一步研究,具体包括以下三个方面的工作: 第一、提出一种新的统计主题模型Author-ConferenceTopic-Connection(ACTC)。通过挖掘学术网络中会议、作者和论文各个对象中隐含的语义信息,将这些异构对象分别映射到相应的语义主题层,从而实现对学术网络对象的统一语义建模。实验表明,ACTC模型对于学术网络对象具有较好的语义表征效果。 第二、将ACTC模型应用于学术检索,包括专家检索、会议检索、论文检索。ACTC模型能够更有效地挖掘学术网络对象之间的语义关联信息,利用挖掘到的潜在语义主题为桥梁,可实现根据查询词得到语义相关的专家、会议和论文。在实验中,将ACTC与几种常用的统计主题模型和统计语言模型进行了学术检索效果的对比,包括统计语言模型LM、LDA、AT以及ACT,并分析了基线方法的不足。 第三、利用ACTC模型构建计算语言学领域的学术网络检索系统ACLMiner。该系统通过为计算语言学领域中的学术对象进行统一语义建模,并挖掘所有论文、专家和会议的语义信息,从而为用户提供权威论文、专家和会议的语义检索服务。