基于统计主题模型的学术网络建模与应用

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:wenhua5623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来学术网络信息的快速增长,对学术网络的管理与应用也变得尤为重要。学术网络是由论文、会议、作者等多种不同类型的对象构成。这些异构对象之间互相依赖,存在着紧密的语义关联。论文的内容从一定程度上反映了它的语义主题;作者会根据自身的研究兴趣来撰写论文,并投到相应主题领域的会议;会议也具有其主要的研究方向,这与其收录的论文与作者的研究兴趣相呼应。有效地挖掘学术网络中的语义信息,对于学术网络的充分利用具有非常重要的意义。对学术网络对象进行建模则是其中关键的一步。  学术网络的对象建模方法主要包括语言模型LM和几种常用的统计主题模型,如LDA、Author-Topic(AT)Model和Author-Conference-Topic(ACT)Model。LM、LDA和AT都只能实现对单个对象的建模,忽略了学术网络中对象之间的语义关联。ACT通过将网络对象映射到同一个主题空间,能够实现为异构网络中对象的统一语义建模。但很多时候词语主题与会议主题并不等价,相对词语表征的细粒度主题而言,会议所表征的语义主题属于粗粒度级别。因此,对于学术网络对象的统一建模与语义挖掘效果仍有待提高。  本文便基于统计主题模型的思想,对异构学术网络对象的统一语义建模问题展开进一步研究,具体包括以下三个方面的工作:  第一、提出一种新的统计主题模型Author-ConferenceTopic-Connection(ACTC)。通过挖掘学术网络中会议、作者和论文各个对象中隐含的语义信息,将这些异构对象分别映射到相应的语义主题层,从而实现对学术网络对象的统一语义建模。实验表明,ACTC模型对于学术网络对象具有较好的语义表征效果。  第二、将ACTC模型应用于学术检索,包括专家检索、会议检索、论文检索。ACTC模型能够更有效地挖掘学术网络对象之间的语义关联信息,利用挖掘到的潜在语义主题为桥梁,可实现根据查询词得到语义相关的专家、会议和论文。在实验中,将ACTC与几种常用的统计主题模型和统计语言模型进行了学术检索效果的对比,包括统计语言模型LM、LDA、AT以及ACT,并分析了基线方法的不足。  第三、利用ACTC模型构建计算语言学领域的学术网络检索系统ACLMiner。该系统通过为计算语言学领域中的学术对象进行统一语义建模,并挖掘所有论文、专家和会议的语义信息,从而为用户提供权威论文、专家和会议的语义检索服务。
其他文献
当前计算机网络发展迅速,有关计算机网络上的信息安全及可靠传输已经成为人们关注的焦点。密码技术也成为网络安全和信息安全等领域一个十分重要的内容。同时中国相关法律明
传统的MCI检查方法周期长、误差较大。随着功能影像技术的发展,fMRI被逐渐应用到MCI诊断中,但是诊断仍需要依靠医生的经验,难以推广。利用数据挖掘技术分析fMRI数据,建立诊断
目前,很多复杂的计算机系统要求是高度可信的。针对这些系统,若存在系统故障将造成严重的后果。若想知道开发的系统是否达到用户的满意度,需对系统进行评估。可信是一个集合
材料中局域源快速释放能量产生瞬态弹性波的现象称为声发射(AE),声发射技术作为一种成熟的无损检测方法,现在已被广泛应用于许多领域。人们利用声发射技术可以确定声发射源的
近年来,遥感技术迅猛发展已经广泛渗透了国民经济各个领域,对于推动社会进步、经济建设、国防建设和环境改善方面都发挥了重大的作用。所有相关单位都或多或少的涉及了该技术的
数字图像已经成为一种新的信息传输媒体,数字图像有着其自身的特点和优势,数字图像包含的信息具有很强的直观性和简洁性。数字图像在形成、传输、生成等诸多过程中容易受各种
哈希函数是密码学的核心技术之一,在信息安全领域有着不可替代的地位。哈希函数因其单向的特性,在安全通信方面起着重要的作用,可用于保证数据完整性和实体认证,更是很多密码算法
随着互联网的迅猛发展,我们迈进了大数据时代。随之而来的信息超载问题也日益明显。推荐系统应运而生,在信息的生产者与消费者之间架起了沟通的桥梁,根据用户偏好将个性化信
中学数字化校园的建设工作已成为推进教育均衡化发展,引领教育现代化发展的核心推动力之一,如何提升总体设计水平,避免孤岛建设、重复建设等误区,成为该领域的重要研究问题。本文
粗糙集作为一种新的处理不精确、不确定和不完备数据的数学工具,已被广泛应用于模式识别、数据挖掘和决策分析等众多领域。粗糙集的主要应用是属性约简,属性约简在利用粗糙集技