基于排序的作者—话题模型算法研究

被引量 : 0次 | 上传用户:wild_lynx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Web2.0应用的流行,越来越多的互联网用户会积极的在网上发布文本,这使得同时获取文档和用户信息更加容易。同时,用户之间也会通过各种方式形成社会网络,这直接导致文本信息和网络结构的同步增长。以学术论文为例,因为研究人员会经常发表论文,不仅可以获取论文信息,同时可以自然的获取作者之间的论文合作关系网络。还可以很容易想到很多其他类似的文本附带网络结构的例子,比如网页附带超链接,文献附带引用关系等。因为具有良好的文档建模能力,话题模型广泛应用于大规模文档处理,如文本分类。然而已有的话题模型在建模过程中没有区分文档在不同话题上的重要程度,在对文档网络建模时,会丢失链接信息。通过结合基于链接的排序,研究了一个新的话题模型,即基于排序的话题模型。PageRank算法扩展用于计算文档在不同话题上的排序。基于排序的话题模型可应用于检索某一领域的优秀论文,对大规模文档按话题进行分类等。作者-话题模型用于同时从文档集中获取话题和作者兴趣。经典的作者-话题模型认为作者在所有话题上同等重要,然而,现实中作者在不同话题上具有不同的重要性,忽略该特性,将影响作者-话题模型的结果。延续基于排序的话题模型的思想,将链接排序加入作者-话题模型,提出了基于排序的作者-话题模型。基于排序的作者-话题模型将作者在不同话题上的排序值加入到Gibbs采样参数估计中。基于排序的作者-话题模型利用排序提高作者-话题模型的效果。基于排序的作者-话题模型可应用于检索某一领域热门研究人员,为投稿论文推荐评审人等。在Arnetminer平台提供的一个引用网络数据集上进行实验。实验结果显示基于排序的作者-话题模型具有较好的模型泛化能力。同时,定性和定量衡量了基于排序的作者-话题模型所探测的话题的可解释性。
其他文献
产品是企业的灵魂。——史蒂夫.保罗.乔布斯 从1946年世界第一台计算机发明至今的60多年IT史,好产品乱花迷眼。例如,1972年王安推出字处理系统、1979年第一个PC杀手应用VisiC
目的探讨几种相关因素对脑卒中后抑郁发生的影响. 方法对195例脑卒中偏瘫患者,分别以不同家庭背景、脑损害部位及日常生活活动能力(ADL)积分情况分组,观察其卒中后抑郁发生率
室内装修所用材料会产生污染性气体,破坏室内空气环境,对人类健康造成危害。在众多污染性气体中,甲醛、氨气和苯的危害较为严重。去除室内空气污染物的方法中,纳米光催化技术因其
选择岩溶科学作地学发展的有限目标,系基于我国岩溶的地域优势、相对的人才优势及岩溶在社会经济发展中的重要地位。为目标的实现,分别就岩溶基础理论的发展,应用岩溶学工作
哈尼族梯田文化是哀牢山地区哈尼族在漫长历史发展进程中以梯田为主要物质载体、以梯田生产生活为核心创造的物质财富和精神财富总和。其内涵丰厚、独特,其成因有特定的自然
自20世纪90年代以来,河南省各地相继修建了数量可观的橡胶坝,这些橡胶坝充坝介质全部是水,充坝水应是不含杂质和腐蚀性物质的洁净水。根据河道地质、自来水管网设置和地下水
SIMCA采用PCA模型参数和F检验构造计算T2i/T2ucl和Si/Q统计量作为样本分类的新属性,并计算待测样本到各类主成分空间的欧式距离作为判别类别的依据,是一种最常用和优秀的光谱
奶牛免疫不孕严重影响奶牛正常繁殖,相对于其他不孕类型不容易被确诊,准确对孕牛与不孕牛之间宫颈粘液抗精子抗体(ASA)的差异进行定性和定量分析,对奶牛免疫不孕的治疗研究有
弯颈霉属(Tolypocladium)是W.Gams于1971年建立的新属,该属的特点是瓶梗基部呈球形或椭圆形的膨大,瓶颈细长而弯曲,分生孢子单生或黏聚成小头状,至目前国际真菌名录数据库中
随着我国社会经济发展对石油、天然气等能源的大量需求,长距离油气输送管线工程建设对大口径、高强度、高韧性的大型直缝焊管的需求量与日俱增。这为钢管制造业提供了前所未有