基于共词网络的链接预测研究

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:lrqnm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:   共词网络是由论文的关键词及其共现关系构成的一类特殊的科学知识网络,它不仅能够从微观层面揭示科学知识体系内部的实体关系特征,还能以其演化过程反映科学知识概念的增长规律,这对于情报学和科学计量学都具有重要的意义。而目前对于共词网络的研究大多集中于“描述”阶段。在信息爆炸的今天,仅仅“描述”并不能够满足人们的需求,而是要做到如何“预测”。如果我们能够对知识网络进行很好地预测,就能在一定程度上把握学科未来的发展方向。本研究以机器学习中的分类算法对主题词/副主题词的共词网络进行链接预测研究,并对各属性进行重要性排序,试图找到一种新的预测科学发展方向的途径。   材料与方法:   分别检索PubMed和CBM数据库中2004年至2008年医学信息学方面的文献,以论文的主要主题词/副主题词及其共现关系构建共词网络。抽取前四年中没有共现关系的主要主题词/副主题词词对为研究样本,计算各个词对的公共近邻、最短路径等属性值。利用Weka软件实施朴素贝叶斯、SMO、J48决策树三种分类算法,并通过属性选择对各属性的重要性进行排序。   结果:   PubMed中得到主要主题词/副主题词词对95302个,CBM中159044个。80%作为训练集,20%为测试集。三种算法得到的加权平均后的精确率、反馈率和F测量值都较高,其中SMO和J48结果一致。但在对共现词对的预测中,只有朴素贝叶斯算法正确预测出324个(PubMed)和161个(CBM),SMO和J48算法均未能得到预测正确的词对。   在属性排名上,对于PubMed数据,资源配置指标排名第一,Adamic-Adar指数其次,公共近邻排名第三,是否为高频词指标排在最后;对于CBM数据,Adamic-Adar指数的加权指标排在第一位,公共近邻的加权指标排在第二,资源配置指标位居第三,最短路径位于最后一位。   结论:   共词网络是科学知识网络的一种具体表现形式。通过链接预测技术,我们可以在一定程度上预测两个词在下一个时段是否能够共现,试图找到一种新的预测科学发展方向的途径。   本研究利用分类算法,对主题词/副主题词的共词网络进行链接预测研究,研究中选择的朴素贝叶斯、SMO和J48决策树三种算法的预测效果较差,只有朴素贝叶斯算法得到了正确预测的共现词对。在属性选择上,综合来看,资源配置指标及Adamic-Adar指数的加权形式指标在本研究中起到了更重要的作用。
其他文献
根据我国高技术产品进出口统计数据显示,近年来我国高技术产品出口增长迅速,对商品出口的贡献越来越大,对我国外贸竞争力的影响也更加明显。随着我国高技术产品贸易地位的提升,相
纳米技术是2l世纪科技发展的制高点,将给医学、制造业、材料和信息通信等高新技术行业带来革命性的变化。鉴于纳米技术对国家未来经济、社会发展及国防安全具有重要意义,世界各
政策文本条文繁杂,更新速度快,具有多歧性,其分析的需求越来越大;传统的分析手段效率低,分析内容有限,在数据时代的分析方法亟待创新;同时国家也在大力推进科技成果转化事业,
随着Web2.0技术的发展,互联网又迎来了另一个高潮,其中社交网站更是被用户所热捧,它已经成为覆盖用户最多、传播影响最大和商业价值最高的Web2.0业务。社交网站作为全球用户最大
近几年,地震、洪水、沙尘暴、泥石流、台风等一系列重大自然灾害对人们的生命财产造成巨大损失,严重影响社会、经济发展的同时给档案文献的安全保护工作带来前所未有的挑战。
随着计算机技术和互联网技术的发展与进步,互联网迎来了web2.0时代,它主要是相对于web1.0时代而言的。它的出现给各行各业都带来了深深的影响,尤其是在当今注重个人发展、提
基础理论是学科发展的基础。对档案学基础理论研究的状况与趋势进行分析,能够了解近十年我国档案学基础理论取得的成果、呈现的特点趋势、研究中存在的不足等。近十年来,我国
Tim Berners-Lee在1998年提出了语义网的构想,并且于2000年12月在XML2000会议上正式提出了语义网的概念和体系结构。语义网的核心是:通过给万维网上的文档添加能够被计算机所理
本文针对目前高校图书馆社会化信息服务难以满足社会对深层次信息服务的需求的问题,探索性地提出了高校图书馆的一种新型的服务——智库服务。  本文首先对高校图书馆开展智
[目的/意义]基于知识网络的核心-边缘结构揭示Folksonomy知识组织模式中标签层级演化的模式与规律,对洞悉开放网络环境下知识组织的层级结构具有重要意义.[方法/过程]以网络