论文部分内容阅读
目的:
共词网络是由论文的关键词及其共现关系构成的一类特殊的科学知识网络,它不仅能够从微观层面揭示科学知识体系内部的实体关系特征,还能以其演化过程反映科学知识概念的增长规律,这对于情报学和科学计量学都具有重要的意义。而目前对于共词网络的研究大多集中于“描述”阶段。在信息爆炸的今天,仅仅“描述”并不能够满足人们的需求,而是要做到如何“预测”。如果我们能够对知识网络进行很好地预测,就能在一定程度上把握学科未来的发展方向。本研究以机器学习中的分类算法对主题词/副主题词的共词网络进行链接预测研究,并对各属性进行重要性排序,试图找到一种新的预测科学发展方向的途径。
材料与方法:
分别检索PubMed和CBM数据库中2004年至2008年医学信息学方面的文献,以论文的主要主题词/副主题词及其共现关系构建共词网络。抽取前四年中没有共现关系的主要主题词/副主题词词对为研究样本,计算各个词对的公共近邻、最短路径等属性值。利用Weka软件实施朴素贝叶斯、SMO、J48决策树三种分类算法,并通过属性选择对各属性的重要性进行排序。
结果:
PubMed中得到主要主题词/副主题词词对95302个,CBM中159044个。80%作为训练集,20%为测试集。三种算法得到的加权平均后的精确率、反馈率和F测量值都较高,其中SMO和J48结果一致。但在对共现词对的预测中,只有朴素贝叶斯算法正确预测出324个(PubMed)和161个(CBM),SMO和J48算法均未能得到预测正确的词对。
在属性排名上,对于PubMed数据,资源配置指标排名第一,Adamic-Adar指数其次,公共近邻排名第三,是否为高频词指标排在最后;对于CBM数据,Adamic-Adar指数的加权指标排在第一位,公共近邻的加权指标排在第二,资源配置指标位居第三,最短路径位于最后一位。
结论:
共词网络是科学知识网络的一种具体表现形式。通过链接预测技术,我们可以在一定程度上预测两个词在下一个时段是否能够共现,试图找到一种新的预测科学发展方向的途径。
本研究利用分类算法,对主题词/副主题词的共词网络进行链接预测研究,研究中选择的朴素贝叶斯、SMO和J48决策树三种算法的预测效果较差,只有朴素贝叶斯算法得到了正确预测的共现词对。在属性选择上,综合来看,资源配置指标及Adamic-Adar指数的加权形式指标在本研究中起到了更重要的作用。