基于文献相似性网络节点属性的论文重要性评价模型的构建及评估

来源 :中国医科大学 | 被引量 : 0次 | 上传用户：lsui321

【摘要】

：

【作者】

：

潘现伟

【机构】

：

中国医科大学

【出处】

：

中国医科大学

【发表日期】

：

2022年01期

【关键词】

：

论文评价文献相似性网络复杂网络分析 Doc2Vec算法机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目的:科研评价和数据分析是卫生事业管理领域的重要研究方向之一,目前科研评价相关研究主要集中在科学学和信息学领域,从卫生事业管理角度进行的科研评价研究较少。学术论文评价是科研评价的基础,存在于多个科学研究活动中,比较重要的应用是在科研机构、团队和个体的科研绩效评价中,在科研资源分配、科研奖励、职务升迁等决策中同样占有重要地位,是科研管理和评价的刚需。传统的学术论文评价多采用引文计量的方式,但是引文表现的是论文的影响力,属于论文的外部特征,而且存在学科引用行为的差异、自引和他引的区分以及时间上的滞后性等问题,尤其通过期刊影响因子来代替单篇论文质量的做法,使得论文评价在实践中广受诟病。学术论文学术水平和创新贡献是科研管理和评价的重中之重,论文评价的本质应该是对论文内容价值的评价,由学术论文的自身内容和所处环境共同决定。论文内容是学术论文的根本属性,基于论文内容这一根本属性进行的评价才能客观真实地反映论文本身的价值。基于学术论文内容的评价研究分为定量评价和定性评价,而目前存在的基于内容的评价方法忽视了论文在整个科学体系中的作用,即个体对于整体的贡献程度,而论文重要性的评价更多的意义在于该论文在科学发展进程中所起的作用,因此应该寻找能够从科学整体性上揭示论文重要性的可行性方法,从系统科学的角度对学术论文的质量进行系统评价。文献网络的论文节点对于网络整个结构的意义与一篇论文对于整个学科结构的意义存在某种程度的契合,为我们从文献网络的角度评价一篇论文在整个学科中的重要性提供了新的思路,而通过构建文献网络,从网络的整体结构评价一篇论文的重要程度的相关研究还不够系统。本研究的目的是通过构建文献相似性网络,从网络的整体角度根据节点属性评价论文的重要性,从而构建论文重要性评价模型,探讨从文献网络的角度评价论文质量的可行性,以期为从系统科学的角度评价论文质量提供新的思路和方法。方法:根据ESI学科分类体系选择八个医学相关学科,下载Pub Med数据库和Web of Science数据库中的文献,形成八个学科文献数据集,根据文献是否被Faculty Opinions数据库收录将每个数据集中的文献标记为F1000论文和非F1000论文两个类别,以此作为数据集中重要论文和普通论文的分类标准。采用三种文献网络构建方法对八个学科文献数据集进行三种文献网络建模:利用R语言编程实现基于文献主题词和分类号层级关系的语义相似性文献网络的构建;利用Python编程语言实现基于Doc2Vec算法的内容相似性文献网络的构建;利用Bicomb2.0和VBA编程语言实现基于文献参考文献共现频次的文献耦合网络的构建。根据三种文献相似性网络的相似性分值分布情况,对语义相似性文献网络和内容相似性文献网络的阈值进行设定,语义相似性文献网络阈值设置为0、0.05、0.1、0.15、0.2、0.25、0.3、0.4和0.5,内容相似性文献网络阈值设置为0、0.1、0.2、0.3、0.4和0.5,文献耦合网络不设阈值的限制。基于复杂网络分析法,利用Gephi网络可视化软件对三种文献相似性网络的整体属性和节点属性进行计算,获得三种文献相似性网络的基本属性数据。在每个文献相似性网络中存在两种节点:F1000论文节点和非F1000论文节点,探讨这两类论文在节点属性上是否存在差异,哪些指标存在差异,对各个网络中的两类节点的属性进行了统计学差异性检验,检验方法为独立样本t检验,据此筛选出具有差异性的节点属性作为区分两类节点的评价指标。在基于筛选出的评价指标构建论文重要性评价模型的过程中,我们采用四种机器学习的算法,分别是贝叶斯分类算法、BP神经网络算法、懒惰分类算法和随机森林算法,对三种类型的文献相似性网络节点数据集进行论文重要性评价模型的构建。从论文重要性评价模型识别F1000论文和非F1000论文的精度、查准率、查全率、F-值、AUC、PRC面积等六个指标评价模型的性能优劣,探索适用于论文重要性评价的文献网络类型和机器学习算法。结果:利用三种文献网络构建算法计算八个学科文献数据集中的文献相似性,我们针对每个学科分别构建出语义相似性文献网络、内容相似性文献网络和文献耦合网络。三种文献相似性网络在相似性分值的分布形态和网络拓扑结构上存在差异,语义相似性文献网络和文献耦合网络的相似性分值存在较高比例的极低值,内容相似性文献网络的相似性分值呈正态分布,相似性分值在[0.198-0.26]区间的比例最高。语义相似性文献网络和内容相似性文献网络在阈值为0时的网络拓扑结构不清晰,所有节点紧紧连接成一个大的团簇,需要提高相似性分值的阈值使网络的拓扑结构更为清晰,文献耦合网络的网络拓扑结构比较清晰。通过设定阈值,最终我们得到八个学科不同阈值不同类型文献相似性网络共128个,以及这些网络的整体属性和节点属性。在F1000论文和非F1000论文两类节点的属性差异性t检验中,我们筛选出具有五个及以上差异性指标的有效网络38个,以及具有差异性的节点属性指标共十个:权威值、特征向量中心性、度、三角形数目、调和接近中心性、加权度、Page Rank、接近中心性、度变异系数和聚类系数。对三种文献网络的节点数据集进行机器学习构建出四种论文重要性评价模型。三种文献网络节点数据集中F1000论文比例非常低,在4%-7%之间。基于信息增益理论对不同类型文献网络的指标重要性进行排序,结果发现,三种类型文献网络的指标重要性排序情况不同,而Page Rank指标在三种类型文献相似性网络的重要节点识别中能力均较强,其次是度变异系数。四种论文评价模型的混淆矩阵中,贝叶斯分类器识别F1000论文数量最多,语义相似性文献网络、内容相似性文献网络和文献耦合网络识别出的F1000论文数量分别是143篇、41篇和81篇,查全率分别为0.126、0.129和0.345。BP神经网络算法识别出的F1000论文数量最少。从论文评价模型的评估指标来看,贝叶斯分类器、BP神经网络、KStar和随机森林算法训练的论文评价模型平均精度分别是88.08%、94.60%、92.66%和94.51%,在F1000分类中,三种类型文献相似性网络在四种算法上的AUC均值分别是0.633、0.679、0.636和0.673,PRC面积均值分别是0.092、0.118、0.097和0.122。从文献相似性网络的类型角度分析,内容相似性文献网络在F1000分类中精度最高,四种分类算法平均精度为94.60%,文献耦合网络在AUC和PRC面积两个指标中表现最好,四种分类算法平均AUC和平均PRC面积分别是0.707和0.145。结论:通过构建文献相似性网络,根据两类节点属性的统计学差异筛选评价论文重要性的指标,利用机器学习算法构建论文重要性评价模型的方法是可行的。同一类型文献相似性网络中,八个学科在网络结构和识别重要节点的能力上存在差异,文献相似性网络的平均距离越小,识别重要节点的能力越强。三种文献相似性网络构建的论文重要性评价模型性能差异较小,内容相似性文献网络和文献耦合网络构建的论文重要性评价模型性能略优于语义相似性文献网络。在构建论文重要性评价模型的机器学习算法上,随机森林算法表现最好,其次是BP神经网络算法,贝叶斯分类算法和KStar算法的表现略差,但是后两者在识别F1000论文的数量中表现较好。

其他文献

单壁碳纳米管在非铁族金属上的手性选择生长

单壁碳纳米管作为独特的一维纳米材料,具有优异的电学、光学和力学性能,与硅相比具有电阻小、产热少等优势,被寄望于取代硅材料制备半导体芯片并实现技术超越。然而,单壁碳纳米管手性结构多样性和由此导致的电学性质差异阻碍了这一美好愿景的实现。获得结构均一的单壁碳纳米管主要有两种途径,一是对生长的单壁碳纳米管进行手性筛分,另一种是直接选择性生长特定手性结构的单壁碳纳米管,后者更为经济高效。在化学气相沉积法实现

学位

单壁碳纳米管手性选择生长化学气相沉积法非铁族催化剂

水利工程招投标的特点与投标策略

水利工程与生活实际之前具有紧密的联系，属于公益性质事业，在推动城乡一体化规划与建设，以及推动社会产业经济发展方面发挥重要作用。其中对招投标进行规范化管理是水利工程的主要内容，是前期工程阶段的工作项目。水利工程发展会出现更多新的机遇，同样也会不断遇到挑战，要在激烈的市场竞争压力中获得先足发展地位，相关机构、企业等需要不断优化水利工程规划方案，全面分析招投标的特点，从中发现招投标中存在的问题，并制定对

期刊

水利工程招投标特点策略

农村消费提质升级的新思考

新经济背景下促进我国农村消费,是扩大内需、全面推进乡村振兴的重要举措,有助于构建以国内大循环为主体的新发展格局。为实现农村消费提质升级,本文以农业供给侧结构性改革为切入点,探究了农业供给侧提振农村消费的传导机制,提出以推动农贸市场升级、强化农村物流环节等措施建议。

期刊

农村消费农业供给侧传导机制

基于随机Transformer的多维时间序列异常检测模型

针对已有基于变分自编码器（VAE）的多维时间序列（MTS）异常检测模型无法在隐空间中传播随机变量间的长时依赖性问题，提出了一种融合Transformer编码器和VAE的随机TransformerMTS异常检测模型（ST-MTS-AD）。在ST-MTS-AD的推断网络中，Transformer编码器产生的当前时刻MTS长时依赖特征和上一时刻随机变量的采样值被输入多层感知器，由此生成当前时刻随机变量的

期刊

随机Transformer变分自编码器多维时间序列异常检测

企业价值评估中折现率模型的应用研究

在企业价值评估实务中,收益法是各评估机构使用频率最高的方法。收益法的主要参数为收益额、收益期和折现率。折现率作为收益法中关键的参数,其高低将直接影响到评估结果,但目前行业中各机构确定折现率并未形成统一的标准。因此,关于折现率模型的研究一直是国内外学者关注的热点话题。本文首先从企业价值评估方法选择、折现率模型的选择以及各参数的确定三个角度分析折现率模型的使用现状。其次,选用时间序列回归与横截面回归检

学位

企业价值评估折现率CAPM模型Fama-French模型

头颈动脉磁共振管壁成像对临床诊断和治疗的影响

目的分析头颈动脉MRI血管壁成像（VW-MRI）的临床适应证、图像质量以及VW-MRI常规临床检查对诊断和治疗的影响。资料与方法回顾性分析首都医科大学宣武医院2016年4月—2018年5月因神经系统症状就诊并行头颈动脉VWMRI检查患者，评价指标包括人口学数据、病史、治疗过程、VW-MRI检查适应证、图像质量、病变特征、管腔成像诊断、管腔成像+VW-MRI成像诊断。分析管腔成像、管腔成像+VW

期刊

脑卒中磁共振管壁成像颅内动脉成像颈动脉成像

多层螺旋CT多期增强鉴别诊断胃神经鞘瘤与胃间质瘤

目的探讨多层螺旋CT多期增强扫描对胃神经鞘瘤与胃间质瘤的鉴别诊断价值。资料与方法回顾性收集2016年1月—2021年6月西南医科大学附属医院行多层螺旋CT三期增强扫描经病理证实的胃神经鞘瘤15例及胃间质瘤41例，观察两组在肿瘤位置、形态、边界、生长方式、强化模式，瘤内坏死、钙化和溃疡及瘤周淋巴结、长径（LD）、短径（SD）、LD/SD、延迟期/动脉期CT值（CTV-D/CTV-A）、延迟期/静

期刊

胃神经鞘瘤胃间质瘤体层摄影术X线计算机诊断鉴别

瑞贝卡：自产化纤支撑市场拓展

报纸

发制品瑞贝卡市场拓展

X商业银行债券投资风险及应对策略研究

债券市场是金融市场中不可或缺的重要组成部分,目前我国债券市场的主要认购人为商业银行,而债券投资正是商业银行的主要资产之一,因此有必要对进一步强化债券投资风险管理水平。近年来商业银行债券投资逐步发展,为在国内外市场竞争中立足,应着力提升自身的债券投资风险管理能力,在充分了解自身所面临的各类债券投资风险基础上,把握规避风险的有效方法及策略,从而在保障安全稳定运营的基础上,提高投资收益。本文针对X银行债

学位

商业银行债券投资风险分析风险管理

瑞贝卡：内外市场合力保业绩

报纸

瑞贝卡发制品

基于文献相似性网络节点属性的论文重要性评价模型的构建及评估

与本文相关的学术论文