论文部分内容阅读
目的:探讨应用新颖性探测模型评估医学文献主题新颖性的可行性,对比分析2种新颖性探测方法(词重叠法和基于共词的逆文档频率量化法)的优劣。方法:选取生物医学领域8个研究主题,从Pub Med数据库收集文献,构建2种新颖性探测模型,结合文献主题新颖性的专家分析结果,利用ROC曲线及AUC值对2种新颖性探测模型的可行性进行评估。结果:词重叠法的新颖度计算结果波动幅度较大,能够更好地将文献内容间差异表现在数据上。基于ROC曲线及AUC值分析,词重叠法对于判断新颖文献具有一定准确性,基于共词特性的逆文档频率量化法对于