论文部分内容阅读
关键词提取算法TextRank的影响因素包含词语的覆盖度、词语的位置、词频、词长、词跨度等5个因素。使用采集的南方周末1525篇新闻为数据源,对这些因素进行了交叉验证,得出以下3个结论:1)关键词提取过程中全局因素大于局部因素。2)词语覆盖度、词长、词频、词跨度、词语位置影响权重逐渐增大。3)词语覆盖度和词长的影响权重基本等效,词跨度和词频影响权重基本等效。这些结论具有一定的指导意义,避免了后续研究者的盲目性也减少了后续研究的工作量。