论文部分内容阅读
随着科技的飞速发展,我国林业信息技术已经由“数字林业”步入“智慧林业”的新阶段。在大数据时代背景下,网络数据信息面临着指数型的增长。人们需要更高效、准确的获取网络上的林业相关信息。然而,使用传统的排序检索方法得到的数据利用价值不高,与主题无关信息较多,导致用户无法抓住重点,因此不能满足人们对于林业相关领域上的信息检索需求。为了提高与主题相关度高的网页排名,将更符合林业主题的网页首先呈现在用户眼前,本文改进了传统的网页排序算法。通过对网页排序算法进行深入学习和研究,本文以PageRank网页排序算法作为研究基础,利用网络爬虫工具抓取大量信息,建立网页间对应链接关系。由于传统排序算法中存在主题漂移,并且在检索过程中缺乏对检索词重要程度的判定等问题,本文将原始PageRank排序算法与林业主题文本权重相结合,提出了一种基于林业主题权重的FTPageRank排序算法。该算法通过人工分类、处理训练集,训练得到林业主题SVM分类模型,根据新获取的文本向量与林业主题分类模型的关系,判断其与林业主题的相似性,计算得到林业主题的权重值。权重值向量作为PageRank算法的部分参数进行迭代计算,由于网页链接结构过于庞大,将改进后的算法部署在MapReduce并行计算框架上进行并行化的改进,提高处理效率。此外,网页获取过程中,根据网页文档的半结构化特征,按照标签的形式进行信息提取,对于一个关键词在网页文本中出现的位置不同,会带来不同的主题表达能力。因此,引入词项位置权重的计算方法,为FTPageRank得分分配检索时的词项位置权值,根据得分匹配网页排名,使排序结果更符合用户的检索需求。实验结果表明方法改进后在林业主题特征表示方面具有良好效果,“出入度”高并且主题明确的网页,将获得更高的网页排名,整体的网页排序主题准确率均有所提高;利用MapReduce框架实现并行化,随着数据量的增多执行效率有明显改善。在最后设计了算法的系统原型,算法改进后具有实际应用价值,为后续研究提供参考。