基于林业主题的PageRank算法优化的研究

来源 :东北林业大学 | 被引量 : 5次 | 上传用户:hahabiaoren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的飞速发展,我国林业信息技术已经由“数字林业”步入“智慧林业”的新阶段。在大数据时代背景下,网络数据信息面临着指数型的增长。人们需要更高效、准确的获取网络上的林业相关信息。然而,使用传统的排序检索方法得到的数据利用价值不高,与主题无关信息较多,导致用户无法抓住重点,因此不能满足人们对于林业相关领域上的信息检索需求。为了提高与主题相关度高的网页排名,将更符合林业主题的网页首先呈现在用户眼前,本文改进了传统的网页排序算法。通过对网页排序算法进行深入学习和研究,本文以PageRank网页排序算法作为研究基础,利用网络爬虫工具抓取大量信息,建立网页间对应链接关系。由于传统排序算法中存在主题漂移,并且在检索过程中缺乏对检索词重要程度的判定等问题,本文将原始PageRank排序算法与林业主题文本权重相结合,提出了一种基于林业主题权重的FTPageRank排序算法。该算法通过人工分类、处理训练集,训练得到林业主题SVM分类模型,根据新获取的文本向量与林业主题分类模型的关系,判断其与林业主题的相似性,计算得到林业主题的权重值。权重值向量作为PageRank算法的部分参数进行迭代计算,由于网页链接结构过于庞大,将改进后的算法部署在MapReduce并行计算框架上进行并行化的改进,提高处理效率。此外,网页获取过程中,根据网页文档的半结构化特征,按照标签的形式进行信息提取,对于一个关键词在网页文本中出现的位置不同,会带来不同的主题表达能力。因此,引入词项位置权重的计算方法,为FTPageRank得分分配检索时的词项位置权值,根据得分匹配网页排名,使排序结果更符合用户的检索需求。实验结果表明方法改进后在林业主题特征表示方面具有良好效果,“出入度”高并且主题明确的网页,将获得更高的网页排名,整体的网页排序主题准确率均有所提高;利用MapReduce框架实现并行化,随着数据量的增多执行效率有明显改善。在最后设计了算法的系统原型,算法改进后具有实际应用价值,为后续研究提供参考。
其他文献
目的:分析主动脉夹层患者长途转诊不安全因素,总结安全护理对策。方法选取2014年1月~2015年12月医院共长途转诊主动脉夹层24例,开展监护、病情控制护理、气管插管与机械通气管理
《保护非物质文化遗产公约》的通过是传统文化由传统方法保护转变为特殊权利方法保护的例证,也为西藏传统文化保护提供了全新的范式。格萨尔、藏戏入选人类非物质文化遗产代表
大学生的文化素养不仅关乎他们的健康成长,还关系着党和国家事业的发展。新媒体对培育大学生文化素养有着重要的影响。只有积极探索运用新媒体进行文化素养培育的路径,如运用
编者按:日前,一起因“微信”文字商标注册引发的商标案一审落槌,引起广泛关注和激烈论辩。其中争论最为激烈的两个问题是:八亿“微信”软件用户的利益,是否构成商标法上的公共利益
报纸
第二次国共合作的形成及其必然性毕洪江抗日战争时期,在中国存有抗日根据地的新民主义社会,国民党统治区的半殖民地半封建社会,敌伪的殖民地社会三种社会制度和三个政权:抗日根据
实践教学是培养大学生成为应用型创新人才的关键环节,构建合理的实践教学体系,并对实践教学进行全过程质量监控,有利于保障实践教学质量,达到实践教学目标。
目的:分析治疗老年冠心病并发慢性心力衰竭实施益气复脉注射液治疗的安全性。方法:选入我院于2015年12月~2018年1月接受治疗的老年冠心病并发慢性心力衰竭患者110例作为研究
长期以来, 矿产开采造成大量矿山环境被破坏, 对当地的生态环境、 区域经济造成了较大影响.利用遥感解译技术开展矿山地质环境遥感动态监测, 实现对矿山地质环境的有效监控和
目的 探讨分级诊疗制度实施以来主动脉夹层患者转诊无缝衔接的作用及对死亡相关因素的探讨。方法回顾性分析2015年1月~2019年1月河西学院附属张掖人民医院经主动脉计算机血管
目的探讨替米沙坦对DOCA-盐型高血压大鼠氧化应激及血管内皮功能的影响。方法以SD大鼠复制DOCA-盐型高血压大鼠模型,设假手术组(6只),DOCA-盐型组(DOCA-模型组,6只);替米沙坦干预