论文部分内容阅读
〔摘 要〕提出一个学科发展热点推荐平台的模型,致力于让许多新进科研人员能够迅速了解到相关学科领域的前沿和研究热点。本文详细阐述了模型系统的逻辑结构和设计思想并以信息采集模块为例,详细说明了信息推送的过程和如何通过爬虫程序在学术期刊网站上获取关键信息。
全文查看链接
平台的主要实现是依靠后台的信息收集整理和前台的用户推荐。平台前台主要是为了实现信息推送、信息展示和信息搜索这3种功能。前台学科热点服务主要为会员用户、访客用户和特定用户服务。首先是一般性的访客用户,他们只是利用本平台进行信息的浏览,通过平台的用户界面主观性地找寻某些研究领域的热点信息或学术资源,由于是一般性访客,出于知识版权的考虑,往往对其开放的资源很少;而对于在本平台注册的会员用户除了具备一般性访客的所有使用权限之外,平台还会定期利用E-mail和站内邮件等方式为其推送热点信息,同时会员用户也可以定制自己感兴趣的热点栏目,并根据级别开放不同层次的学术资源。而特定用户是指需求不明确,研究领域较复杂的特殊用户,平台在热点推荐的模式上可以既采用邮件式主动推送方式也可采取用户提交需求,专家答疑的方式解决问题(见图3)。而平台后台的实现主要是首先通过爬虫程序对学术网站相关学科的页面进行信息抓取,将所获得的关键信息存储起来,然后由该学科研究的专家成员根据本学科特点进行分析制定出热点评价指标体系,所获取的信息经过指标评价处理之后便形成热点,然后各个成员再根据要求提供自有资源,从而构成一个既有热点推荐也有学术资源共享的平台。本部分以平台后台信息采集为例,通过分析外部学术资源网情况来实现关键信息抓取的过程。以维普的中文科技期刊数据库为例,由于采用类似搜索引擎只抓取期刊论文展示页面的各项关键信息而不涉及其全文信息,所以不会产生版权纠纷等问题。
图3 前台热点服务模式图
3.1 后台信息采集过程
3.1.1 超链接分析
前面所讨论的是各个成员主动性地将自身资源贡献给平台加以整合利用,但是学术网站的资源往往更加丰富,本平台的一个热点指标评价系统就需要通过爬虫程序对互联网上某一领域学术文章的篇名、关键词以及所属期刊等指标进行收集比对分析,统计这些字段中的实义词的绝对词频、相对词频、期刊影响因子等属性来划定哪些为学科热点词汇。通过后台的爬虫程序定期对期刊网站进行页面信息的抓取以实现数据收集的目的,以维普期刊网的一篇名为“高塑性耐热Ni基合金”的文章为例,其页面链接为http:∥www.cqvip.com/qk/95120X/201003/34264684.html,通过对该超链接的分析发现,其中www.cqvip.com为维普期刊网站的一级域名;之后的qk字段为期刊的拼音缩写,即维普的所有期刊页面都存储在该域名下的qk目录中;95120X字段表示本篇论文所属的期刊《兵器材料科学与工程》,即《兵器材料科学与工程》的所有论文的页面都在该目录下;201003字段表示该期刊的发行年月或刊号,即该目录中为2010年3月份的《兵器材料科学与工程》的所有论文页面;最后的34264684.html就是本篇论文的页面。通过以上规律,我们的爬虫程序可以分层级地在指定的期刊页面进行遍历,以《兵器材料科学与工程》期刊为例,首先爬虫程序会在http:∥www.cqvip.com/qk/95120X/页面上获取所有年份以及月份的期刊的目录(见图4),接着再从每期的期刊的页面中进入每篇论文的页面,获取每篇论文的关键信息。
爬虫程序对页面的搜索是一个深度遍历的过程(见图5),首先爬虫对给予超链接的第一层进行遍历,如果没有发现下一层的超链接,则出错,捕捉异常,进行下一个超链接的遍历;若成功则抓取该页面的关键信息并进行存储,然后进入下一层的超链接。以维普期刊网的一个超链接为例,我们指定了《兵器材料科学与工程》这份期刊,爬虫程序会首先进入特定网址http:∥www.cqvip.com/qk/95120X/,本页面代码中
图3 前台热点服务模式图
3.1 后台信息采集过程
3.1.1 超链接分析
前面所讨论的是各个成员主动性地将自身资源贡献给平台加以整合利用,但是学术网站的资源往往更加丰富,本平台的一个热点指标评价系统就需要通过爬虫程序对互联网上某一领域学术文章的篇名、关键词以及所属期刊等指标进行收集比对分析,统计这些字段中的实义词的绝对词频、相对词频、期刊影响因子等属性来划定哪些为学科热点词汇。通过后台的爬虫程序定期对期刊网站进行页面信息的抓取以实现数据收集的目的,以维普期刊网的一篇名为“高塑性耐热Ni基合金”的文章为例,其页面链接为http:∥www.cqvip.com/qk/95120X/201003/34264684.html,通过对该超链接的分析发现,其中www.cqvip.com为维普期刊网站的一级域名;之后的qk字段为期刊的拼音缩写,即维普的所有期刊页面都存储在该域名下的qk目录中;95120X字段表示本篇论文所属的期刊《兵器材料科学与工程》,即《兵器材料科学与工程》的所有论文的页面都在该目录下;201003字段表示该期刊的发行年月或刊号,即该目录中为2010年3月份的《兵器材料科学与工程》的所有论文页面;最后的34264684.html就是本篇论文的页面。通过以上规律,我们的爬虫程序可以分层级地在指定的期刊页面进行遍历,以《兵器材料科学与工程》期刊为例,首先爬虫程序会在http:∥www.cqvip.com/qk/95120X/页面上获取所有年份以及月份的期刊的目录(见图4),接着再从每期的期刊的页面中进入每篇论文的页面,获取每篇论文的关键信息。
爬虫程序对页面的搜索是一个深度遍历的过程(见图5),首先爬虫对给予超链接的第一层进行遍历,如果没有发现下一层的超链接,则出错,捕捉异常,进行下一个超链接的遍历;若成功则抓取该页面的关键信息并进行存储,然后进入下一层的超链接。以维普期刊网的一个超链接为例,我们指定了《兵器材料科学与工程》这份期刊,爬虫程序会首先进入特定网址http:∥www.cqvip.com/qk/95120X/,本页面代码中