学科发展热点推荐平台的实施模式研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:catche
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕提出一个学科发展热点推荐平台的模型,致力于让许多新进科研人员能够迅速了解到相关学科领域的前沿和研究热点。本文详细阐述了模型系统的逻辑结构和设计思想并以信息采集模块为例,详细说明了信息推送的过程和如何通过爬虫程序在学术期刊网站上获取关键信息。 全文查看链接   平台的主要实现是依靠后台的信息收集整理和前台的用户推荐。平台前台主要是为了实现信息推送、信息展示和信息搜索这3种功能。前台学科热点服务主要为会员用户、访客用户和特定用户服务。首先是一般性的访客用户,他们只是利用本平台进行信息的浏览,通过平台的用户界面主观性地找寻某些研究领域的热点信息或学术资源,由于是一般性访客,出于知识版权的考虑,往往对其开放的资源很少;而对于在本平台注册的会员用户除了具备一般性访客的所有使用权限之外,平台还会定期利用E-mail和站内邮件等方式为其推送热点信息,同时会员用户也可以定制自己感兴趣的热点栏目,并根据级别开放不同层次的学术资源。而特定用户是指需求不明确,研究领域较复杂的特殊用户,平台在热点推荐的模式上可以既采用邮件式主动推送方式也可采取用户提交需求,专家答疑的方式解决问题(见图3)。而平台后台的实现主要是首先通过爬虫程序对学术网站相关学科的页面进行信息抓取,将所获得的关键信息存储起来,然后由该学科研究的专家成员根据本学科特点进行分析制定出热点评价指标体系,所获取的信息经过指标评价处理之后便形成热点,然后各个成员再根据要求提供自有资源,从而构成一个既有热点推荐也有学术资源共享的平台。本部分以平台后台信息采集为例,通过分析外部学术资源网情况来实现关键信息抓取的过程。以维普的中文科技期刊数据库为例,由于采用类似搜索引擎只抓取期刊论文展示页面的各项关键信息而不涉及其全文信息,所以不会产生版权纠纷等问题。
  图3 前台热点服务模式图
  3.1 后台信息采集过程
  3.1.1 超链接分析
  前面所讨论的是各个成员主动性地将自身资源贡献给平台加以整合利用,但是学术网站的资源往往更加丰富,本平台的一个热点指标评价系统就需要通过爬虫程序对互联网上某一领域学术文章的篇名、关键词以及所属期刊等指标进行收集比对分析,统计这些字段中的实义词的绝对词频、相对词频、期刊影响因子等属性来划定哪些为学科热点词汇。通过后台的爬虫程序定期对期刊网站进行页面信息的抓取以实现数据收集的目的,以维普期刊网的一篇名为“高塑性耐热Ni基合金”的文章为例,其页面链接为http:∥www.cqvip.com/qk/95120X/201003/34264684.html,通过对该超链接的分析发现,其中www.cqvip.com为维普期刊网站的一级域名;之后的qk字段为期刊的拼音缩写,即维普的所有期刊页面都存储在该域名下的qk目录中;95120X字段表示本篇论文所属的期刊《兵器材料科学与工程》,即《兵器材料科学与工程》的所有论文的页面都在该目录下;201003字段表示该期刊的发行年月或刊号,即该目录中为2010年3月份的《兵器材料科学与工程》的所有论文页面;最后的34264684.html就是本篇论文的页面。通过以上规律,我们的爬虫程序可以分层级地在指定的期刊页面进行遍历,以《兵器材料科学与工程》期刊为例,首先爬虫程序会在http:∥www.cqvip.com/qk/95120X/页面上获取所有年份以及月份的期刊的目录(见图4),接着再从每期的期刊的页面中进入每篇论文的页面,获取每篇论文的关键信息。
  爬虫程序对页面的搜索是一个深度遍历的过程(见图5),首先爬虫对给予超链接的第一层进行遍历,如果没有发现下一层的超链接,则出错,捕捉异常,进行下一个超链接的遍历;若成功则抓取该页面的关键信息并进行存储,然后进入下一层的超链接。以维普期刊网的一个超链接为例,我们指定了《兵器材料科学与工程》这份期刊,爬虫程序会首先进入特定网址http:∥www.cqvip.com/qk/95120X/,本页面代码中
其他文献
作者简介:黄成立(1986-),男,工程师,研究方向:信息管理、数字图书馆技术。业务研究  〔摘要〕本文以建设广东开放大学图书馆网站为例,介绍了DIV CSS技术及利用其设计页面的几个好处:有利于搜索引擎采集和收录、方便定制样式、具有清晰的语义结构和较低的页面成本。文章详细阐述了DIV CSS技术在图书馆网站页面设计中的布局、结构和样式,以及使用DIV CSS时需要避免的4个方面,明确了如何设计一
唏咻……唏咻  呼!呼!累死人了!我不知道能不能够应付明天的比赛。 本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
〔摘要〕通过调查重庆地区高校、公共图书馆、医院电子文献资源,发现各单位在资源种类、总量、平均拥有量,特别是外文资源,差距更大,整合与共享势在必行,通过对各单位元数据的抽取,构建本地区电子资源元数据仓储,使读者通过对元数据仓储的“一站式”检索,实现对资源的统一访问,从而达到整合目的。  〔关键词〕元数据;电子文献资源;整合;高校图书馆;公共图书馆;医院  DOI:10.3969/j.issn.100
近两年,於可训先生在《长江文艺》“临街楼”栏目开辟专栏,以“乡村教师列传”“乡人传”为主打。这两个系列的小说深受读者喜爱。“乡村教师列传”“乡人传”不仅呈现了鄂东美丽乡村自然风光、浓郁的民俗风情,还表现了鄂东文化重镇黄梅独特的人文景观。上述印象自然是这两个系列小说给予我们最为鲜明的阅读感受。然而,於可训先生还给我们带来了更为深层次的思考。於可训先生是著名的文学史家和文学批评家,近几年他开始在小说创
摘要:龙庆1号甜瓜是黑龙江省农业科学院大庆分院育成的适宜保护地栽培的极早熟薄皮甜瓜杂交种。春季塑料大棚栽培从出苗到果实成熟90d左右,比对照富尔1号早3~5d,低温条件下易坐瓜,果实成熟快;成熟瓜梨形,黄绿色,果皮光滑美观,中心可溶性固形物含量13.1%,单果重330g左右,667 m2产量2500kg左右;霜霉病病情指数30.67,白粉病病情指数40.83;适宜吊蔓和地爬式栽培。2007年通过黑
【摘 要】 幼儿的德育工作至关重要,是培养幼儿拥有良好的思想品德和人格素养的重要工作,对培养幼儿礼仪和行为习惯都有重要意义,是教育的基础。本文主要针对幼儿教育中德育工作的重要性和教师应如何以渗透方式开展幼儿园德育工作为重点进行论述。  【关键词】 幼儿教育;德育工作;渗透路径  随着社会的发展,人们获取信息的来源更加多样便捷,使人们的思想更具有全面性和开放性,越来越多的家长也认识到对孩子的培养不仅
计算教学历来是小学数学教学的基本内容,也是学生必须熟练掌握的技能。尽管课程改革后删掉了一些繁、难的计算内容,适当降低了计算要求,但提高学生计算能力仍是小学数学教学的主要目标之一,是学生学好数学的基石。课改不但创造性地使计算教学不再枯燥乏味,却依然追溯知识的根源,令教师将计算课上的更为丰盈和扎实,有幸听到的一节苏教版四年级下册“三位数乘两位数”,谈几点想法。  一、计算复习与情境导入相融  现在的计
一提到玻璃,你可能会想到窗户、瓶子和镜子。不过,你想到过防弹玻璃、玻璃纤维和用来做建筑板材的玻璃,还有制造导弹头上的玻璃陶瓷、以不可思议的速度将信息传输到全球的玻璃光纤了吗?  玻璃基本上是沙子(硅),加上一定比例的石灰石、纯碱和其他东西混合而成的。它可以通过多种方法加工成形,包括吹制、压制、拉制和铸制,这取决于将用它来干什么。这里介绍的是平板玻璃的制作工序。这是一个要运作一天一夜的连续过程。
目前.在我国西瓜市场阶段性供大于求现象时有发生,而种植早熟西瓜经济效益相对较高。由于市场需求的变化和与其对应的西瓜种植结构的调整.育种工作需要将西瓜供应期尽可能提早.培育早熟性好、品质优、瓤色红、耐运性好的西瓜新品种,以适應多样化的市场需求。为此,笔者制定了培育早熟、优质、外形美观等综合性状优良西瓜新品种的育种目标。
〔摘 要〕科技报告作为一种特殊文献,其质量的高低以及能否有效的积累、共享和交流,既反映我国当前科技报告制度建设的成效,也在一定程度上影响着我国科技创新的程度。本文首先利用文献调查法从科技报告质量控制与评价标准、评价指标体系、控制与评价方法3个方面,对当前国内科技报告质量控制研究现状进行阐述与总结,结合工作实际,以山东省科技计划科技报告工作为例,从上述的3个方面对山东省在科技报告质量控制与评价工作中