基于爬虫技术的海洋科普网站的开发

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:jy02553920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速普及和发展,我国上网的人数的增长也十分迅速,网上的信息也爆炸式增多,这就导致了许多人在网上找到所需信息的效率变低。为了让用户在网上获取信息的效率提高,也为了能够吸引更多的人去了解关于海洋科普的知识,本文开发了基于自动爬虫的海洋科普网站,为海洋科普做出贡献。本网站需要实现的功能有自动对特定网站的文章进行爬虫,同时对爬虫的结果进行一些简单的处理和分类,将其存储到数据库中,并且将其在页面中展示出来。另外网站还需要有对于Springer等论文数据库的检索功能,用户可以在页面中输入需要查询的相关约束,即可得到查询结果。网站的爬虫部分需要从对应网站的网址入手,通过对网址的正则表达式分析,判断页面属于文章列表页面或者文章内容页面。然后需要通过xpath分析网页中的内容,将需要的内容提取出来,存入到相应的类中。爬虫获得文章需要进行下一步的分类操作。分类首先需要将文章进行分词,中文分词对比英文难度更高,需要对照相应的词典或者进行语义分析。分词的下一步操作是进行词袋处理和计算TF-IDF的值,这些操作都是为了将文章中关键词按照一定的规则进行提取。提取出来的关键词在进行朴素贝叶斯分类,得到相应的分类结果。目前各大论文数据库提供的搜索方式都是使用相应的API,将需求编写成相应的URL地址,然后得到JSON格式的结果。由于URL指令编写困难,再加上json格式的结果不够明确,导致搜索的效率很低,操作繁琐。因此本文设计将URL的编写自动化,将用户需要查询的相应的约束提供在页面上,供用户进行查询或者选择,这样会大大降低用户操作的难度。在用户输入了相应的约束后,系统后台会自动生成URL指令进行查询,并且在收到JSON格式的结果后对结果进行分析,将其中的重点内容展示出来,也会使得查询难度下降。两方面相结合,会使整个查询的过程更加简单易操作,效率更高。综上所述,本文设计网站的主要目的为提高用户的信息获取效率,网站会自动获得科普文章,并且对其进行分类后展示给用户,并且在用户需要进行论文查询的时候提供相应的页面,降低查询的难度。提高信息获取的效率,将会是现在以及未来网站的发展趋势。
其他文献
瓦斯是影响煤矿动力灾害的重要因素之一,研究瓦斯在煤层中的赋存状态对生产安全具有重要意义。瓦斯中主要成分甲烷大多以吸附状态存在于煤层中。温度,压力,变质程度,破坏程度
眼睑内眦部外伤常伴有泪小管断裂,尤以下泪小管断裂多见.修复外伤创口时,必先吻合断裂的泪小管,否则造成病人溢泪之痛苦.但泪小管断裂吻合术各医院的方法有所不同,其术后效果
中华文化传承了几千年,凝聚了古人的智慧,古诗词就是中华文化的典型代表.诗词歌赋由一代一代的中国人传承下来并发扬光大,成为我们国人为之骄傲的精神宝藏.在小学开展经典诵
目的:研究吡哌酸锌软膏对烧伤创面愈合的治疗效果。方法:将其与SD-Ag霜剂作同体、同部位,等分成两个大小相等、深度相同的创面对比观察。测量不同时间点创面未愈合面积并记录最终愈合
针对喀什地区近年生态现状日益严竣及生态保护工作存在的问题,为加强生态建设环境保护工作的实效性提出了相关的对策与建议。
由于我国资本市场发展还不够完善,资产交易定价机制不够健全,资产的评估价值成为交易双方定价的重要依据,这就为交易双方干预资产评估提供了动机,文章从政府层级的角度研究了
患者,女,45岁,以持续性腹痛48小时来我院,自诉两天前突发腹痛呈绞痛,伴恶心、呕出胃内容物,两天中腹痛持续加重,伴肛门闭气,腹胀.查体:T37℃,P80次/分,R17次/分,BP120/75mmHg
目的:观察颅痛定合并654-2和阿普唑仑用于海洛因依赖脱毒治疗的疗效和不良反应.方法:80例海洛因依赖者接受颅痛定、654-2和阿普唑仑联合脱毒治疗(治疗组),另30例予安慰剂口服
副猪嗜血杆菌(Haemophilus parasuis,HPS)是一种革兰氏阴性菌,在猪的上呼吸道中广泛存在,属于条件致病菌,是引起猪格拉瑟氏病的病原,患病猪以纤维素性浆膜炎、脑膜炎和多发性关节炎为主要特征,主要影响5-8周龄的保育猪,给养猪业造成严重的经济损失。猪肺泡巨噬细胞(Porcine alveolar mcrophage cell,PAM)在肺的天然免疫中起到重要作用,是抵御外来病原微生