林产品供求WEB信息增量获取

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:daqizzq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网的高速发展与快速普及使得信息无处不在、无孔不入。伴随着互联网的发展,我国的林产品贸易信息类网站也日益成熟,林产品贸易信息的数量急剧增加,用户面对海量的数据信息很容易产生信息迷航,针对这些问题面向林产品贸易信息的信息聚合网站和垂直搜索引擎等网络应用系统应运而生。此类应用需要从不同的信息源中将Web网页抓取下来,经信息提取、信息融合等环节,将信息存储至本地数据库,在该过程中网络爬虫负责将Web页面抓取至本地,是整个过程的基础。然而Web信息数据量巨大,分布广泛,更新变化频繁,在有限的时间和资源内获取足够多的有效的数据成为传统爬虫的一个巨大挑战。为了解决此问题,增量爬虫逐渐成为近年来学者们研究的热点。本文首先对林产品贸易Web网站的结构以及贸易信息特点进行了总结分析,针对林产品贸易Web网站结构类似且多采用目录导航结构的特点,构建了基于模版的林产品贸易主题Web网页抓取程序。而后,根据林产品贸易Web信息特征,提出了基于LCS(Longest Common Subsequence,最长公共子序列)的林产品贸易Web信息去噪方法。根据Web页面更新变化特点,构建了基于URL和网页内容变化的增量抓取程序。文章最后选取了比较有代表性的林产品贸易网站为实验对象对本系统进行了验证。实验结果表明该系统能准确抓取到林产品贸易Web信息,并利用较少的时间和网络资源完成网页的更新。
其他文献
目的:特发性肺纤维化(IPF)是一种病因未明的、慢性致死性的且病程不可逆的纤维化疾病,由于其发病过程的自身特点,很难找到有效的预防和治疗方法。IPF的发病机制仍不清楚,目前主要观
随着国际市场对中国工程机械的逐渐认同,越来越多的工程机械制造企业把进军国际工程机械市场做为企业运营的重要内容之一。国际贸易与风险相伴,随着中国工程机械参与国际市场
文章主要论述了我国房地产企业融资渠道现状,并分析了发展我国房地产融资渠道的对策和建议。
本文通过对不同情形下,用弹性系数法对订单融资金融风险传导效应进行量化的研究,了解订单融资风险在随着供应链传导过程中的改变程度,以帮助订单融资的各参与方订立相应的预
在诸多应对气候变化的解决方案中,卓有成效的是《京都议定书》提出的三种排污权交易,即3个灵活机制——联合履行机制(JI)、排污权交易和清洁发展机制(CDM)。自从2005年欧盟试
本翻译项目所选翻译文本为欧盟发表的《经济货币联盟及欧元》。该报告系统阐述欧元区的建立及发展,介绍欧盟各机构的运作规则。本翻译项目的理论指导为德国功能翻译理论,该理论
企业在持有长期股权投资期间,可能会因各种情况,其核算方法需要在成本法与权益法之间进行转换。本文总结了一套简便易行的列表分析法,不仅有助于会计专业学生正确理解并掌握
目的采用动物实验研究的方法,通过检测免疫低下模型大鼠动脉血淋巴细胞亚群含量变化,探讨扶正颗粒对机体免疫功能的调节作用及其作用机制,为临床使用扶正颗粒治疗小儿反复呼
在课堂教学研究中,教师话语不仅是教师组织课堂教学的工具,还是学生可理解性语言输入的一个主要的来源,因此,教师话语在组织课堂教学和学习者的语言学习过程中发挥着重要的作
地神是于阗佛教美术中颇具特色的重要内容之一。本文围绕此图像流变的主题,运用文献资料并结合龟兹、敦煌的有关图像资料,重新考订了相关图像绘制的文献依据。同时,通过对新