【摘 要】
:
随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发
论文部分内容阅读
随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix,进行扩展抓取用户需要的网页,深入研究了信息采集技术。利用Heritrix的可扩展性,来实现用户的抓取。通过分析Heritrix的工作流程,模块划分以及源码设计,基于Heritrix扩展抽取面向商品信息的网页,配合Html Parser对网页内容进行解析,有效的提取商品关键信息后存入数据库以供检索。
其他文献
云计算的网络服务承载着整个云计算平台的网络构建,因此网络模块都作为云平台主要模块之一,Open Stack中的Neutron模块作为网络管理系统,主要实现多租户情况下的网络隔离,使
针对两相流体流动特性复杂、流型识别准确率低等问题,提出一种能够提高两相流流型识别率的方法。首先采用小波包分析对ERT系统测量的压差波动信号进行特征提取;然后通过计算类间不可分离程度为每个节点选取最易分的两类构造DDAG支持向量机多类分模型;最后将特征数据输入分类模型进行流型识别。通过实验对比,四种流型识别的准确率要明显高于其它常用方法的流型识别。结果表明,小波包分析和DDAG支持向量机多类分类算法
为了寻找引起2m望远镜方位轴系倾角回转误差的主要误差源,相应采取措施减小或消除,确保望远镜方位轴系有较高的回转精度,采用国军标中水平仪法测量方位轴系倾角回转误差,对测
相机的成像原理决定了它不像人眼一样有很强的适应性,对于一些亮暗分明的场景,只能取亮或暗的部分而无法兼顾。高动态范围图像将一组亮暗程度不同的图像,取出它们的优质区域,然后合成到一起,从而兼顾了场景的亮暗部分。合成HDR图像首先需分别标定R、G、B通道相机的响应曲线,然后通过该曲线可得到图像对应通道每个像素点的照度值,再使用色调映射算法就可将像素点照度值转换成灰度值显示在屏幕上。然而在RGB空间下传统
针对天基网络规模庞大、动态拓扑、链路较长的特点,提出了一种可以实现对地球全天时覆盖的多层星座组网模型,并分析了链路的通断情况。首先利用天文学卫星运动原理,结合卫星对地
随着网络信息管理的迅速发展,高考业务也随之改变。设计一个高考信息化平台来实现高考报名、报考的网络化、信息化。通过研究高考信息化平台的访问控制、安全授权和业务协同
望远镜主反射镜需要定期清洗,但技术人员手动清洗的效率低,质量一致性差,清洗质量依赖于技术人员的能力和技术水平,而且随着反射镜口径增大,手动操作越来越困难。本文提出自动清洗
为实现三脚架式轻武器检验定型的自动化和标准化,需设计一种轻武器拟人射击试验平台。而拟人射击平台设计的最重要环节是建立人枪相互作用系统模型。本文首先通过三脚架式轻武
为了制备质量更高的微纳双重结构,采用激光干涉光刻技术,分别搭建三光束、四光束和六光束光路进行光干涉,对干涉结果进行图像采集的实验。采用图像处理的方法对采集的图像进行处
针对电机变频调速的供电电压中含有高次谐波而导致定转子铁芯产生损耗发热的问题进行研究,首先对变频调速系统的各种损耗的产生机理进行理论分析,然后着重研究三相异步电动机的