【摘 要】
:
本文针对图书类网站的特点,根据表单项前的文字信息反映表单项输入信息,设计一种通过解析表单项动态填充表单的方法,利用动态解析表单获得结果页面,对其进行解析并加权排序,
论文部分内容阅读
本文针对图书类网站的特点,根据表单项前的文字信息反映表单项输入信息,设计一种通过解析表单项动态填充表单的方法,利用动态解析表单获得结果页面,对其进行解析并加权排序,最后按照统一的显示格式展现。本文设计实现利用网站自身高级搜索页面对同一类型的多个网站进行检索的系统,为用户同时在多个图书网站搜索图书提供便利快捷的条件。实验结果验证了算法设计的正确性,本课题的主要研究工作包括:1、设计一个基于字典匹配的动态表单搜索算法。该算法采用SAX方式解析表单,避免前人采用DOM方式解析产生的大量无用信息;利用多线程方式解析查询接口所在页面提高处理性能;运用字典和表单项关键字进行匹配。服务器端程序通过抓取页面进行语义分析,发现新的图书网站和扩展关键字字典。
2、在表单动态填充获取的结果基础上,实现了结果页面解析。通过预先了解并熟悉图书网站的搜索结果的展示页面的HTML标签结构,将这种标签结构进行抽象提取,利用抽取模板进行解析获得图书信息对象的链表,完成结果解析。
3、查询结果后续处理。对于结果页而解析出的结果项进行排序,主要考虑的因素是该类似图书在不同网站的出现频数和在各个网站的排序顺序。两个因素同等重要,都可以反映出图书受欢迎的程度和销售情况,因此采用等值加权排序法。
在以上工作的基础上,设计实现了一个基于图书网站高级搜索的动态表单搜索系统。该系统提供一种较为新颖的思路,对于同一类型的网站,通过其高级搜索页面进行精确查询项匹配。
其他文献
随着信息化建设的不断加深,作为资产密集型的电力企业对企业管理信息化的需求越来越高。电力企业能否实现经济效益最大化与是否能够对其庞杂的设备和输电网络进行高效率的信息
图像分割通常作为图像处理的基础性操作,图像分割结果直接关系到后续更高层的图像处理和计算机视觉工作。水平集方法的出现,给活动轮廓模型带来了强大的生命力,并由此出现了
通过移动互联网,人们能够更方便地去使用社交网站和微博这些互联网新应用,无线网络技术是移动互联网发展的基石。传输层在网络通信中发挥着重要的作用,而TCP则是使用最广泛的
眼底图像融合是将对取自不同时间、不同传感器或不同视角的关于眼底图像或者图像序列加以综合的过程。由于眼底图像在眼科是一个客观、标准的诊断方法,图像融合技术在眼底图
随着云计算技术的兴起,服务以爆炸性的方式进行增长,越来越多的人在生活和工作中都使用云服务,云服务已经成为IT服务的主流趋势。云计算环境的动态性和开放性,使得用户需求也
随着信息化时代的到来,公司、企业越来越认可库存管理的重要性。目前对库存管理优化的研究主要集中在对成本这一单目标的优化。这种研究方法虽然降低了企业的库存成本,但忽略了
网络的高速发展和普及,加速了数字化信息时代的到来,为多媒体数据的传输和存储带来了极大的方便,提高了信息表达的效率和准确性。但是其中暴露出的问题也十分明显,数字产品的
实时、准确地调节纸浆浓度是实现工艺目标、达到质量标准的重要一环。浓度监控系统从原来的模拟仪表控制系统到集中式数字控制系统、集散控制系统,发展到现在的现场总线控制
无线传感器网络(Wireless Sensor Networks,WSN)的日常使用中会涉及到大量的数据信息,这些数据信息记录了监控区域中各方面的信息,通过数据链路以及网络拓扑将信息从根节点传
作为计算机视觉的核心内容,视觉跟踪在智能视频监控,机器人视觉,人机交互,人工智能等领域有重大应用价值,成为研究的热点。NVIDIA公司推出的CUDA平台可以启动大量的线程并行