Web信息采集系统设计与实现

被引量 : 0次 | 上传用户:ancdtang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动终端的快速发展和普及,人们越来越习惯通过在移动终端上安装阅读类应用软件获取感兴趣的信息,与之伴随的是平台供应商(也包括内容提供商)必须构建相应的技术平台来支撑这样的业务模式。而这个平台的内容来源可通过两种方式获取。一种是手工编辑,另一种是通过程序自动采集信息源的内容。本文针对后者设计了一套Web信息采集的解决方案。论文首先介绍了课题的研究背景,研究现状,以及信息抽取的相关技术和信息采集的工作原理,并对网页结构进行分析;接着,分析了系统的功能和面向的用户,运用用例图和用例规约对系统进行用例建模,分析了系统的非功能需求;然后,对系统进行总体设计和数据库设计;再次,对系统进行了详细设计与实现;最后,对系统进行测试,验证了本方案的有效性。本文的主要工作如下:1.本文研究了如何在HTML文档中快速定位目标信息的方法,通过利用HTML标签和属性及DOM的路径表达式设计了信息的抽取规则,采用可视化界面和简单的人机交互来自动生成信息的抽取规则,并在此基础上设计了一种实用的正文去噪解决方案。2.本课题包括采集配置子系统和采集子系统两部分组成。采集配置子系统可将配置的采集任务通过Socket机制传递给采集子系统,从而控制采集任务的开启、停止操作,使得用户不必关心采集运行过程即可得到采集结果。3.采集子系统根据用户已配置的采集任务,运用多线程技术、数据库连接池技术、动态采集策略、多页面合并技术,定时对这些网站进行信息采集、抽取、去噪、去重等,实现对相关网站特定信息的定时采集更新。
其他文献
信息化技术的快速发展,为计算机网络服务功能的不断完善带来了重要的保障作用,也为人们的正常生产生活提供了许多的便利。结合现阶段计算机网络管理的实际发展现状,发现某些
<正>2019年,四川省经济和信息化厅信息化处将奋力打造两化融合升级版。统筹推进信息化建设。制定《四川省"十三五"信息化规划2019年度工作方案》,加快推动规划各项任务落实;
玫瑰花茶是近年来深受大众喜爱的花茶饮品之一,具有多种保健功效.课题组前期研究表明:玫瑰花茶中多糖及多酚类成分是其发挥抗氧化活性的主要物质基础.为进一步明确玫瑰花茶中
本文根据医院文化建设发展的实际情况,首先将新媒体与传统媒体进行对比,并对医院目前新媒体工作开展的现状进行分析,阐述了在医院文化建设宣传中引入新媒介的重要性,并提出了
相似材料模拟是矿业领域研究岩层移动重要的手段。考虑到温度及湿度会影响原型与模型的相似度,故为了降低温湿度对相似材料模拟结果的影响,提高模型结果的可靠性,建议在恒温
通过理论分析和射击试验相结合,分析了美国陆军确定弹头触发引信防雨等效靶板的质量等效原则,并提出了碰击力峰值等效原则和能量等效原则(其中碰击力峰值等效原则主要针对小口径
<正>古代诗歌鉴赏题答题之所以出现"答非所问"、"画蛇添足"、"无中生有"等失误,很大程度上是由于考生审题马虎所致。其实,审题不是一件难事,针对高考出题情况,我们可以把高考
以比例导引法为例,阐述比例导引相对运动方程和弹道特性,分析比例导引系数、法向过载等。采用Matlab仿真程序,对比例系数和视线角速度进行目标拦截仿真,随各项参数变化情况,
公路基础设施的迅速发展是中部地区城镇化进程的重要特征。使用空间计量经济学方法,实证分析了交通基础设施对中部6省城镇化的贡献情况。结果表明:①公路基础设施对中部地区