WEB主题信息采集系统的设计与实现

被引量 : 0次 | 上传用户:lixiaobo59178
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今互联网已经成为转播信息最快最方便的途径,每天在互联网上都有无数的网站和网页正在产生。用户可以通过搜索引擎查找信息,但是由于搜索引擎是为所有互联网用户服务的,所以用户无法通过搜索引擎方便的查找到自己指定的一组网站的内容,搜索引擎也不会主动推送这些网站的内容给用户。为了解决这个问题,作者设计了Web主题信息采集系统。利用这个系统,操作者能十分方便的定制搜索和抓取其需要的新闻信息并进行整合,从而使得从互联网中获取新闻信息更富有针对性和便捷性。本论文以信息采集系统的功能需求为向导,从需求分析、理论调研、系统构架、工作原理以及功能实现等方面入手,详细阐述了本Web主题信息采集系统的设计与实现过程。我们首先通过对国内外关于Web信息抽取和文本挖掘理论研究的现状的研究,提出了本Web信息采集系统的设计原理和系统建设目标。然后,分析了Web页面的特点,总结了其规律,设计出Web页面源代码特征的提取技术,最终形成Web信息的采集方法,并提出了Web主题信息采集系统的工作原理和系统设计。本系统主要由以下三部分构成:一是网页定制,根据所想要的信息资料的网址和我们的正则表达式相匹配的规则,来获取采集规则。二是网页信息资料获取,即一定的存取信息的规则,合理的使用提取算法,增量对最近匹配的信息资料进行更新,把有效的信息保存到我们的信息库中。三是网页信息内容管理,对采集到的信息资料进行删除,增加,查询,修改等等操作,也就是设计信息内容资料的管理系统,主要是指管理我们已经完成存取的内容数据资料。本系统通过对国内大型门户网站的信息资料获取来进行了系统的测试和论证,从而体现出这个方法的优势所在,以及方便用户的特点。同时,也通过举例,证明了这个方法具有良好的应用意义、使用范围以及发展前景。
其他文献
开展社区矫正是我国司法体制改革和工作机制改革的一项重要内容。社区矫正制度起源于二十世纪二、三十年代的西方国家,它是与监禁矫正相对应的一种具有开放性的刑罚执行制度,
地理概念是组成地理知识的基本单元,是地理知识结构的基础,然而,科学研究表明,科学的地理概念的形成往往会受到学生已有知识和经验的影响。传统地理概念教学中,教师很少关注
抑癌基因RASSF2由于启动子处DNA超甲基化而导致的基因沉默与胃癌的发生和发展密切相关。有研究发现,组蛋白乙酰转移酶p300能够激活胃癌细胞SGC-7901细胞中RASSF2基因的表达并
本文以欧美学生为研究对象,针对海外本土汉语教学的实际情况,通过比较研究国内外汉字教学情况的差异,以及汉语教学技巧的使用情况,从语言环境、认知模式、学习策略和学习偏误
农村小额信贷是专门面向贫困农户的一种金融类服务制度,虽然在我国的实施开展比较早,但是相对于国外取得的巨大突破和成效,我国农村小额信贷的发展明显动力不足,其风险问题也
目的:1、两种色素脱失模型方法的建立和比较,为进一步研究提供最佳模型。2、从神经、免疫、内分泌三方面探讨应激对色素脱失模型小鼠皮肤黑色素合成影响的生理机制,为色素脱
目的:探讨整体护理干预对急性心肌梗死患者生活质量的影响。方法:选择80例急性心肌梗死患者,随机分为观察组和对照组,对照组患者给予急性心肌梗死的常规护理,观察组患者给予
目的:探讨和总结CT引导下植入放射性I125粒子治疗肺癌的手术配合和术后并发症的护理要点。方法:对实施I125粒子植入治疗的51例中晚期肺癌患者进行术前健康指导。结果:术后出
卫星通信系统由于其覆盖面积大、通信频带宽、传输容量大等的独特优势,已经成为实现全球无缝隙个人通信和Internet空中高速通道的重要手段。Ku波段具有频带宽、干扰小、终端
地理信息系统(Geographic Information Systems,简称GIS)是一种采集、存储、管理、分析、显示与应用地理信息的计算机系统,是分析和处理海量地理数据的通用技术。它在最近的3