面向质量安全的元搜索数据采集系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wamaim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前质量安全问题频发,并且随着互联网的普及,质量安全问题越来越多的在互联网上被大众讨论。人们在互联网上发表的关于质量安全的评论和互联网媒体对质量安全方面的报道都可以作为质量安全分析的文本语料。因此互联网可以成为质量安全信息获取的数据源,为质量安全分析提供了数据基础。本文设计与实现了基于元搜索的数据采集系统,负责采集质量安全相关方面的网页。本文中,元搜索引擎不再是传统的使用方式,而是用于根据用户设定的查询词来进行数据采集。系统在功能上主要分为元搜索查询、网页抽取、相关性判定三个功能块。在元搜索功能块中完成了不同元搜索引擎的封装,同时对查询采用了优先级调度方式的管理。在网页抽取功能块中采用了基于模板解析和基于统计解析两种方式:基于模板解析主要负责结果链接的抽取、基于统计的解析则作为通用的正文抽取方法。在相关性判定功能块中,采用了支持向量机的分类算法来筛选质量安全相关数据,去除噪音信息。本文最后对网页抽取效果与分类效果进行了测试,并展示了系统运行成果。由于质量安全相关数据在互联网上较为分散、数据特征明显的特点,本文放弃了使用定向爬虫模式采集数据,而在元搜索引擎用于数据采集作了一次尝试。本文对其他领域的数据采集研究有一定的借鉴意义。
其他文献
近年来,伴随着移动通信技术的发展,用户在得到更好的服务的同时对系统的可靠性和有效性要求越来越高。然而,无线通信固有的问题,比如无线信道的随机性,由多径引起的频率选择性衰落
基于对等网络的流媒体直播作为多媒体技术在互联网上的热点应用而受到广泛的研究与关注。虽然P2P流媒体直播系统在很多方面的技术已经日趋成熟,但是在某些方面仍然面临着一些
农业工厂化生产过程是指应用工业化设施装备和生产手段于农业生产过程,实现高效及可持续发展的农业生产,以提高土地产出率、资源利用率、劳动生产率和产品商品率。现有生产过
合成孔径雷达(SAR)是一种能够在全天时、全天候应用的微波成像系统。由于地物的后向散射特性不同会导致其对不同的极化电磁波的电磁响应不同,因此可以采用多极化SAR系统来获得
近年来,随着密集化仓储系统在国内受到越来越多的关注,仓库对运送货物的工作效率要求也越来越高。穿梭式货架系统是一种最常用的密集化仓储系统。在现今的穿梭式货架系统中,
随着经济社会的快速发展,智能化的视频监控系统的快速普及,导致海量视频数据爆炸式增长。如何高效的处理、存储视频,提高视频的利用率及浏览视频的效率,一直是计算机视觉领域
无线通信业务迅猛增长,使得对频谱的需求越来越大,同时更加清楚的认识到频谱稀缺是由于其利用率低下造成的。动态频谱接入作为一种高效、灵活的提高频谱利用率的技术得到了广泛
为了提升频谱利用率,解决无限频谱紧缺的问题,认知无线电技术受到了广泛的期待。认知无线电的频谱分配算法已经进行了相当的研究,但是目前的频谱分配算法一般只考虑初次分配的方
随着通信技术的快速发展,多媒体应用更加广泛,组播通信在整个通信网络中比重逐渐增多;现实网络中业务流呈现出自相似特性。因此,自相似流量下组播交换结构的性能研究、评价,有助于
人脸检测与面部表情识别是一个重要的科学研究领域,它是用机器替代人对目标进行检测、识别、判断,主要用于工业生产、安全检测、银行安防系统、生命救援及汽车电子行业。自20世