基于主题的互联网信息抓取研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:yaki84
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息抓取是利用计算机自动从互联网中获取信息的方法,在搜索引擎,情报收集系统中得到广泛应用。传统抓取技术主要研究对全网数据抓取策略的调优,以保证信息的新鲜度。但是全网抓取会导致信息处理深度不够,专业性不强,无法满足企业的信息需求;而且大多数中小型企业并没有足够的计算资源支持全网信息抓取,所以基于主题的抓取系统应运而生。随着聚焦爬虫概念的提出,基于特定主题的抓取系统研究开始受到研究者的关注。如何使用最少的计算资源,抓取到尽可能多的主题相关页面是主题抓取系统面临的主要挑战。其中涉及到三个关键的问题:1)如何定义用户主题:2)如何进行网页主题判断;3)如何预测待抓取URL的主题相关性,并制定相应的抓取策略。本文深入研究了基于主题的互联网信息抓取技术,分析了其中的关键问题,并提出了相应的解决方案,主要贡献如下:1)针对主题抓取系统的三个特点:主题需求的开放性,主题聚焦的层次性和主题信息的局部性,提出了基于主题知识库的互联网主题信息抓取框架。围绕主题知识库,提供了综合主题需求表达方式,知识学习流程和网页主题判断方法。通过主题富饶域挖掘模块进一步优化抓取效率。2)针对主题表达的开放性和动态性问题,提出了基于稳定词集的主题需求封闭流程,并在此基础上进一步提出了基于迭代式扩展-过滤框架的稳定词集构造方法。通过频繁项挖掘和LDA分析两种方法对核心主题词进行扩展,并使用知识库对扩展词集进行过滤。实验表明此方法获得的稳定词集具有较强的主题代表性。3)针对主题聚焦的层次性问题,提出了基于本体的网页主题判断算法,并应用于主题爬虫。利用本体中的概念以及概念间的位置关系,对网页信息进行主题降维,并通过本体综合加权提高主题判断的准确性,从而提高主题抓取的收获率。通过实验与其他的降维方法进行比较,证明了利用本体进行主题降维的有效性。4)针对互联网信息的主题局部性特点,提出了基于主题富饶域的抓取策略。主题富饶域优先(TRDF)算法根据主题浓度将主题域分为三个不同集合,针对不同集合采取差序化抓取策略。实验结果表明TRDF策略在准确率和召回率上均优于现有算法。
其他文献
德国是世界十大葡萄酒生产国之一,已有两千年酿酒历史。如今,提起葡萄酒.人们就会想起法国、意大利,就连“酒的新世界”美国、智利、南非、澳大利亚的名气都比德国响亮。可是,上溯
在乡村振兴的大背景下,农村金融机构、新型农业经营主体将迎来历史最好的发展机遇。但新型农业经营主体在发展过程中,有很多因素掣肘,直接影响了经营效益甚至经营成败。为此,
希腊,一个神话与传说的国度。至今,多数欧洲人还认为欧洲的历史文化发源于希腊,这都是因为希腊拥有7000年神话与传说的缘故。正因为神话,成就了独特的希腊,也因为神话使希腊的美食
何谓,新古典主义中国菜”?北京皇家驿栈行政总厨郝文杰创立了这么一套“心艺”美食物语。其一,心得:后现代主义食尚美食物语——演,盛唐之卓食;择,古今之美韵;揉,天酢之畅涌;烹,两厢
近日,仁寿民富村镇银行与文宫镇石家社区、岔河村联合举行“党建+金融+信用社区” 授牌仪式。授牌仪式上,文宫镇石家社区、岔河村和仁寿民富村镇银行签订了创建“党建+金融”示范社区、信用村合作协议。  近年来,仁寿民富村镇银行积极探索、学习“党建+”模式,并根据自身的实际情况,推出了“党建+金融+信用社区”新模式,新模式坚持党建为统领,将党建工作摆在首位,积极发挥基层党组织的政治功能和服务功能,推动党建
由于风俗习惯、文化背景、地域特征等因素的影响,中西方餐食文化差异会出现在原料搭配、烹调方法、口味及饮食习惯等方面的不同。正是有了这样的差异才有了我们对中西餐文化
食品安全涉及民生,社会关注度高。为进一步提升全市食品安全保障水平,更好地维护人民群众的健康权益。重庆市根据《食品安全法》的相关规定,出台了促进食品安全工作的相关扶持政
为全面贯彻落实"六稳""六保"战略部署,有效帮助劳动者实现创业、稳定就业,2020年,夹江农信联社在县委县政府的大力支持下,在7-8月短短1个月时间内,向145名创业者发放创业担保
江苏省盛泽镇位于江苏省吴江市最南端,以“日出万绸,衣被天下”而闻名于世。地处太湖流域,这里沃野平展、湖荡密布,气候温暖,雨量充分,宜稻『麦、宜蚕桑,是著名的鱼米之乡、丝绸之都
"听说泸州农商银行这次要开展‘下乡进户˙整村授信’工作,走村串户地给我们护国镇的老百姓送‘备用金’,我觉得这是好事,也是护国镇党委政府和农商银行为老百姓做实事、解难