面向聚焦的Web网页获取和信息抽取方法研究

被引量 : 0次 | 上传用户:yangjianguo20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网成为目前规模最大的信息载体,储藏着大量有价值的信息,利用诸如Google、Baidu等信息检索工具从互联网上获得目标信息,已经成为现代生活必不可少的组成部分。但随着互联网信息的不断增加,简单的信息检索已经难以满足实际需要,用户常常被淹没在过量的信息中。面对上述情况,以某个主题或结构为目标的、面向聚焦的信息抽取方法逐渐成为互联网应用研究的一个热点。信息抽取是信息检索技术的一个延伸,它可以将结构化信息从半结构或非结构信息中提取出来,Web信息抽取的应用可以提高用户对互联网信息的利用率。由于Web网页的海量性、动态性、异构性等特征,Web信息抽取技术面临着可移植性的挑战——针对某个网站或主题的信息抽取方法难以应用到其他网站或主题上。本文围绕Web信息抽取的可移植性,对面向聚焦的Web信息获取和信息抽取方法进行了研究。主要内容如下:(1)本文提出了基于URL结构过滤的非监督的聚焦爬虫(Unsupervised focused crawler based on URL structure filtering,UURLSF)。此方法基于URL结构分析,通过引入非监督的权重调节机制判断URL结构模式,可以仅用极少的样本实现大规模网页的跨网站获取,较基于内容的聚焦爬虫提高了执行效率。通过实验对比了UURLSF与传统方法在准确率、收获率和效率方面的效果。(2)本文提出了基于视觉单位的Web信息抽取方法。此方法基于Web网页感知原理,将信息抽取分为视觉单位的识别和目标信息的抽取两部分。视觉单位的划分过程独立于HTML标签,提高了视觉单位识别的可扩展性。本文将该方法应用在新闻正文抽取中,实验结果表明此方法具有较好的效果。(3)本文提出了基于增量聚类的非模型的Web信息抽取方法。该方法面向以数据为驱动的非模型推理机制,分别提出了基于全局和局部稳定度的聚类有效评价方法、面向Web信息抽取应用的增量聚类算法,并将其方法应用在新闻正文抽取当中。跟传统的基于建模的信息抽取方法相比,此方法能随着样本数量的增加不断提高信息抽取效果。在互联网数据极为丰富的背景下,这一方法有着更好的适应性。
其他文献
[目的]研究α-淀粉酶和蛋白酶辅助水提马尾松(Pinus massoniana Lamb.)花粉的工艺参数。[方法]以水提物得率为指标,在单因素试验基础上进一步通过正交试验优化了酶法辅助水提
目的探讨大腿假肢接受腔的几何建模方法。方法通过统计分析建立接受腔参考形状并集成进计算机辅助接受腔设计CASD软件。接受腔设计时,根据残端的测量数据,利用参考形状变化得
本文在广泛搜集国内外隧道现状的基础上,对运营隧道病害现状和特点进行分类总结,并深入分析了浅埋偏压隧道的特征和病害现象,以及病害产生的各种原因。在查阅相关书籍和学术
<正> 1 Internet是人工智能(AI)应用与发展的必由之路在经历了二十多年发展以后,Internet由最初的科研教育网ARPnet逐步发展成为面向全球的商用网。特别是自1993年以来,Inter
目的评估酪氨酸激酶抑制剂(Tyrosine kinase inhibitors,TKI)联合化疗方案治疗成人Ph染色体阳性急性淋巴细胞白血病(Philadelphia chromosome positive acute lymphoblastic
利用1951~2012年新疆哈密市的观测资料和NCEP再分析资料,对造成哈密市大降水(>12.0 mm)的大气环流特征进行合成分析。结果发现造成哈密站大降水的大气环流分为4种类型:横槽型
根据新疆石河子垦区莫索湾气象站1961~2009年高温资料,运用气候统计分析方法,对莫索湾的高温时间序列进行了分析,在此基础上通过计算高温异常指数,对其高温天气的危害性进行
提出了考虑继电保护隐性故障的电力系统连锁故障风险评估方法.采用继电保护隐性故障的概率模型描述保护装置对电力系统风险的影响,通过分析保护系统的机理表明保护装置在连锁
佛光寺创建于北魏孝文帝时期。隋唐之际,已是五台名刹,“佛光寺”这个寺名屡见于各种史书记载。845年,也就是唐武宗会昌五年,皇朝发动灭法运动,寺内除几座墓塔外,其余全部被
文章首先概述了在工业城市向消费城市转型的背景下后现代标志性建筑的兴起,然后探讨了在权力和资本的规制下当代标志性建筑所具备的抽象共性,继而分析了建筑师与公众作为个体