一种基于页面Block的Web信息提取方法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:cxsxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。
其他文献
水杨酸是一类广泛存在于环境中并持续存在的污染物.微生物降解水杨酸作为生物修复的一种,具有费用低、效果好、无二次污染的优点,获得国内外广泛研究。目前,大量水杨酸降解菌获得
目的:穴位贴敷联合常规西药治疗不稳定型心绞痛(气滞血瘀型)患者的临床疗效观察.方法:选取黑龙江中医药大学附属第一医院门诊患者50例,采用随机数字表法分为观察组和对照组,
网络视频流数据具有数据量大、实时性高等特点,传送中容易遭受窃听、插入、重放等网络攻击。实时传送协议RTP对报文身份验证和完整性没有任何定义,SRTP虽然为视频流传送提供
DDoS(分布式拒绝服务)攻击数据流在发生网络拥塞的情况下并不降低它们的发送速率,充满了路由器的缓冲区,剥夺其他正常数据流的带宽。基于这一网络行为,从拥塞控制的角度来研究DDoS
目的:探究骨科患者术后疼痛中应用中医护理方案的效果.方法:选取了2018年6月-2019年5月在莒南县中医医院骨科收治的100例患者作为主要研究对象,并以护理方法为以及对纳入患者
这次清明节正好遇上学校放假,我乘着这个便利就回了一趟家乡去扫墓。回到家才知道衣服被挂开一道小口子,母亲执拗着要我换下衣来,由她补好。我搬了椅子让母亲坐下,看着银色的针、
目的:探究在剖宫产术后再次妊娠经阴道顺产患者护理中应用中医护理干预的应用效果.方法:本研究从威海市妇幼保健院再次妊娠患者中选取样本,总例数为100例,研究时间始于2018年
这本《西湘记忆》对于广大读者,我认为是一本很独特、很别致、很精致的散文小品集。文中所写,都是湖南西部那个叫湘西的地方的事情。早些年,这个地方因为出了沈从文、黄永玉等作
目的:观察苏前二陈汤治疗慢性阻塞性肺疾病急性加重期(Acute Exacerbation of Chronic Obstructive Pulmonary Disease,AECOPD)痰浊阻肺证的临床疗效。方法:将60例慢性阻塞性