基于树比较的Web页面主题信息抽取

来源 :微型机与应用 | 被引量 : 0次 | 上传用户:qweasd123qweqwe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。
其他文献
提出了一种具有云计算特点的可伸缩的服务器架构,通过采用模块化的方式有效地分割服务功能,能以对用户透明的方式满足三维网络应用的各种存储和带宽的需要。将该方案在一个三维
为满足移动自组网(MANETS)多级事务处理的安全性和并发性要求,将多版本两段锁协议运用到MANETS多级事务中。该协议有效地解决了由于竞争产生的错误的事务调度以及安全问题。模
研究借鉴我国反腐倡廉的历史文化,从中收获史上反腐倡廉得失成败的经验教训,撷取优秀的智慧为今所用,这对于加强新形势下党风廉政建设,将具有积极的推动作用。本文试图从"锦州