基于DOM模型扩展的Web信息提取

来源 :计算机科学 | 被引量 : 0次 | 上传用户:liongliong568
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的特点。提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中。
其他文献
【摘 要】本文分析“三全育人”视阈下高职会计专业育人机制建构要素,阐述“三全育人”视阈下高职会计专业育人机制建构的必要性,提出构建高职贫困生帮扶机制、改善高职院校育人环境、明确互联网思政教育的育人地位、引导学生建设自我管理与教育机制等构建策略,从而创设“三全育人”的优质教育环境,为高职学生全面发展奠定基础。  【关键词】三全育人 高职院校 会计專业 育人机制 构建  【中图分类号】G 【文献标识码
【成语出处】《孟子·公孙丑上》:"宋人有闵其苗之不长而揠之者……苗则槁矣。"【成语释义】把禾苗拔高,来帮助它成长。比喻违反事物发展规律,急于求成,反而坏事。【近义
开端协议(Open-ended Protoc01)的分析是安全协议领域中一个待解决的重要问题,而IKE则是一个有代表性的具有“开端”结构的安全协议。本文基于串空间的Athena方法,针对IKEv2协议
《音乐课程标准》在其实施建议中提出"以音乐为本"。"以音乐为本"就是要突出音乐学科自身的特点。我们应在新课程理念引领下,在教学实践中去探索更有效的途径,让音乐回归音乐课堂
晚期血吸虫病(以下简称晚血)伴有腹水的患者,因利尿剂应用及补钾不当.可引起血钾过高,而高钾血症的病例可致严重后果,却易被人们所忽视,本文就我院收治的3例晚血合并高钾血症
开展四川盆地天然气储量增长趋势预测研究,进一步明确未来勘探潜力,论证天然气业务发展主要指标的合理性,为中长期战略目标制定提供科学依据。四川盆地天然气探明地质储量发
介绍了Mathematica的曲线拟合命令,并利用该命令求出了爱因斯坦温度和钠光谱中的线系限与量子数亏损.
在稀疏规则库条件下,当给定的输入落入规则“间隙”时,采用传统的模糊推理方法是得不到任何结论的。学者已经证明模糊推理本质上就是插值器。Koczy和Hirota首先提出了KH线性插
多关系数据挖掘根据表示形式可以分为基于图的MRDM和基于逻辑的MRDM。本文讨论了基于图的数据挖掘和基于图的关系学习之间的关系,重点介绍基于图的关系学习算法Subdue及其优缺
目的分析慢性骨髓炎负压封闭引流术(VSD)的疗效及护理体会。方法选取2019-04—2020-04间郑州市骨科医院收治的42例慢性骨髓炎患者,均给予VSD治疗和精心护理。回顾性分析患者