基于DOM树统计关键词路径的WEB信息提取研究

来源 :计算机科学与应用 | 被引量 : 0次 | 上传用户:xujie880112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据用户的需求提取WEB信息在WEB数据挖掘领域中起着重要的作用。本文以提取公司官网上的产品列表为目标,提出了一种基于DOM树统计关键词路径的方法来确定关键路径,根据关键路径来确定提取内容。过程主要分为候选关键词组的获取、企业公司官网产品页面的获取、web页面的DOM树建立以及确定关键路径及提取。本文提出了一种解决不同公司官网上网页结构差距较大问题的信息提取的方法。并且根据该方法实现了在汽车零部件生产厂商官网上提取需要的产品信息。
其他文献
核心阅读:中国共产党爬坡过坎、克难攻坚,但始终不忘初心,砥砺前行,其奥秘主要在于其韧性:历经内外压力而仍能持续生存、生长并走向成熟,对外能及时适应瞬息万变的客观形势,对
研究表明在室温下匀速加场的不同成分NixZn1-xFe2O4铁氧体,其磁化强度的时间变化率曲线随加场速率的变化而不同,这些曲线可用具物理意义的诸参数拟合,依理论分析获得了畴壁运动
以国外的流行病研究资料、健康统计资料和国内的有关统计资料为基础,采用污染物生命周期分析的方法,依据归宿分析-效应分析-危害分析这条途径,研究了采煤-运输-发电过程产生
新中国成立70年来,在中国共产党的坚强领导下,勤劳淳朴的邢台人民艰苦创业、不懈奋斗,战胜各种艰难险阻,各项事业取得长足进步,经济社会发展实现历史性跨跃。特别是党的十八
糖尿病是我国常见病、多发病.国际糖尿病联盟(IDF)提出了糖尿病现代治疗的5个要点,分别为饮食控制、运动疗法、血糖临测、药物治疗和糖尿病教育.糖尿病肾病(DN)是糖尿病常见
期刊
省第九次党代会是在河北改革发展的关键时期,召开的一次承前启后、开拓奋进的重要会议。大会站在新的历史方位,对深入推进京津冀协同发展提出了新要求,作出了新部署。
基于2003~2012陕西省高校科技创新效率时间序列数据,运用DEA方法对我国高校科技创新成果转化效率实证研究,得出陕西省高校科技创新绩效逐步提高;运用Malmquist指数法对高校科
研究了卤化N-烃基-3-羟基吡啶盐和卤化N-苄基-3-羟基吡啶盐与缺电子亲偶极试剂的1,3-偶极环加成反应条件,报道了环加成产物的构型及外型/内型异体比例。
目的总结2005年6月~2005年12月50例糖尿病患者应用胰岛素泵的护理体会。方法对使用胰岛素泵治疗的病人进行跟踪。结果使用胰岛素泵治疗的病人血糖控制平稳。结论使用胰岛素泵
轻型复合结构是近年来研制和开发的一种轻型、节能、抗震、经济、适于多层及中高层的全新结构。作为轻型复合结构抗震性能分析的第一部分,旨在指导该结构的抗震设计。对该结构