Web信息自动抽取技术研究

被引量 : 0次 | 上传用户:wjyjiedabc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,如何有效的从Web中获得所需信息成为亟待解决的问题,因此信息抽取成为必要。而针对不同的应用和不同的信息来源,所采用的信息抽取方法也各不相同,主题Web页面和数据导向型Web页面是目前Web应用中两大类最主要的信息源。本文针对主题Web页面提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对包含主题信息的HTML文档解析来构造DOM树。根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面。初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。针对数据导向型Web页面提出了一个基于XML技术的Web信息抽取方法。通过对具有相似结构Web页面解析来构造DOM树,采用归纳学习算法,寻找和识别出感兴趣的数据结点。利用Xpath和XSLT技术实现数据定位和转换并在优化定位信息的基础上编写出抽取规则。最后用抽取规则对待抽取Web页面进行变换,就可以得到包含所抽取数据信息的XML文档。
其他文献
不忘历史,自强不息;砥砺前行,圆梦中华。5月16日,上高县中小学生爱国主义读书教育活动演讲、现场作文总决赛在上高四中精彩落幕。全县城乡学校近160名学生参加本次总决赛,有1
铝合金由于比重轻、强度高、塑性好、耐腐蚀性能优、无磁性、易于加工成形及无低温脆性转变等许多优点被广泛应用于各种焊接结构中。激光-电弧复合焊技术发挥了两种热源的长
随着科学的发展,技术的进步,在人类创造出前所未有的社会繁荣的同时,人类赖以生存的地球也出现了生态危机,生态观念逐渐被人们理解和接受,研究和建立生态环境理论成为建筑环
胶印机印刷滚筒在空档冲击下的弯曲振动是影响印品质量的重要原因。本文以单张纸胶印机橡皮滚筒为研究对象,对其进行改进设计使之能减小空档冲击下的弯曲振动,并对比了改进前
<正>据国外媒体报道,伴随着科学技术发展,科学家提出一系列未来派新型纺织技术,这些技术将以低能消耗和环保性超越当前的纺织工艺。树皮织物:BARKTEX公司生产了人类所知晓的
期刊
文化人类学关注入与其所创造的文化,以全新视角来探析其背后所蕴含的深层含义。简&#183;奥斯汀是活跃于十九世纪英国文坛的现实主义小说家,在其四十二年的创作生涯中,简&#183;奥
对于获取的海量配电网运行数据,快速从中提取关键信息并实现配电网运行缺陷和故障的智能分析、诊断定位是电力系统自动化的重要保障.本文利用采集的配电自动化运行实时信息,
在本文中,对现有的混沌加密的性能进行了详细的分析,对其混沌时间序列在周期、初始值敏感性、参数敏感、概率密度函数、Lyapunov指数、类随机性、返回映射、功率谱密度等方面
目的:对神经外科重症患者的护理方法进行分析,为临床护理提供指导意见。方法:2009年至2012年我院共有50例神经外科重症患者接受治疗,对这些患者的临床护理进行研究分析。结果
Internet的迅速发展,使计算机网络已经深入到我们日常生活的各个领域,另一方面,网络的互连共享和分布也增加了网络安全的脆弱性和可能性。入侵检测作为一种有效的检测入侵方