基于XML描述的WEB信息抽取技术研究

来源 :科技信息 | 被引量 : 0次 | 上传用户:miclleg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网已成为人们获得信息、取得服务的重要渠道之一。Web上的数据最大特点就是半结构化。由于目前网络上信息的主要组织形式是HTML格式,而HTML标记语言只描述数据的表现形式,不描述数据含义及结构。因此,计算机无法自动识别。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。因此本文分析了对由XML表示的数据进行数据抽取的过程。
其他文献
随着我国建设世界高水平大学的步伐不断前进,在高校中的思想政治教育和管理问题也逐渐受到重视,本文就思想政治教育和管理的目的与常见方法进行总结,并探讨了其未来发展思路。
赛珠水电站大坝左岸拱端底部软弱岩层置换区,处于危岩体和卸荷裂隙区,且为"先坡后洞"施工,施工难度和安全风险大。工程施工时制定了详实可行的置换施工方案和措施,在确保安全的
文章介绍了压力分散型锚索的特点及锚固机理,以及对复杂及软弱地层适应性强的优点,作者结合龙马水电站工程溢洪道边坡进行的压力分散性锚索试验,介绍了施工工艺,及试验的观测数据
水电施工企业的项目成本管理在整个项目管理体系中处于十分重要的地位,完善水电建筑施工企业的项目成本管理,加强施工项目成本控制,提高项目成本管理水平,维护施工企业的经济利益
通过对安新加宽项目对沿线原有桥梁的调查,发现预应力混凝土空心板在设计、施工方面的一些问题,分析其间的各种原因。
采用对比分析方法研究陕西省延河流域水土保持对延安站洪水的影响,结果显示:延安站中、小洪水的年发生率降低;汛期径流量减少,枯水期径流量增加;相似降水条件下,90年代延安站洪水的
采用FLAC3D有限差分法对绿春县把不粗梁子挖方边坡稳定性进行研究,通过建立非均质三维模型,分析把不粗梁子在开挖前后的位移变形量,以及天然、降雨情况下的应力分布状况;对应
人力资源成本有广义和狭义之分,人力资源成本计量法是将人力资源取得成本和开发成本作为人力资源计量的基础。人力资源价值是蕴含于人体内的能带来经济利利益的潜在劳动能力,人
日前,中国土木工程学会、詹天佑土木工程科技发展基金会为荣获第九届土木工程詹天佑奖的工程颁奖,水电十四局有限公司担负主体工程施工的黄河小浪底水利枢纽和湖北水布垭水电站
全球性的环境污染一定程度上改变了自然地理环境,使植物种群面临一个全新的环境。污染敏感种逐渐消失,抗性种质被保存并得以进化。因此,植物的分化进化研究成为进化生态学的重要