基于XPath的网页信息抽取

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lmwtzw0n9c9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对基于XPath的网页信息抽取进行了研究。文章提出了两种基于XPath技术的网页信息抽取方法。基于XPath的网页正文信息抽取方法,通过页面的比较,从而确定网页的生成结构,完成信息抽取。该方法通过对于页面节点的类别分析,很好的描述了网页的结构,从而更好地区分了正文信息部分。基于路径学习的方法,更多的致力于解决结构易变的情况,从内容反向确定抽取规则,从而实现信息抽取。该方法能够更好的理解用户的抽取目的。
其他文献
20世纪90年代末,超声波气体流量计正以其独特的优势进入天然气等气体计量现场。与传统流量计(如孔板、涡轮流量计等)相比,超声波流量计具有无可动部件,压损小,测量准确度几乎不受介质温度、压力影响等优点,尤其是在大管径流量测量方面,其优越性更加明显。传播速度差式超声波气体流量计应用最为广泛。由于实际计量中传播时间短、超声波在气体中衰减大,因此超声信号的精确测量是提高流量计整体性能的重点也是难点。本文在
多线程、多处理器核是近年来微处理器设计领域最重要的技术趋势,本论文以此为研究的重点,从体系结构和物理设计两个角度对64位多线程多处理器芯片进行关键技术研究。首先,较为完
学位
近年来,随着多媒体信息技术和网络技术的高速发展,数字语音压缩技术的应用领域越来越广泛,尤其在可视电话、IP网络电话、数字蜂窝移动通信、综合业务数字网、公共交换电话网
随着现代工业的不断发展,直流调速系统在许多领域获得了广泛的应用。由于数字控制具有较好的控制性能和较强的抗干扰性,所以成为直流电机的主要控制方式。为了进一步提高直流电
随着信息技术和现代管理技术的发展,要求企业成为智能型的经济组织,这一要求可以通过企业管控一体化系统很好地实现。管控一体化就是采用系统集成、信息集成的方法组织生产,把市
绝缘瓷环由于其良好的性能被广泛应用于电子设备中,其质量的好坏将直接影响设备的安全性。目前,国内的瓷环生产厂家大多仍使用人工检测的方式来保障瓷环质量,检测效率较低,生产成
微网(micro-grid)由分布式发电装置、储能装置、负荷及控制装置组成,既可并网运行,也可以孤岛运行。在并网运行时,与电网进行能量交互达到供需平衡。在孤岛运行时,通过内部各
目前我国树脂化工行业发展迅速,但相当一部分的树脂配料生产厂商仍采用仪表控制、人工填料方式,因而产品的质量无法得到保证,生产安全性不高。如何提高生产过程中的智能化、
目前,随着对智能机器人技术研究的学者越来越多,机器人技术得到了快速发展,人们对移动机器人的导航,避障,路径规划等方面问题研究更为深入并且要求也不断提高。机器人行走空间的不
当前,计算智能算法作为人工神经网络、模糊系统和进化计算三种算法的融合,被越来越多的学者研究,成为人工智能的一个新的研究领域。 为了进一步扩展计算智能算法的性能,在深入