基于统计的中文网页正文抽取的研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:XYYWLC
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取技术是一种广泛运用于互联网的数据挖掘技术.其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源.文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来.该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值.
其他文献
目的 探讨宫、腹腔镜联合中医药在女性不孕症中的临床应用价值.方法 对2006年1月—2010年12月女性不孕患者1 339例行宫、腹腔镜诊断和治疗,并配合中医药治疗.结果 不孕症前三
随着高校校园网络的不断建设和完善,对数据库仓库的要求也越来越高,数据仓库是数据挖掘的基础.成功的数据挖掘的关键之一就是通过访问止确、完整和集成的数据,只有这样才能进
本文从安全管理和技术两个方面,对变电站防误闭锁管理进行了研究和探讨,对防误问题提出了一些见解,可供从事变电运行管理专业技术人员参考.
阐述了勘察设计企业建设信息化集成应用系统的各项要求.包括系统建设总体要求、系统设计原则要求、系统标准化和扩展性要求、系统实施要求、系统平台要求、基本功能要求、系
RFID是一种自动识别技术.本文在介绍TRFID系统的基本组成和工作原理的基础上,针对RFID系统面临的安全威胁提出了相应的安全解决方案.该方案具有较好的可裁剪性,可根据具体应
随着竞争加剧,逆向物流在企业运作中的作用日益增大.本文阐述了逆向物流特点,分析了基于信息技术的逆向物流流程,构建了基于信息技术的逆向物流实施网络,并对该系统的体系结
In this study, X-ray diffraction (XRD), Fourier transform infrared spectrometer (FTIR) together with Scanning probe microscopy (SPM) were used to characterize t
针对目前混凝土掺合科、外加荆的使用情况及所存在的问题,通过研究分析国内外大量的文献,对高性能胶凝材料进行了研究,提出了高性能混凝土用胶凝材料的生产体系和发展方向,大
我国建设秸秆电厂的经验还不多,文章提出在秸秆电厂项目开发和建设中应重点关注以下几个方面:电厂规划布局,电厂规模,秸秆品种和成分,秸秆的集、储、运,秸秆价格,建电厂的主
According to the physical and chemical characteristics of superfine powder extinguishing agent, three test meth-ods are selected to measure the flow ability. By