基于规则和非规则方法的WEB信息提取

来源 :全国第六届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:lin840827247
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上的各个信息源是相互独立的.如果一个系统能够把关于某个主题的来自各个信息源的信息集成到一个完全的信息源中,用户就能方便地获得这个主题他(她)所需的最想要的或者全部的信息.该系统中最重要的一个部分就是从网页中提取指定的信息.本文以网上书店为例详细介绍了web页面信息提取的实现.网页中一些信息可以采用基于正则表达式的规则提取,然而也有一类信息很难用规则提取,例如书名.对这些信息,我们采用了基于字体、距离等非语言启发信息的非规则方法提取,试验获得了比较好的结果.以网上书店为例,采用非规则的方法使书名提取的F值提高了31个百分点.
其他文献
本文提出基于统计的文本分类特征词的自动提取方法,使特征词反映文本分类的类别特征,系统能通过自学习完善分类特征关键词;同时本文探讨模糊文本自动分类模型,提出一种模糊文
城市建设的进一步发展限制了地面空间的利用,因此往往修建地下室,而随着我国经济的迅猛发展及国家人防政策的颁布,基于平战结合功能的人防地下室,已逐步成为现代化社区发展必不可
本文设计并实现了一个面向信息内容安全的汉语文本过滤器.该系统能够通过对正例、反例的学习,来提高自身的过滤性能.并给出了一个过滤器阈值选择的算法,使阈值的选择更为合理
本文提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算机似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提
会议
随着我国计算机技术的高速发展,BIM在建筑业中应用广泛.BIM,即建筑信息模型,以建筑项目的相关信息数据为模型基础,通过数字化技术建立建筑模型,仿真模拟建筑的各项真实信息.B
本文介绍一个可以从中文或英文大量的信息中过滤出用户的兴趣所在的文档的模型,该模型采用向量空间的方式,从用户提供的文档中学习,用可分义原向量空间的一个向量来表示用户
新常态这个词从近两年开始非常流行起来,它代表了一种新的趋势.同样,在城市规划这个行业中也有一种新常态在蔓延,它对我国城市规划起到了一定的影响,也给城市规划带来了一些
随着新一轮土地总体规划政策的出台,我们仔细对比了两次规划的异同,探索了新一轮规划做出的创新以及调整的地方.在对新一轮规划进行研究的过程中,我们可以发现,很多内容由于
近年来,钢结构建筑的发展十分迅速.从轻型钢结构到重型钢、高层钢结构,应用越来越广泛.钢结构施工周期短、抗震性能好、污染轻且易于拆卸、综合效益好等优点,大量单多层工业
新型城镇化背景下,城乡规划中可能带来环境污染问题,影响人们身体健康.为弥补这种缺陷与不足,促进城乡规划与环境保护协调发展,应该进行综合考虑,提高城乡规划的科学性与合理