基于规则和非规则方法的WEB信息提取

来源 :全国第六届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户：lin840827247

【摘要】

：

互联网上的各个信息源是相互独立的.如果一个系统能够把关于某个主题的来自各个信息源的信息集成到一个完全的信息源中,用户就能方便地获得这个主题他(她)所需的最想要的或者

【作者】

：

黄晓宏[1]连理[2]夏迎炬[2]徐国伟[1]

【机构】

：

富士通研究开发中心有限公司

【出处】

：

全国第六届计算语言学联合学术会议

【发表日期】

：

2001年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网上的各个信息源是相互独立的.如果一个系统能够把关于某个主题的来自各个信息源的信息集成到一个完全的信息源中,用户就能方便地获得这个主题他(她)所需的最想要的或者全部的信息.该系统中最重要的一个部分就是从网页中提取指定的信息.本文以网上书店为例详细介绍了web页面信息提取的实现.网页中一些信息可以采用基于正则表达式的规则提取,然而也有一类信息很难用规则提取,例如书名.对这些信息,我们采用了基于字体、距离等非语言启发信息的非规则方法提取,试验获得了比较好的结果.以网上书店为例,采用非规则的方法使书名提取的F值提高了31个百分点.

其他文献

文本自动分类的模糊方法

本文提出基于统计的文本分类特征词的自动提取方法,使特征词反映文本分类的类别特征,系统能通过自学习完善分类特征关键词;同时本文探讨模糊文本自动分类模型,提出一种模糊文

会议

文本分类自动分类特征词模糊文本分类模型特征关键词分类系统提取方法计算方法自学习隶属度关联度语义统计精度

刍议人防地下室的设计与分析

城市建设的进一步发展限制了地面空间的利用，因此往往修建地下室，而随着我国经济的迅猛发展及国家人防政策的颁布，基于平战结合功能的人防地下室，已逐步成为现代化社区发展必不可

期刊

人防地下室设计要点与原则优化

面向信息内容安全的文本过滤系统研究

本文设计并实现了一个面向信息内容安全的汉语文本过滤器.该系统能够通过对正例、反例的学习,来提高自身的过滤性能.并给出了一个过滤器阈值选择的算法,使阈值的选择更为合理

会议

信息内容安全文本过滤器阈值选择数据结构过滤性能高效过滤学习系统网页算法实验设计描述汉语

基于改进的贝叶斯模型的中文网页分类器

本文提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算机似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提

会议

关于BIM技术在建筑产业化中的应用探讨

随着我国计算机技术的高速发展,BIM在建筑业中应用广泛.BIM,即建筑信息模型,以建筑项目的相关信息数据为模型基础,通过数字化技术建立建筑模型,仿真模拟建筑的各项真实信息.B

期刊

BIM建筑产业化应用

可分义原向量空间中的跨语种文本过滤模型

本文介绍一个可以从中文或英文大量的信息中过滤出用户的兴趣所在的文档的模型,该模型采用向量空间的方式,从用户提供的文档中学习,用可分义原向量空间的一个向量来表示用户

会议

可分义原向量空间跨语种文本用户兴趣文档模型过滤方法原空间相似度中文证明英文学习信息实验处理

新常态下城市规划的传承与变革

新常态这个词从近两年开始非常流行起来,它代表了一种新的趋势.同样,在城市规划这个行业中也有一种新常态在蔓延,它对我国城市规划起到了一定的影响,也给城市规划带来了一些

期刊

新常态城市建设城市规划传承变革

土地利用总体规划实施管理制度及成效分析

随着新一轮土地总体规划政策的出台,我们仔细对比了两次规划的异同,探索了新一轮规划做出的创新以及调整的地方.在对新一轮规划进行研究的过程中,我们可以发现,很多内容由于

期刊

土地利用规划实施管理政策建议

钢结构厂房屋面防水技术研究

近年来,钢结构建筑的发展十分迅速.从轻型钢结构到重型钢、高层钢结构,应用越来越广泛.钢结构施工周期短、抗震性能好、污染轻且易于拆卸、综合效益好等优点,大量单多层工业

期刊

钢结构厂房屋面防水技术

新型城镇化背景下城乡规划的转型对策

新型城镇化背景下,城乡规划中可能带来环境污染问题,影响人们身体健康.为弥补这种缺陷与不足,促进城乡规划与环境保护协调发展,应该进行综合考虑,提高城乡规划的科学性与合理

期刊

新型城镇化城乡规划转型对策环境保护

基于规则和非规则方法的WEB信息提取

与本文相关的学术论文