基于样本实例的Web信息抽取

来源 :河北大学学报(自然科学版) | 被引量 : 0次 | 上传用户:winddss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.
其他文献
“瞧,打开手机一点云视通,显示屏就显示村里各个路段来往人员与车辆的影像。这边是王法芳家开的超市,那边是文化广场,连小狗小猫的行踪也能看得清清楚楚,全村动态一览无余。”2017
从“孤儿费”到“扶贫羊”:肆意伸手啥钱都占根据中纪委网站的数据,2016年以来,各级纪检监察机关查处侵害群众利益的不正之风和腐败问题1000余起。
我国在2016年5月1日开始正式实施“营改增”。本文通过对目前的热点“营改增”的研究,论述了“营改增’’的主要内容及对各方面的影响,分析了“营改增”后对小规模纳税人和一般
通过引进新的非平稳割点定义,提出了改进的间值属性决策树学习算法,改进后学习算法的效率有很大程度的提高。
会计信息是对企业财务状况、经营成果以及资金流量的具体记录和反映,能够为企业制定未来的发展规划提供必要的财政依据。因此,会计信息质量的高低,对于企业经营管理以及企业未来
贵州省黔西南布依族苗族自治州楼纳村属于少数民族村寨,全村共有5200多人,其中布依族村民占72.4%,其余的村民为苗族和汉族。2008年时,楼纳村还是个贫穷的多民族聚居村寨,名不见经传,
通过比较各种模式识别方法的特点,确定了用神经网络方法识别污损的手写印刷体字符的可行性和必要性,介绍了神经网络摸式识别系统,讨论了用神经网络方法对污损的手写印刷体字符的识别,最后给出实验结果
近几年经济不景气,国际市场目前普遍处于比较低迷的状态,相对而言,国内市场更具有挖掘的潜力。与此同时,进入信息化时代,网络在人们日常生活中影响越来越大,无论是普通的吃、穿、住