基于正则表达式构建学习的网页信息抽取方法

来源 :计算机应用与软件 | 被引量 : 20次 | 上传用户：simon20088

【摘要】

：

正则表达式作为信息抽取领域中的一种常用方法已经被广泛应用多年。然而构建高质量并且复杂度较高的正则表达式通常需要耗费大量人工成本,为此,提出一种基于正则表达式状态转换的算法来学习复杂正则表达式的构建过程。该算法需要给定输入初始正则以及正反例样本,初始正则表达式在经过析取分离与合并交叉两大类正则表达式状态转换之后,得到候选正则表达式集合,利用F值评估候选项的信息抽取效果,通过贪心的启发式策略选择一个最

【作者】

：

朱文琰郑肖雄

【机构】

：

复旦大学计算机科学技术学院智能信息处理重点实验室

【出处】

：

计算机应用与软件

【发表日期】

：

2017年02期

【关键词】

：

正则表达式构建状态转换 WEB信息抽取 RegEx construction State transition Web information extract

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

微课在高中英语教学中的应用及启示探讨

信息技术改变了现代社会的信息传播和获取方式,是知识经济时代引领潮流的技术,微课在这样的背景下也得到了普及和应用,对教育事业发展有很大帮助.英语学科在高中课程体系中的

期刊

微课高中英语教学应用启示

朝阳地区向日葵高产栽培技术

向日葵在实际种植中技术落后,产量低,导致种植面积减少。本文根据朝阳地区的实际地理环境和气候条件,讨论了向日葵在种植过程中存在的问题,主要从选地与倒茬、施肥、种植密度

期刊

向日葵高产栽培技术

具有网络抗癌药理作用之特征的原创药金港榄香烯脂质体

<正>目的在多年临床—实验室—临床中西医结合转化医学研究中提出"分子配伍"理论研发新药(现代中药),金港榄香烯脂质体(注射液、口服乳)是在"分子配伍"理论指导下研发成功的

会议

原发左上颌窦非霍奇金淋巴瘤一例

患者女，80岁。因左面前部眶下区肿物20余天入院。体检：患者左侧眶下区明显膨隆，表面皮肤颜色正常，无红肿破溃，皮温不高。扪诊：眶下区可触及4cm×3cm大小肿物，范围内侧至鼻梁中线

期刊

左上颌窦非霍奇金淋巴瘤实验室检查皮肤颜色前庭沟肿物膨隆破溃

犯罪心理画像是什么

犯罪心理画像是在侦查阶段根据已掌握的情况对未知名的犯罪嫌疑人进行相关的行为、动机、心理过程以及人员心理特点等分析进而通过文字形成对犯罪嫌疑人的人物形象及活动征象

期刊

犯罪心理画像克拉丽丝《心理罪》是什么

预分解窑热耗影响因素的几个问题

本文对预分解窑热耗的几个影响因素进行了讨论。通过总结有关生产实际的工艺热工参数指出，在一定条件下，预分解窑的分解炉与窑头燃料用量比例与热耗的关系是非线性的，即存在一个

期刊

预分解窑热耗影响因素分解炉水泥厂

供应室清洗设备洗涤医用器械的质量分析

<正>为了提高医用器械的洗涤质量和工作效率,保证消毒灭菌效果,防止医源性感染,保证医疗护理质量和患者的安全,我院消毒供应中心于2008年和2009年分别购买了全自

会议

建设银行推出“跨境快贷-退税贷”外贸普惠金融产品

12月20日,建设银行总行在广州举行产品发布会,正式推出基于大数据应用的“跨境快贷-退税贷”外贸普惠金融产品。建设银行“跨境快贷-退税贷”是业界首个专门针对小微外贸企业

期刊

外贸企业建设银行金融产品退税跨境贸易融资产品产品发布会数据应用

初中英语教学中学生自主学习能力的培养探讨

在新时代的发展水平下,我国的知识水平更新速率在不断地加快,这就在一定程度上刺激了我国政府对于教育的重视程度以及学生综合素质的培养在逐步加深.新课程改革的提出,为教师

期刊

英语教学初中自主学习

自适应蝙蝠算法优化PF的风力机桨距系统故障诊断方法

针对粒子滤波(PF)在变桨距系统故障诊断中存在的样本贫化现象导致故障诊断精度低的问题,提出一种蝙蝠算法自适应优化粒子滤波的故障诊断方法。通过改进的蝙蝠算法优化粒子滤波的采样过程,并结合最新的观测值定义粒子适应度函数,引导粒子整体向高似然区域移动;同时引入一个动态自适应惯性权重来设计新的粒子全局搜索位置更新机制,自适应调整粒子的全局搜索与局部搜索能力的有效协调,改善粒子贫化及陷入局部极值的问题,以期

期刊

风力机变桨距系统故障诊断粒子滤波蝙蝠算法状态估计Wind turbinePitch systemFault diagnosisParticle fi

基于正则表达式构建学习的网页信息抽取方法

与本文相关的学术论文