基于正则表达式构建学习的网页信息抽取方法

来源 :计算机应用与软件 | 被引量 : 20次 | 上传用户:simon20088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正则表达式作为信息抽取领域中的一种常用方法已经被广泛应用多年。然而构建高质量并且复杂度较高的正则表达式通常需要耗费大量人工成本,为此,提出一种基于正则表达式状态转换的算法来学习复杂正则表达式的构建过程。该算法需要给定输入初始正则以及正反例样本,初始正则表达式在经过析取分离与合并交叉两大类正则表达式状态转换之后,得到候选正则表达式集合,利用F值评估候选项的信息抽取效果,通过贪心的启发式策略选择一个最优正则表达式作为输出。在多种数据集上对算法进行测评。实验表明,该算法性能与准确度均优于常规的机器学习方法
其他文献
信息技术改变了现代社会的信息传播和获取方式,是知识经济时代引领潮流的技术,微课在这样的背景下也得到了普及和应用,对教育事业发展有很大帮助.英语学科在高中课程体系中的
向日葵在实际种植中技术落后,产量低,导致种植面积减少。本文根据朝阳地区的实际地理环境和气候条件,讨论了向日葵在种植过程中存在的问题,主要从选地与倒茬、施肥、种植密度
<正>目的在多年临床—实验室—临床中西医结合转化医学研究中提出"分子配伍"理论研发新药(现代中药),金港榄香烯脂质体(注射液、口服乳)是在"分子配伍"理论指导下研发成功的
会议
患者女,80岁。因左面前部眶下区肿物20余天入院。体检:患者左侧眶下区明显膨隆,表面皮肤颜色正常,无红肿破溃,皮温不高。扪诊:眶下区可触及4cm&#215;3cm大小肿物,范围内侧至鼻梁中线
犯罪心理画像是在侦查阶段根据已掌握的情况对未知名的犯罪嫌疑人进行相关的行为、动机、心理过程以及人员心理特点等分析进而通过文字形成对犯罪嫌疑人的人物形象及活动征象
本文对预分解窑热耗的几个影响因素进行了讨论。通过总结有关生产实际的工艺热工参数指出,在一定条件下,预分解窑的分解炉与窑头燃料用量比例与热耗的关系是非线性的,即存在一个
<正>为了提高医用器械的洗涤质量和工作效率,保证消毒灭菌效果,防止医源性感染,保证医疗护理质量和患者的安全,我院消毒供应中心于2008年和2009年分别购买了全自
会议
12月20日,建设银行总行在广州举行产品发布会,正式推出基于大数据应用的“跨境快贷-退税贷”外贸普惠金融产品。建设银行“跨境快贷-退税贷”是业界首个专门针对小微外贸企业
在新时代的发展水平下,我国的知识水平更新速率在不断地加快,这就在一定程度上刺激了我国政府对于教育的重视程度以及学生综合素质的培养在逐步加深.新课程改革的提出,为教师
针对粒子滤波(PF)在变桨距系统故障诊断中存在的样本贫化现象导致故障诊断精度低的问题,提出一种蝙蝠算法自适应优化粒子滤波的故障诊断方法。通过改进的蝙蝠算法优化粒子滤波的采样过程,并结合最新的观测值定义粒子适应度函数,引导粒子整体向高似然区域移动;同时引入一个动态自适应惯性权重来设计新的粒子全局搜索位置更新机制,自适应调整粒子的全局搜索与局部搜索能力的有效协调,改善粒子贫化及陷入局部极值的问题,以期