面向中文菜谱的流程信息抽取方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:xm10282008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流程挖掘作为业务过程建模与分析的重要手段,已在计算机科学、管理科学、数据科学等多个领域得到了广泛的关注。目前的流程挖掘方法大多立足于事件日志,从中发现业务过程的相关知识。然而,现实世界中的大部分流程信息蕴含在自然文本中,如菜谱、病人入院诊疗记录、应急预案等,这种蕴含自然流程信息的文本为流程挖掘提供了新的数据基础和应用场景。因此,对这种自然文本的流程挖掘研究有重要意义。然而,由于自然文本是一种无结构化的数据,相对于规范格式的事件日志有更灵活的语法结构,这是传统流程挖掘方法所无法处理的。因此,要对蕴含流程信息的自然文本进行有效的流程挖掘研究,首要任务就是抽取这些自然文本中蕴含的流程信息并形式化表达。本文以中文菜谱这种描述具体流程案例信息的自然文本为研究对象,对流程信息抽取任务进行形式化描述,抽象出活动/属性实体识别、活动/属性关系识别、活动顺序关系识别3个核心任务,并设计案例自动抽取方法,实现了无结构过程文本向结构化事件日志的转换,从而为后续流程挖掘研究提供数据支持。本文主要工作如下:(1)将活动/属性实体识别当作序列标注任务,基于机器学习方法提出了半监督条件随机场模型,在少量人工标注数据的基础上充分利用同领域大量未标注语料;基于深度学习方法采用Bi-LSTM-CRF模型,以更好地利用输入文本的语法语义信息。(2)将活动/属性关系识别抽象为判断<活动,属性>实体对是否存在关系,进而可以用分类思想或者语义角色标注思想解决。根据活动/属性实体识别的结果生成<活动,属性>实体对,基于分类思想提出转导支持向量机模型,在模型训练过程中引入待分类的未标注数据,从而提升模型最终分类效果;基于语义角色标注思想提出联合学习模型,将活动/属性实体识别和活动/属性关系识别都看作序列标注任务,并通过引入新标注模式和改进网络架构将两个子任务整合到一个架构中。(3)为了对所提出的流程信息抽取方法的有效性进行全面评估,本文开展了大规模实验研究。实验结果表明,所提方法显著优于传统的基于规则的方法,相对于机器学习方法,深度学习方法对提升稀疏标签的识别率有很大帮助。本文提出的联合学习模型取得了最优指标,说明多个相关任务可以整合到一个架构中,并且有助于提升整体任务的效果。
其他文献
学位
现如今互联网、AI、传感器、5G通信技术迅猛发展,先进的数字电路领域需要同样高性能的模拟部分与之匹配。模数转换器(ADC)作为模拟与数字世界的转换桥梁,高精度Sigma-Delta ADC成为了研究热点。但是目前国内对高精度Sigma-Delta调制器的研究系统并不完善,电路结构制约性高。因此,本文设计了一个高精度Sigma-Delta调制器结构,并针对以上问题从两个方面对优化精度方面做出了研究。
软件老化通常是由软件故障激活的累积效应造成的,从而导致内存泄漏、操作系统资源耗尽等错误,最终致使软件失效或系统宕机。尽管通过抗衰操作可减少因软件老化、失效带来的系统性能下降等不良影响,然而何时实施抗衰操作仍有待研究。软件再生的频率很关键,过于频繁会延长停机时间,频率过低则无法及时解决老化问题,不能保证良好的运行效果。因此何时采取再生策略的重点在于能否准确预测出软件老化的趋势,根据预测结果适时采取再
机器人打磨作业磨削力控制是典型的非线性、状态时变型马尔科夫决策过程问题。针对传统机器人力控制方法对环境模型精确度依赖性高、不确定性环境适应差的缺点,研究了一种基于深度强化学习(DRL)算法的智能控制方案。该方案使传统机器人具备拟人化经验学习能力,在与作业环境交互过程中自适应拟合磨削力控制模型,补偿工具位姿修正误差进而实现恒力磨削作业。课题研究过程中的具体工作内容包括:(1)为满足深度强化学习算法的
学位
伴随着互联网技术的飞速发展,每时每刻都有数以千万计的用户接入互联网并产生海量网络的数据。海量的网络数据承载了丰富的网络状况信息和用户行为信息,它们对监测网络运行状
随着中美贸易战的上演,许多出口企业面临关税增加和客户的降价的双重巨大压力,如果不改变,就要被市场所淘汰。为了提升竞争力,企业除了降低价格,就是进一步提升产品质量,说到提升质量,国内除了沿用国际标准ISO9001的质量标准体系外,就是利用质量工具和质量管理方法来提高产品质量。目前最为流行和比较实用的就是六西格玛改进模型,很多国内企业在使用六西格玛改进模型后取得不错的效果。本文以五金家具行业K公司为例
信息不对称以及代理问题是上市企业中的常见问题,高质量的内部控制可以很大程度上缓解和解决这些问题,由利益相关者的理论可知,当企业落实内部控制制度时,股东和企业管理层趋向于共同利益,管理层才更容易对企业的投资决策做出正确且合理的判断,这个影响过程会对企业的绩效水平起到积极影响。对于目前所了解到的大多数文献中,处于理论领域中的学者对于内部控制质量的研究愈发详尽,其中很多研究是从股权结构、外部治理或独立董
学位
图像融合是指利用计算机技术,提取同一目标图像数据多源信道中的有效信息,将其综合成高质量图像的技术,在图像处理领域发挥着巨大作用。随着人工智能科技的发展,神经网络在图像融合技术上大显身手。本文研究了基于神经网络及方向滤波的多聚焦图像融合算法。针对该数据集的特点,设计不同方向角度的方向滤波器并将其预置进反卷积神经网络模型中;利用坐标上升法调整滤波器的截止频率,通过完成网络训练,得到学习后的滤波器组,使