【摘 要】
:
随着大数据、移动互联网和社交媒体等技术的发展,网络空间中所蕴含的文本数据量呈指数级增长。因此,如何对这些文本数据进行分析并挖掘出有价值的内容(例如术语、实体、关系等)成为当前备受关注的研究领域。其中,从文本集合中抽取出描述某一特定领域(例如生物学、社交等领域)的术语是文本挖掘和信息抽取等领域的关键基础问题和研究热点。本文主要研究内容如下:首先,设计了一个自动术语识别框架,其可以动态扩展现有的自动术
论文部分内容阅读
随着大数据、移动互联网和社交媒体等技术的发展,网络空间中所蕴含的文本数据量呈指数级增长。因此,如何对这些文本数据进行分析并挖掘出有价值的内容(例如术语、实体、关系等)成为当前备受关注的研究领域。其中,从文本集合中抽取出描述某一特定领域(例如生物学、社交等领域)的术语是文本挖掘和信息抽取等领域的关键基础问题和研究热点。本文主要研究内容如下:首先,设计了一个自动术语识别框架,其可以动态扩展现有的自动术语识别方法。该框架从文本数据出发,通过一系列的算子对数据进行处理、分析之后自动识别出术语。该框架中的算子包括数据预处理算子、网络构建算子和异常子图检测算子。其次,针对现有的自动术语识别方法不能同时满足通用性和准确率的要求,提出了一种新的基于异常子图检测的自动术语识别模型ATRSD。这种模型可以有效地结合多种现有的自动术语识别方法并融合术语之间的语义关系,其在保证通用性的前提下,能有效提高自动术语识别的准确率。其中针对异常子图检测方法不能保证返回的子图质量的问题,提出了一种新的图转化成树的方法,并从理论上证明了该方法的合理性。最后基于现有的司法裁判文书数据对自动术语识别框架进行了实证分析,从包含有16种案由的司法裁判文书中抽取了司法领域不同案由的相关术语,证明了该自动术语识别框架的有效性。综上,本文成功将异常子图检测算法和自动术语识别方法相结合,为现有的自动术语识别提供了新的思路,提出的自动术语识别框架能为多个领域的自动术语识别任务提供支持。
其他文献
目的 优化系统,打通反馈路径,从多方面优化处方点评流程,为医疗机构点评工作从业人员提供参考。方法 成立处方点评专职组、制定培养机制,调研并重构抽样方法,增加点评软件线上反馈程序,联合多部门进行协作监管。回顾性分析医师线上回复变化,对比优化前(2021年1-4月)与优化后(2021年5-8月)处方医嘱点评数量、覆盖率和合理率等指标。结果 从实施线上反馈开始,医师回复率由10.12%增至40.05%。
针对冷轧罩退产品板面黑斑缺陷的形成机理,分析各种成因,提出了减少黑斑缺陷应采取的措施,对同类机组的质量控制有指导意义。
随着互联网以及深度学习技术的快速发展,数据驱动模型越来越流行。当前,对于电商领域的对话系统,研究者往往聚焦于其内的对话数据。虽然此种方式能够解决对话系统中用户的高频问题,但是针对某些长尾型问题通常缺乏泛化以及语义理解能力,并且会导致对话系统生成的答复缺乏流畅性和多样性。BERT预训练语言模型在自然语言理解任务中展现出了先进的泛化和语义理解能力。但是,由于BERT模型双向编码的特点,导致在答复生成任
为有效缓解某电厂660 MW机组前后墙对冲燃烧锅炉两侧墙水冷壁高温腐蚀及煤粉颗粒冲刷磨损问题,结合高温腐蚀的原因及机理,并根据现场设备情况,提出将靠近两侧墙的旋流燃烧器角度向炉内中心偏转3.5°。对燃烧器偏转前后的锅炉燃烧进行数值模拟,对比分析了燃烧器角度偏转前后的温度场、速度场、浓度场以及颗粒轨迹的变化,并将方案进行了工程应用。数值模拟和工程应用结果表明:燃烧器角度偏转后,炉内气流向炉膛中心集中
骨质疏松症是由于多种原因导致的骨密度和骨质量下降,骨微结构破坏,造成骨脆性增加,从而容易发生骨折的全身性骨病。该病症近些年来在以百万的数目逐年增加。医学上用来诊断该病症的辅助手段一般为CT、MRI等医学影像技术,这类技术通常会从不同角度对识别对象进行多方位断层切片成像,因此具有三维空间结构信息。而目前大多数的医学图像分析都局限在二维的检测方式,一定程度上摒弃了空间信息,极有可能出现判断的偏差。本文
视觉问答任务是目前机器学习领域中较为热门的一个研究方向。在视觉问答中,研究人员采用注意力机制或者单个图神经网络来建模图片中物体的属性及其关系,从而引入推理信息。除此以外,研究人员为了在模型训练过程中引入多种推理信息,构建了多个图神经网络。然而随着更加复杂的视觉问答数据集的提出,数据集中的图片存在大量物体及其属性,问题呈现出组合式语言,同时图片中的物体与物体之间存在纷繁复杂的关系。因此,如何从具有众
分子的性质预测任务,即根据分子的结构和组成预测出它的诸如水溶性、毒性等各项自身理化性质的任务,被广泛运用于药物发现、新材料研发等领域。近年来,机器学习方法越来越多地被用于分子性质预测任务,大大降低后期工艺失败的负荷,节省大量的资源和时间。然而现有模型一方面忽略了分子子结构的空间位置信息,难以区分结构很相似的子结构,另一方面,由于现实的分子无论空间上如何旋转,分子本身构象如何不同但若是原子间作用不发
目的:通过整理漳州市某院门急诊处方,对点评结果进行分析,提出改进方法,促进合理用药,保障用药安全。方法:回顾性分析2021年1-12月抽样处方点评结果。结果:共抽样点评2021年1-12月门急诊处方15399分,不合理处方共449份,平均合理率为97.08%。其中不规范处方(临床诊断书写不全)275份;不适宜处方共173份(适应证不适宜15份,用法用量不适宜96份,遴选药品不适宜49份,联合用药不
目的:分析西药门诊中应用处方点评的干预价值。方法:选取本院2019年1月至2022年2月门诊应用西药处方治疗的220例患者为研究对象,按照随机数表法将患者分为对照组与观察组,各110例。对照组采用常规处方管理方法,观察组采用处方点评管理方法,比较两组处方用药不合理情况。结果:观察组联合用药不合理、药物剂量与用法不当、药物重复使用、药物与诊断严重不符、抗菌药物等级过高发生率均高于对照组,组间比较,差
随着智能手机的普及,微博、推特等社交媒体的用户量迅速增长,社交媒体中每天都会产生大量结构化与非结构化数据。然而,这些数据具有高度异质性并且包含了大量噪声,用户很难直接从中获取有价值的内容,所以协助用户在海量社交媒体数据中寻找有价值的信息有重要意义,本文基于社交媒体数据本身存在的大图结构提出一种社交媒体图可视分析方法,帮助用户在大规模社交媒体数据中获得一些关键信息。本文主要研究内容如下:首先,本文提