中文命名实体识别技术研究及检验检疫领域应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:yanghong098
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的全球化发展和互联网的快速普及,大量的货物流动、疫情疾病的防控、食品及卫生安全等信息上传到互联网平台中,检验检疫部门需要通过这些信息来抽取关键内容,采取对应的行动。命名实体识别是信息抽取的重要组成部分,在检验检疫信息抽取领域,产品实体名称作为信息的主要对象,也是实际应用中命名实体识别的重点。中文产品实体自身无明显词语分界且结构复杂、包含范围广泛,这些特点都增加了识别产品实体的难度。因此,在检验检疫领域中如何快速准确地识别出中文产品实体,具有重要的研究意义和实际应用价值。针对中文命名实体识别技术,本文进行了以下几个方面的研究:提出了一个特定领域的中文命名实体识别的框架。该框架包含半自动化语料库构建和中文命名实体识别模型两大模块。半自动化的语料库构建基于互信息和左右熵的短语提取算法来进行无监督的短语识别,建立候选实体集。中文命名实体识别模型模块基于神经网络与条件随机场模型的框架进行实体识别。提出了基于词格长短时记忆网络结合条件随机场模型进行中文产品实体识别的方法。本文结合不同的神经网络和条件随机场组成混合模型,将IDCNN+CRF,BiLSTM + CRF和Lattice LSTM + CRF三种实体识别模型,在 MSRA、Boson、人民日报语料、中文简历4份数据集上进行了对比实验。探索了在不同领域数据集上各模型识别中文命名实体的性能。在检验检疫领域实现了中文命名实体识别框架的构建与应用。基于互信息和左右熵的短语提取算法实现了标注语料的半自动化构建,基于词格长短时记忆网络和条件随机场模型实现了中文产品实体的识别。对比传统人工特征+CRF、BILSTM+CRF模型的实验结果,Lattice LSTM+CRF模型表现出了更良好的性能,同时也证明命名实体识别框架的可行性与有效性。
其他文献
白居易是中唐时期通俗诗派的代表,也是大量创作诗序的诗人。白居易的诗序具有"蔚温雅渊,疏朗丽则"的风格,不仅叙事细密详赡,描写简明生动,说理精切透彻,抒情真挚深厚,而且造语
目的研究宫颈上皮内瘤样病变发生发展与P16UK4A/Ki-67共表达的相关性。方法选取宫颈病变患者200例,病理诊断慢性宫颈炎43例、CINⅠ级39例、CINⅡ级41例、CINⅢ级39例、宫颈癌
采用直接沉淀法将氯化锌与氨水反应合成纳米ZnO粉末,通过X射线衍射和扫描电子显微镜进行表征.在模拟紫外光和可见光条件下,以亚甲基蓝(methyleneblue,MB)为印染废水中目标污
<正>自2006年社会主义核心价值体系的提出,2012年又在此基础上系统地概括出24字社会主义核心价值观,至今先后已过去了十余年。按照习惯思维,对核心价值观的宣传热度早就应该
但目前物流管理体制部门各自为政,地区分割限制,管理部门涉及发改、商务、交通、铁路、民航、邮政、农村、工信、网信、市场监督等诸多部门。传统管理体制、监管规则、监管模式
报纸
精品课程的建设具有涉及面广、标准高的特点。要把这项系统工程建设好,我们认为必须把课程建设放置到专业发展的背景下去审视。通过建精品课程,创特色学科,树品牌专业。在对
高速公路路面具有各种优点,但是周围的各种环境因素以及设计、施工和养护都会对其产生影响,导致路面出现裂缝或者麻面,如果不进行及时的维修,就有可能会导致危险的发生。但是
智能制造将把炼油及石化行业转化成为一个相互关联的、信息驱动的行业链。通过应用实时和高位值支持系统,智能制造能够实现协调运作、绩效导向的制造企业,该企业可迅速回应客
在司法改革的背景下,行政诉讼管辖制度所存在的问题以及应如何改革与完善日益成为学术界关注的话题。本文首先概述了行政诉讼管辖的基本内涵以及从理论上对行政诉讼管辖应有的
新的高中信息技术课程标准的颁布,是我国中学信息技术教学改革进程中的一件具有重要意义的事件,本文结合新课改理念,对信息技术教学中有关教学资源、教学设计、学生的行为方