中文药物名称命名实体识别

来源 :贵州师范大学 | 被引量 : 0次 | 上传用户:ilfang456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以中文药物命名实体识别为研究对象,运用语言学规则和统计学习中的隐马尔可夫模型,对网络医患问诊信息中出现的中文药物命名实体进行识别。本课题研究没有使用相关知识库,实验数据来自《寻医问药网站》的有问必答栏目,由患者提问及医生回答的意见建议组成。用该数据对模型训练后,辅之规则模板,对文本中出现的中文药物实体进行识别。通过调整概率平滑方式,在有限的训练样本数量下,以期模型预测达到较好的识别效果。本研究有望克服过度依赖药物词典库,难以处理未登陆词和数据稀疏等局限性,对推进命名实体的应用研究,发展自然语言处理技术具有实践意义。实验过程首先对文本数据进行预处理,完成标注工作。使用该标注语料进行隐马尔可夫模型训练,确定观测集合和状态集合,并计算出观测概率矩阵,状态转移概率矩阵和初始状态概率矩阵;然后对未标注的语料,进行模型识别效果测试。测试语料经分词后进入训练好的隐马尔可夫模型,采用维特比算法输出最优状态序列,对该序列直接进行模式匹配,或者去头掐尾,对特殊前缀词和后缀词进行二次分裂,再提取出相应的中文药物命名实体;计算实验结果的正确率、召回率,F1值,采用不同的概率平滑方式,对模型参数进行调优;最后结合句型、触发词规则,对结果进行校正,可以进一步提高识别效果;在真实数据集上的实验结果,正确率在80%左右,表明整个处理过程所采用的方法是有效的。
其他文献
人类社会的经济发展离不开便利的交通,桥梁是陆地交通中跨越沟壑、河流和峡谷的重要工具,随着大跨度桥梁理论研究的深入、桥梁施工技术的进步和国家经济建设的迫切需求,大跨
岩石的理论和试验方式已进行了大量地研究,但是现场实际条件的限制,现场试验难以开展,理论又难以分析到每一个具体的问题,再加上随着社会的进步和科技的发展,岩石的研究方法
对特厚砂岩顶板厚煤层工作面进行开采时,侧向坚硬顶板突然垮落失稳产生动载,从而对采场及采空区后方的沿空巷道产生扰动影响,矿压显现强烈,巷道锚固系统容易损伤破坏。本文基
自丹麦学者Fanger教授建立了PMV方程开始,稳态环境中的PMV指标(预测人体热感觉指标)已在热舒适研究领域内普遍应用。但是大量的热舒适现场研究表明,人体热舒适性存在显著的地域性和季节性差异,人体在特定的气候区和季节中形成了特有的适应性热舒适规律,不同的人群在不同气候和不同室内环境条件下生活时有着不同的热适应规律。这种规律如何变化,对室内热环境有哪些影响,国内外许多专家学者已经对此类问题开展研究
超声清洗在清洗质量、时效、环保等方面具有明显优势,应用日益广泛。但在批量清洗大件盘形工件时,由于零件之间相互遮挡导致零件被遮挡面声场强度达不到清洗要求,清洗质量差,
随着纳米科技的快速发展,具有单一功能的纳米材料已经无法满足人们的需求,因此,多功能纳米材料逐渐成为了材料科学、化学和凝聚态物理领域的研究热点之一。纳米纤维纱线作为
C形壳构件的形状类似于生活中常见的钢卷尺,将C形壳构件特殊处理后,因其力学性能突出,在工程上被广泛应用。基于C形壳构件的可恢复性能,本课题组将其与粘弹性阻尼器相结合,提出了一种新型可恢复框架结构体系,该体系将C形壳构件应用于结构底层为薄弱层的框架结构中,可实现震后薄弱底层的快速修复。本文采用试验、有限元模拟以及理论分析等手段对该新型可恢复框架结构体系进行了以下探索性研究。(1)为了解C形壳构件的基
近年来我国社会经济快速发展,能源消耗急剧上升,颗粒物污染问题日益严重,导致国内部分城市雾霾天气频繁出现,已引起了政府及国内外学者的广泛关注。甘肃省酒泉市地处河西走廊
随着经济的发展与科技的进步,能源利用和生态保护成为两大重要的课题,由于摩擦而造成的能量损耗占整个能源损耗的30%~50%以上。机械设备运作相互面的接触带来摩擦和磨损是设
目前,氯化重金属废水常用的处理方法有生物法、化学沉淀法、电化学法、离子交换法和吸附法等。采用电化学法处理废水,具有节省试剂、可与其他技术联用、二次污染少、设备体积