面向网络诊断的患者自述信息抽取研究

被引量 : 1次 | 上传用户:sally20095
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络诊断作为一种新兴的诊疗手段正逐渐走入人们的视野,只要将自己的症状通过文字告知在线医生,就能得到免费诊断。越来越多的患者开始足不出户网上寻医,但有限的在线医生很难满足庞大的患者需求。本文主要采用基于模式匹配的信息抽取方法,以网络上患者对自身消化问题的表述文本为例,研究如何从中快速获取关键的诊疗信息,建立相应的信息抽取系统以推动网络诊断的自动化,缓解医疗资源的不足。研究包含三个主要部分:(1)网络文本的容错处理:提出一种容错处理算法以更正原始文本中的输入错误。在对常见输入错误进行分类的基础上,将这些错误的特征归为两类:全局特征和局部特征。并结合语料库方法,引入三个参数来刻画并识别这些特征:相似度函数值和编辑距离、多元语法概率差值、互信息差值。在测试集文本上运行后,该算法体现了较好的性能。(2)中医知识库建立:提出一种中医临床信息的知识表示方法,建立知识库以指导信息抽取。根据中医临床信息的特点和相关教材的表述,采用框架理论作为指导,建立了28种常见消化道中医证候的临床信息知识库。(3)人工模式提取和扩展:利用构式研究的语料库方法对文本中较为典型的模式进行人工提取,借助《同义词词林扩展版》进行模式扩展。用这些模式来匹配测试集中的文本,并从文本中抽取必要的信息,在一些规则的辅助下与知识库中的信息进行比对,由系统作出相应的诊断结论。本研究共获得模式567条,在测试集上利用这些模式获得了较好的信息抽取性能,系统对多数中医证候做出了正确的判断。该研究在语言学一些相关理论方法的指导下,以语料库为主要基础建立了有效的信息抽取系统,推动了网络诊断的自动化,并讨论了影响系统性能的重要因素,对未来的工作提出了展望。
其他文献
经济的高速增长丰富了国民物质文化生活,但是受限于污染密集型发展模式,经济扩张带有非可持续性,影响了社会总体福利。为避免环境危机带来的生态与经济损害,世界各国都规划了
随着经济的发展,中小企业在经济中的地位越来越重要,贡献也越来越大,但是其内部控制存在的问题也越来越多。主要问题是成长环境不完善,管理制度不健全,员工素质较低,监督机制
随着无线网络技术的日益成熟,无线传感器网络技术在工业生产、人类生活中的地位越来越不容忽视。由于其具有的低功耗、成本低、组网复杂度低、实现简单等优点,在很多领域都得
针对智能电网中低压电力线载波通信网络拓扑复杂,信道存在噪声干扰和多径衰减,需要对低压电力线信道和组网效率进行研究。针对现有的路由算法搜索时间过长,效率不高,提出了一种新
人类活动(开采、排放污染物和工农业活动)对可利用的水资源影响不断加强,在全球众多地区已经出现了水资源枯竭和水质恶化的地下水环境问题。地下水的开采量严重超过了天然补
从专属性试验、定量限、回收率、精密度4个方面,对头孢拉定残留溶媒的分析方法进行了确认,证明了其分析方法在实验室条件下的适用性。
电力通信网作为电力系统的专用通信网络,对保证电力系统安全、稳定、可靠运行起着至关重要的作用,是传统电网向智能电网转变的通信基础。随着智能电网的发展,电力网络规模日
在互联网技术迅速发展的今天,人们通过网络获取信息日益便捷。但同时也引起了信息冗杂、超量等问题。在这样的条件下,通过挖掘文本来获取关键信息成为改善互联网用户体验、提
京津冀雾霾严重地威胁着人民的生活与健康,近年来愈演愈烈,渐次升格成为颇为敏感的政治、社会乃至国际影响问题。“阴霾压顶”,折射的不仅是环境问题、民生问题、而且是发展
随着科学技术的发展,现代工程结构越来越大型化和复杂化,且由于长期受到变化的载荷作用以及突变的外在因素影响,容易造成结构的强度降低和疲劳效应,造成结构工作性能的退化。为了