基于多标签CRF的疾病名称抽取

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:hzzaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医疗文本中的命名实体识别对于构建和挖掘大型临床数据库以服务于临床决策具有重要意义,而其中一个基础工作是疾病名称的识别。医疗文本中存在大量的复合疾病名称,难以分离抽取出其中的实体。针对这一问题,提出一种基于多标签的条件随机场算法,首先对数据标注多层标签,每层标签针对复合疾病名称中的不同疾病,然后用整合后的最终标签去训练模型,最后再对模型预测的标签进行分离。此方法能够识别传统条件随机场算法无法识别的复合疾病名称,实验结果验证了所提算法的有效性。
其他文献
码书生成是基于矢量量化压缩体绘制的关键之一,初始码书对码书生成算法有较大的影响。现有的码书初始化方法需要对原始海量数据进行多次迭代,数据频繁在硬盘、内存和GPU(图形处理器)之间进行数据传输,导致算法效率不高。针对码书生成的初始码书提取问题,提出了基于数据流聚类策略的初始码书生成算法。其基本思想是将海量三维数据体当做一个数据流(分块),对每一部分数据形成局部码书,再对所有的局部码书进行分类形成最终
现有循环并行识别方法用于众核处理器时存在一定不足,当选择的循环并行维迭代数较少时可能导致严重的负载不均衡。针对这一问题,提出了一种面向众核处理器的多维并行识别方法。在现有并行识别方法无法做到较好的负载均衡时,选择嵌套循环的多个维进行并行,将多个并行维的迭代空间合并后再作任务划分,减少负载不均衡对程序并行效率的影响。此方法在已开发的自动并行化系统中进行了实现,实际应用过程中能够很好地提升一些应用程序
针对隐式数据单纯利用隐反馈信息往往难以获取较好推荐性能的问题,提出一种融合元数据及隐式反馈信息的多层次深度联合学习(multi-level deep joint learning,MDJL)推荐方法。它利用双深度神经网络共同学习,其中一个网络利用隐式反馈学习用户及项目个体个性化关系,另一个网络利用元数据学习高层次群体共性化关系,从而有效地表达用户偏好,使MDJL框架在个体及群体因素间达到平衡。最后
针对大型协作环境中移动机器人的全局定位问题,提出根据机器人车载传感器、环境传感器以及其他机器人的实时数据估计移动机器人的位置。首先,提出的方法整合大量不同类型传感器;然后,考虑了测量值数量可变、通用测角测量、受容错约束的测量统计知识等约束条件,将非线性边界误差估计问题看做一种反演集合;最后,处理特定类型的异常值和不精确环境下的模型误差。完成了误差和异常值的处理,就基本上获得了定位图,解决了移动机器
为了保护个人隐私,用户倾向于在数据上传至云服务器之前将其加密。相同的明文数据被加密成不同密文数据,使云服务器无法识别出重复的加密数据。现存的解决方案多数依赖可信第三方,且没有划分数据流行度,导致安全性与执行效率较低。提出一种无须可信第三方的自适应重复删除方法。利用完美散列函数检查数据的流行度,使用口令认证密钥交换协议与同态加密安全传递数据的加密密钥,在保证用户数据隐私的前提下进行安全的重复数据删除
将流形学习中的t-SNE算法引入仿生嗅觉领域中,提出一种基于t-SNE(t-分布邻域嵌入)与LDA(线性判别分析)算法相结合的气味分类鉴定新方法。由PEN3电子鼻获取物质气味特征信息,通过t-SNE算法将非线性、高维度的气味响应数据降维到低维空间,并利用LDA算法对低维数据进行分类和识别。利用五种不同成分的纺织品材料气味信息,通过t-SNE、PCA+LDA和t-SNE+LDA三种算法做对比实验。实
针对从自然标注大数据中抽取历史沿革主题信息的问题,提出了一种融合PAM主题模型与主题偏好TextRank的方法。该方法利用PAM主题模型获取历史沿革主题基于其他相关主题的分布和不同主题基于词的分布;主题偏好TextRank算法则根据PAM所获得的主题和词的分布,在随机游走的过程中更加偏好于与历史沿革主题相关度大的节点,从而更有利于抽取历史沿革主题信息。因历史沿革主题特征复杂,与其他主题关联度大,词
针对智能手机佩戴位置多样性对移动用户行为识别结果的影响,提出一种位置无关的多模型移动用户行为识别方法。该方法通过计算手机加速度传感器所采集到的行为信号在不同佩戴位置的特征相似度,与预先计算的不同佩戴位置特征相似度进行比较,并采用相似度最大的位置特征作为测试样本,利用极速学习机(extreme learning machine,ELM)分类器对移动用户行为进行识别。实验结果证明,相对于不区分佩戴位置