基于Aho_Corasick算法的中医药数据清洗方法

来源 :计算机时代 | 被引量 : 0次 | 上传用户:tianshi581
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医药经过数千年的发展,积累了大量的各种类型的数据.很多研究人员利用大数据技术,对方剂或药品数据预处理后,使用相关算法挖掘和探寻疾病诊疗规律,为新药研制、疾病诊治、医学科研提供科学的依据.但随着方剂规模的增大,人工预处理的方式效率低且易出错.因此,文章提出一种基于Aho_Corasick算法的清洗方法,将药物作为模式串,对方剂或药品的药物信息进行识别,规范统一方剂中的药物名称,为后续挖掘工作提供高质量的数据.实验结果显示,准确率达到95%以上,数据清洗效果明显.
其他文献
面对海量的学习资源,如何为学习者推荐与情境相匹配的学习资源是亟需解决的问题.文章在详细描述学习资源个性化推荐情境要素的基础上,构建了包含情境感知层、资源管理层、学习诊断层、个性推荐层及学习者界面的学习资源个性化推荐系统,并阐述了系统的推荐流程及实现.在情境感知理论的基础上,构建以情境感知技术为核心的学习资源个性化推荐系统,能提高学习资源与学习者之间的动态适应性,更好地服务于学习者的个性化学习需求.
针对公益诉讼案件内容复杂难以理解,专业术语特征难以有效提取等问题,提出一种面向公益诉讼案件的法条自动推送模型.使用BERT模型获取案件词向量,引入BiLSTM模型挖掘词向量更深层次的含义,解决长期依赖问题,设计CNN不同的卷积核尺寸提取不同粒度的专业术语特征信息,引入注意力机制,获取与当前任务最相关的特征.实验结果表明,在公益诉讼案件数据上,该方法的法条自动推送F1值为89.04%,相比传统的方法效果均有提高,验证了其可行性.
针对医院人工导诊效率和精确度较低的问题,提出了一种基于ATERDE(Automatic threshold Elites Regeneration Differential Evolution)和专家经验的混合DGC(Data Gravitation Classify)智能导诊算法.采用一种基于自动阈值的ERDE算法(ATERDE),以选出最优的客观权重矩阵;将ATERDE算法与专家经验融合,构建包含主客观信息的属性重要度权重矩阵;最后提出一种兼顾全局引力与局部引力的DGC算法,以减少数据不平衡对分类结果
众包测试是一种新兴的软件测试模式,具有测试周期短、测试成本低的优点.但是在众包测试中也存在测试人员水平不一、无法形成规范化测试用例的问题.文章提出一种基于操作记录的GUI软件测试用例生成方法,该方法将测试人员操作记录转化为规范化测试用例.实验结果表明,相对于手工测试生成的测试用例,该方法生成的测试用例在缺陷检测方面有显著的提高.
已有的图像加密算法,均是对整个图像同等加密,而对于感兴趣关键区域重点加密的算法还比较少见.本文章提出一种基于迷宫和时空混沌的选择性区域图像加密算法.利用mean-shift算法将图像分割为感兴趣关键区域和弱信息量的背景区域,并提取关键区域轮廓作为部分密钥保存;发挥迷宫可对不规则区域进行置换的优势,对关键区域进行像素位置置换;为保护关键区域的轮廓,对整个图像进一步进行像素值混淆加密;将原始图像信息与感兴趣关键区域轮廓信息与用户给定密钥结合共同启动加密过程,使加密过程与明文图像紧密相关,抵抗已知/选择明文攻击
传统CNN对重要通道特征关注不足,制约面部表情识别准确率.文章将通道注意力机制应用到面部表情识别中,即将通道注意力模块嵌入到卷积网络中.在Fer2013和CK+表情数据集上的验证结果表明,该方法有较高的识别率.
为了缩短健康体检排队等待时间、预测待检项目整体顺序,以X算法、精确覆盖、广义覆盖、Dancing Links作为理论基础,提出了应用Dancing Links X解决体检时间广义覆盖问题的方法.通过构建以服务时间成本、排队等待时间成本的总成本最小化为目标的Dancing Links X三重约束来搜索可行性解,并摘选最小值.以此模型完成的规划体检顺序,实现了对体检路线的预测,表明基于Dancing Links X三重约束的智能导检路径优化模型可以对待检项目顺序及时间节点预测,为导检的智能化研究提供新思路.
设施农业在我国已经广泛应用于种植蔬菜和中药等单体附加值较高的作物,但WSN采集节点数据冗余和寿命普遍较短的问题制约着设施农业的长足发展.为此文章结合WSN存在的问题提出了时空数据融合模型,该模型在时间和空间序列上采用TiNA、DPS阈值管理算法和自适应加权融合算法,实现误差数据清洗和空间环境参数整合.通过时空融合算法实验,数据发送量平均减少了6.09%,同时温度数据的精度提高了2.85%,验证了该方法的可行性和有效性.
二维码技术应用广泛,但是针对大批量、标签式的二维码应用场景,仍缺乏简单易用、方便快捷的设计与生成系统.文章分析了常用二维码标签生成系统的不足,设计并实现了一套QR Code二维码标签批量生成系统.该系统采用VBA实现标签批量生成功能、采用动态链接库作为二维码生成的编程接口.实验验证结果表明,该系统能够满足生产、经营、管理活动中对大批量、标签式二维码的需求,并具有灵活、便捷、高效等优点.
近年来基于MOOC的在线学习方式开始大规模普及,但是,海量的MOOC资源纷繁复杂,各大MOOC学习平台之间的课程数据也并未实现整合共享,从而使学习者在挑选合适的学习资源时面临极大困难.因此,设计并实现了一个面向个性化学习的MOOC资源库系统.文章介绍了该系统的整体结构、课程数据分类与建模方法、课程资源与知识点的映射方法、资源爬虫的设计和系统集成情况.该系统具有良好的实用性和可扩展性,可为个性化学习的MOOC推荐平台提供关键的基础数据及相关资源.