论文部分内容阅读
针对海量临床数据蕴藏的巨大价值难以有效挖掘的难题,将分散、破碎、异构的数据分为文档数据、二进制小文件和二进制大文件三类,并提出了一种适于数据挖掘的存储方案,该方案基于非关系型数据库Mongo DB实现了三类数据的一体化存储、统一规则访问及多样性查询、关联检索等功能。针对大文件直接访问造成系统性能不佳的问题,设计了一个由大文件各类关键特征信息组成的特征库,通过特征库的应用减少了大文件的直接访问。