论文部分内容阅读
为解决大规模医药数据分析中的频繁集挖掘问题,提出一种稳定且具有良好扩展性的并行分布式算法P-FIM。该算法将挖掘任务分割成无相互依赖关系的同构子任务,实现有效的并行计算;并且充分利用Map/Reduce框架和集群环境的优势提高自身的鲁棒性和负载均衡能力。采用最大规模为512万条记录的中医药方剂数据进行算法性能分析实验,其结果表明,该算法在分布式集群环境中表现稳定,而且随着集群规模的增加其加速比接近线性。以P-FIM算法为基础设计实现的中医药数据相关性分析方案,可有效地从大规模临床数据中获得全面、可靠