论文部分内容阅读
利用网络爬虫抓取网络中名老中医医案数据,可以为医案数据挖掘提供优质的原始数据。提出了一种基于网络爬虫的名老中医医案数据采集与清理算法DCCA(Data Collection and Cleaning Algorithm),处理了12670个网页,抽取出28813条诊次数据。与传统方法比较,DCCA的抓取效率更高、处理结果属性清晰、处理后的数据冗余度低,极大地提高了中医药网站中名老中医医案数据采集与清理效果。