论文部分内容阅读
随着科学技术的飞速发展,尤其是互联网的广泛使用,各种大容量的数据充斥着我们的生活。庞大的数据以文本、网页、图像等形式为人们传递着各种信息的同时,却带来了“数据爆炸,知识匮乏”的现实问题——从巨大的数据海洋中搜索出符合用户满意的信息(知识)更为困难。数据挖掘旨在从大规模结构化和半结构化数据集中检索出对用户有用的信息,在近二十年来受到了越来越多的关注并广泛应用于商业决策、市场分析、工业控制、医疗诊断等各个领域。现代临床医学及治疗过程产生大量的临床数据。对这些数据的分析和评估可以发现一些潜在隐藏的数据模式,从而帮助人们提高对疾病的认识,并增强对其传播的控制和管理。以从医学数据库中提取有用信息并进行科学医疗判断和治疗为目的,医学数据挖掘作为数据挖掘的一个重要应用领域,在近年来已成为一个研究热点。但相对传统数据挖掘的其他应用,医学数据挖掘在实际应用中面临更多挑战,如数据集的高维及不平衡性,数据的异构性和保密性,以及性能评估标准的严格性等。本文以KDD CUP 2008的竞赛为案例,综合分析了医学数据挖掘在实际应用中所遇到各种挑战。通过描述如何构建基于修正的Boosted树这一获得全球第四成绩的最终分类模型,详细介绍了传统数据挖掘方法在应用于医学数据库时存在的问题以及相应的解决方案。这一案例可以看做是医学数据挖掘的一个缩影,其中涉及到的一些问题及解决方案对今后将数据挖掘方法应用在医学问题中具有一定的指导作用。互联网的迅速发展为人们提供了更为便利的交流和共享平台,也促进了大量基于网络的虚拟社区的发展。社区挖掘作为社会网络分析的一个重要领域,旨在对社区成员之间的关系进行识别和分析,目前也已成为当前数据挖掘的一个研究热点。本文以DBLP (Digital Bibliography & Library Project)数据库作为试验平台,利用文献计量学及文本挖掘方法,对DBLP中的特定会议基于主题和作者信息分别构建了以给定会议为中心的局部社区。为了进一步分析各社区的发展和演化,我们还跟踪分析了该类社区相关成员对相似性的变化趋势。另外,基于计算机科学的各个研究方向,本文构建了14个不同的学科社区,并从著作增长率、合作趋势及人员流动性三个方面分析了各学科社区随时间发展的不同特点。这些隐藏在该大规模结构化数据库下的不同模式,可以为相关人员,如准备选择研究领域的年轻学生,负责基金评审和投资的相关人员提供决策判断的理论基础。