几种典型数据挖掘方法及其应用研究

被引量 : 0次 | 上传用户:zdhm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,尤其是互联网的广泛使用,各种大容量的数据充斥着我们的生活。庞大的数据以文本、网页、图像等形式为人们传递着各种信息的同时,却带来了“数据爆炸,知识匮乏”的现实问题——从巨大的数据海洋中搜索出符合用户满意的信息(知识)更为困难。数据挖掘旨在从大规模结构化和半结构化数据集中检索出对用户有用的信息,在近二十年来受到了越来越多的关注并广泛应用于商业决策、市场分析、工业控制、医疗诊断等各个领域。现代临床医学及治疗过程产生大量的临床数据。对这些数据的分析和评估可以发现一些潜在隐藏的数据模式,从而帮助人们提高对疾病的认识,并增强对其传播的控制和管理。以从医学数据库中提取有用信息并进行科学医疗判断和治疗为目的,医学数据挖掘作为数据挖掘的一个重要应用领域,在近年来已成为一个研究热点。但相对传统数据挖掘的其他应用,医学数据挖掘在实际应用中面临更多挑战,如数据集的高维及不平衡性,数据的异构性和保密性,以及性能评估标准的严格性等。本文以KDD CUP 2008的竞赛为案例,综合分析了医学数据挖掘在实际应用中所遇到各种挑战。通过描述如何构建基于修正的Boosted树这一获得全球第四成绩的最终分类模型,详细介绍了传统数据挖掘方法在应用于医学数据库时存在的问题以及相应的解决方案。这一案例可以看做是医学数据挖掘的一个缩影,其中涉及到的一些问题及解决方案对今后将数据挖掘方法应用在医学问题中具有一定的指导作用。互联网的迅速发展为人们提供了更为便利的交流和共享平台,也促进了大量基于网络的虚拟社区的发展。社区挖掘作为社会网络分析的一个重要领域,旨在对社区成员之间的关系进行识别和分析,目前也已成为当前数据挖掘的一个研究热点。本文以DBLP (Digital Bibliography & Library Project)数据库作为试验平台,利用文献计量学及文本挖掘方法,对DBLP中的特定会议基于主题和作者信息分别构建了以给定会议为中心的局部社区。为了进一步分析各社区的发展和演化,我们还跟踪分析了该类社区相关成员对相似性的变化趋势。另外,基于计算机科学的各个研究方向,本文构建了14个不同的学科社区,并从著作增长率、合作趋势及人员流动性三个方面分析了各学科社区随时间发展的不同特点。这些隐藏在该大规模结构化数据库下的不同模式,可以为相关人员,如准备选择研究领域的年轻学生,负责基金评审和投资的相关人员提供决策判断的理论基础。
其他文献
作为开放经济中重要的相对价格,实际汇率对于一国经济实现持续健康发展具有重要意义。随着经济全球化的发展和中国经济开放程度的不断加深,作为重要的涉外经济变量,人民币实
立足我国当前制造企业产品创新团队使用的普遍性和绩效提升困难性的管理实践,以企业层组织结构特征四维度为解释变量、团队层知识整合能力为中介变量,构建了影响产品创新团队
近几年,我国进一步加大了政府投资力度,投资建设的很多大型项目往往都需要政府和多个企业共同完成。对于多组织共同完成一个项目的情况来说,各个组织一般都有其他多个项目需
中国博大精深的文化深刻影响了周边诸如韩国、越南、日本等国家。现代社会,中国文化的影响表现在社会生活的方方面面。日本在二战后经济高速增长,迅速地成为亚洲一个经济强国
清末地方自治运动是国家在内忧外患的情势下,在资本主义经济发展和资产阶级力量壮大的条件下,随着国人对西方政治文明与地方自治理论的逐步认识和探索而深入的。清政府试图通
以如何促进中学生的创新精神为主题 ,阐述了创新与创造的本质、层次和创新精神的含义 ;分析了中学教师在培养中学生创新精神方面的现状和我国教育至今未培养出获诺贝尔奖的科
主持人语中医药著作和期刊中的特方妙术,常令人掩卷沉思而拍案叫绝。然而,要在浩如烟海的中医药文献资料中,搜寻到最实用的方与术,实为不易!如果要对其方术明析精评或掘其隐
自20世纪80年代以来,世界范围内不断爆发金融危机,清理金融系统产生的不良资产、防范金融风险已成为必然趋势。我国金融系统中,尤其是国有商业银行,由于历史和体制的因素积累
随着互联网技术的不断成熟和广泛应用,网上银行在现代商业银行经营与发展中越发占据突出的地位。在缺乏直接沟通的网络环境中,服务质量成为网上银行体现差异化和竞争优势的关