论文部分内容阅读
随着大数据时代的发展,数据挖掘技术受到了学术界以及工业界的青睐和广泛应用。本文来源于东南大学米谷大数据联合实验室,面向产学研的专家推荐平台的项目,以聚类分析相关技术为核心,为平台提供后台的领域专家数据支持。顺应计算机领域的发展热潮以及相关高新产业的聚集,本文选择了计算机学科的领域专家进行研究。同时,由于专家数据源的多样性,无法实现自动化过程,故本文的数据源选择万方中计算机学科1990年至2016年的计算机学科学生学位论文125499篇。从学生的论文研究角度出发,推测其导师,即本文中的专家的研究方向。从大量数据中挖掘出所需的专家研究领域信息,对其进行分类。由于专家的研究方向无法预知,故本文的技术核心为无监督学习中的聚类分析,通过计算文本相似度进行划分。本文中分类与聚类概念等同,文本相似度代表关键词向量的相似度。本文的研究工作主要包括四个方面:1)数据的自动化获取。由于万方数据库实时更新,且格式统一,本文采用聚焦网络爬虫对数据进行实时的自动化爬取。主要解决的是网站限制访问以及cookie二次访问的问题,保持无须人工干涉的持续数据获取。2)数据的预处理工作。本文的文本数据使用向量空间模型,且原始数据量以及数据维度都在十万量级,故数据预处理工作的核心是对高维稀疏数据的降维处理。本文采用了特征抽取和特征选择实现数据的降维工作。特征选择引入论文标题字段数据,从机器学习与统计分析的角度,提出了结合CRF分词与全局TF-IDF技术的特征选择方法;特征抽取则在特征选择的基础上采用基于主题模型的LDA方法继续降维,共同完成特征空间的重定义。3)基于模糊聚类与狄利克雷过程的混合聚类算法研究。结合专家数据的实际情况,传统硬聚类方法无法实现一个专家有多个研究方向的问题。根据此情况本文提出了可将一条数据分到多个类的模糊聚类方法,同时在预处理时对专家数据进行预分类工作。该方法结合模糊聚类与狄利克雷过程的FCM-DP混合聚类方法,进行分层次聚类。不仅提高了数据处理的准确率,还能够更好地确定聚类主题。同时,通过数据后处理对结果进行优化。4)实验的结果评估与方法验证。本文的实验部分完成了对2)、3)中的研究工作的设计与实现,并通过相关评估参数对实验结果进行评估验证,对比分析了本文提出的特征选择、特征抽取以及FCM-DP混合聚类方法与其它经典方法的相关实验结果。同时结合LDA算法与专家地域关系信息完成了专家主题网络的构建。本文通过聚焦爬虫从网页上获取专家信息,提出了结合CRF分词与全局TF-IDF的特征选择、基于主题模型的LDA特征抽取以及FCM-DP混合聚类方法,实现了专家的分类工作,并通过已有经典基线方法对聚类结果进行了验证分析。不仅实现了专家数据的多类簇、动态分类,达到较高的轮廓系数指标;同时,还采用LDA方法定义了类簇主题,并通过分析专家的分布特点,构建了以地域为核心的重点高校的专家网络,使本文的研究成果可作为面向产学研的专家推荐平台的后台数据支持。