基于网络结构的多源高维数据整合研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:rdx200901as
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据浪潮席卷世界,新兴的数据问题给传统数据挖掘技术带来了很大的挑战。首先是数据来源的多样性,比如针对同一疾病的电子病历数据可能来源于不同医院,再比如房地产交易数据也可能来源于不同社区等。虽然这些数据是针对相同或者相似任务收集的,但是由于测量环境、测量标准或统计口径等因素的差异,存在不可忽视的异质性。其次是数据的高维与稀疏性,大数据的价值密度低,任何有助于解释的微小信息都将被收集起来,在建模时需要对信息提纯去噪。为了改进已有研究对复杂多源高维数据集建模的局限性,本文参考前人方法,提出了一种新的思路。针对异质性问题,我们可以利用数据源间的相关信息来减轻整合任务的复杂性;同时为了解决数据的高维和稀疏问题,可以将变量选择方法与整合分析方法结合,以适应高维情况。据此,本文提出融合多源高维数据的snMCP(sparse network Minimax Concave Penalty)-Logistic 模型,将网络结构引入整合分析中,对于有网络连接的数据集的模型系数施加Network MCP惩罚项来自动识别同质数据和异质数据,并利用MCP惩罚项筛选每个数据集的重要变量,能同时实现各个数据源的模型估计和聚类。针对大型复杂目标函数,本文推导了相应的 ADMM(Alternating Direction Methodof Multipliers)算法用于分布式求解优化问题。通过三组不同的数值实验,尽量模拟真实条件下的数据集,使用参数估计、变量筛选和分类效果三类评价指标作为判断标准,与snLasso-Logistic、局部模型(Local MCP-Logistic)、全局模型(Global MCP-Logistic)进行对比,来验证所提方法的效果。模拟实验表明所提方法在特征选择、参数估计和分类预测准确率上都有良好的表现。在实证分析方面,本文选择具有397个来源的异质性房地产租赁评价数据进行分析,利用经纬度位置信息构建数据源间的网络结构,建立snMCP-Logistic模型。实证结果表明,本文所提方法能有效利用地域因素产生的异质性,提高模型的分类能力,不仅得到的AUC指标在所有模型中最高,而且可以针对不同区域位置给出相应的重要变量集合,提高了模型的解释力度,增加了今后数据收集工作的针对性,展示了本文所建立方法在实际应用上的良好表现。
其他文献
网贷行业作为中国金融科技发展早期探索阶段的产物,经历了由盛至衰的过程。虽然网贷行业经历集体清理及转型,但其发展历程有助于深刻理解金融科技的发展规律、把握金融科技未来的发展脉络。金融市场情绪研究是行为金融学的重要领域,在大数据推动下,研究者开始从媒体新闻、公司报道和社交网络等方面提取出文本的情绪信息。对于P2P这样的非正规金融行业,缺乏金融持牌的背书,即便自身资质优秀的平台,也很容易受到整体行业情绪
学位
MOOC(Massive Open Online Courses)的诞生与迅速发展,被誉为教育史上的一场革命。然而,MOOC的教学实践却存在师生互动不足、学生学习体验不佳的弊端,其僵化的教学模式并不能满足21世纪知识型社会对人才的要求。在线讨论作为协作学习的方式,是完善学习体验、促进知识创新、培养高素质人才的关键,重视在线讨论,发展交互和协作的学习模式是MOOC高质量可持续发展的重要途径。知识的交
学位
改革开放以来,中国经济取得了高速发展。但与此同时,环境污染问题也日益突出。为了改变这种情况,中央及各级地方政府越来越重视环境保护问题,希望通过环境规制阻止生态环境恶化、促进经济健康发展。在此背景下,客观判断环境规制对环境改善及经济增长的影响就显得极为重要。随着各界对可持续发展问题的重视程度不断提高,很多学者在讨论经济增长时开始考虑到环境因素,将地区的绿色经济增长情况作为衡量经济发展质量的指标。但关
学位
Tetlock(2010)研究发现,公共信息的披露向市场传递了信息,有助于缓解投资者之间的信息不对称、提高市场中非知情交易者释放流动性的意愿,但同时,出于风险厌恶,投资者不会在公布日一次性释放流动性,而是选择逐步释放,这一过程将导致股票收益率动量增加。另外,由于知情交易者在披露前就已根据私人信息进行了预期调整和交易,此时股票的价格与交易量均主要受到非知情交易者行为的影响,因而股票收益率绝对值与交易
学位
不同于传统的单标签分类问题,多标签分类问题中,一个样本通常由多个标签共同定义。由于数据搜集技术的快速发展和数据存储技术的多样化,多标签数据普遍存在,加上多标签分类问题更加符合人们对实际问题的认知,因此多标签分类问题被广泛研究和应用。从多标签分类问题提出以来,涌现出了许多经典的算法,一类是将多标签数据集转化为单标签数据集进而使用单标签分类算法的数据转换算法,另一类是将单标签分类算法进行改进直接应用到
学位
住房价格的上涨在一定程度上会增加人们的生活成本,从而导致就业人员的流出。但是另一方面,就业人数的变化又会影响住房的需求,从而引发住房价格的变动。本文选取2005-2017年中国285个地级市的面板数据,利用城市不可用地占比和五年期以上贷款利率的交互项以及上一年度的土地“招拍挂”出让面积作为住房价格的工具变量,进行两阶段最小二乘法回归,研究住房价格的变化对就业人数的影响效应。研究结果表明:1、城市住
学位
“一带一路”倡议第一次提出距今已有7年,作为我国“走出去”战略的重要方针,“一带一路”倡议成为了我国新形势下对外合作的新导向,更是企业布局全球、扩大经营的契机。中国与“一带一路”沿线国家的合作正不断深入推进,但是“一带一路”沿线国家也为中国企业海外投资带来了巨大的风险。“一带一路”倡议在沿线国家的投资和建设涉及了大量投资周期长而且收益率较低的基础设施项目,包括交运、港口、电力、通信等多个领域的建设
学位
伴随人力资本相关理论的发展和经济增长理论的改进,人们越来越关注教育所体现出的经济属性。改革开放后,中国的教育得到快速惊人地完善,然而其发展无法仅靠公共教育方面的投资获得解释,家庭的私人支出在一定范围内对公共教育投资进行了补充。从微观视角出发,探索我国家庭在子女教育方面的经济决策,既包含一定理论意义也具有一定现实价值。本文用父母对于子女的教育期望和教育参与程度进行因子分析,计算综合得分并用以度量家庭
学位
从节电和降低蒸汽消耗两个方面对电石法PVC生产过程中的节能措施进行总结,为同行业的节能降碳提供可借鉴的思路。
期刊
<正>由青岛大学、青岛创智恒业新材料有限公司和大冢材料科技(上海)有限公司申请的专利(公布号CN 114106606A,公布日期2022-03-01)“防轮胎变色保护液及其制备方法”,涉及一种可常温固化的具有超强耐候性的防轮胎变色保护液及其制备方法。保护液配方(用量份)为水性环氧树脂15~25,增韧水性树脂20~35,改性剂0.5~2.5,可反应型紫外线吸收剂1~2,活性剂1~3.5,成膜助剂等其
期刊