基于图的嵌入和维数约简方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:j19871010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去十多年间,数据收集和存储能力的显著进步在生物、天文学、统计学和经济学等许多科学领域都引起了“信息过载”的问题。研究者需要面对越来越海量的数据,和已经经过广泛研究的传统小数据集不同,这类数据对数据分析方法提出了新的挑战。幸运的是,很多实际数据集都存在隐含的少量参数控制其主要的分布变化,类似的情况出现在很多不同的研究领域中获取的高维数据中,比如生物信息学、机器人导航和自然语言处理等。这些隐含参数描述了一个低维流形,可以通过记录哪些流形上的点为近邻的图来表示。通过图嵌入,我们便可以获取描述隐含参数的低维坐标,进而揭示出数据潜在的结构,从而使数据探索、可视化和建模的性能更优。围绕这一目标,全文的主要工作概括如下:(1)线性判别分析(linear discriminant analysis,LDA)在数据挖掘、机器学习和生物信息学等领域是最为常用的有监督特征提取和维数约减工具之一。可是,LDA的计算通常需要求解稠密矩阵对的广义特征分解,计算负担较大,难以应用于大规模数据集。因此,在本文中我们提出瑞利-瑞茨判别分析(Rayleigh-Ritz discriminant analysis, RRDA)用于求解LDA,不同于以往需要将LDA转换为回归问题的相关方法,RRDA建立在求解通用特征值问题的瑞利-瑞茨框架基础上,同时,通过利用LDA问题的特殊结构,我们得以设计出快速的子空间扩展和瑞茨向量扩展策略。为了降低LDA应用中常见的样本不足问题的计算复杂度,我们也为其建立了RRDA的等价快速形式。此外,我们进一步讨论了RRDA的实现细节和收敛结果。在多个真实数据集上的实验结果表明了RRDA的有效性。(2)正则化线性判别分析(regularized linear discriminant analysis. RLDA)是用于处理LDA中小样本问题(small sample size,SSS)的维数约减方法。RLDA的一个尚未解决的重要问题是如何快速确定合适的正则参数,而不需诉诸交叉验证等扩展性较差的方法。在本文中,基于RLDA的几何解释,我们提出一种新颖的RLDA参数选择方法。我们进而给出所提出方法的理论分析,证明它对于训练数据特征空间的扰动具有鲁棒性。在多个基准数据集上的实验结果证明了该方法的有效性。(3)蛋白质相互作用网络为理解生物过程、功能和细胞内在复杂演化机制提供了新的渠道。为蛋白质网络建模,找出需要更少的结构假设、对噪音鲁棒和拟合能力更强的网络模型仍然是系统生物学的重要课题。在本文中,我们提出一种基于图嵌入的t-逻辑斯蒂语意嵌入(t-logistic semantic embedding,t-LSE)模型为蛋白质相互作用网络建模。基于蛋白质网络的几何假设,t-LSE试图自适应地将网络嵌入到低维空间,并使用非凸损失函数降低噪音的影响,实验结果证明相比于其它主流网络模型,t-LSE的拟合能力更强,同时我们所选取的非凸损失函数也显著地提高了对于蛋白质网络噪音的处理能力。由此,我们所提出的模型可以有助于基于图的蛋白质相互作用网络研究,更好地推断出其隐含的生物知识。
其他文献
目前,半监督机器学习方法不但在理论方面得到了深入地研究,而且在实践中已获得了广泛地应用。半监督学习的基本出发点是同时利用已标号和未标号样本进行学习,主要目的是借助
为贯彻1992年全国文物工作会议上中央对文物工作提出“保护为主,抢救第一”的指示精神,由国家文物局、中国文物学会主办,中国文物学会文物修复委员会承办,于1993年12月7日至1
随着我国改革开放的深入,集团企业越来越多元化,合并报表的编制在集团的发展中起着重要作用,合并报表是综合反映母公司和子公司组成的企业集团整体的财务状况、经营成果及现
彼得·德鲁克论证性地“发明”了我们目前所理解的现代管理学。也正是他提供了管理学的研究方法和技能,赋予其一门专业学科的可信性和能见度。
PDE约束的优化问题是指由偏微分方程组(PDEs)约束的优化系统。仿真问题是指在给定合适的数据(例如几何形状,系数,边界条件,初始条件,源函数)的情况下,求解偏微分方程组中的例
北京奥运村项目再生水热泵采用清河污水处理厂处理的污水作为水源,通过在清河岸边的取水、退水、换热和换热水输送系统及在奥运村内的冷热水制备和输送系统,为奥运村赛时、赛
当今学校的发展与学校信息化建设已经息息相关,要真正实现学校信息化的跨越式发展,其核心是依靠现代教育技术,坚持以技术应用驱动的方式,深化学校改革,创新学校的教育教学方
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近年来,随着科学技术的发展,人们逐渐意识到2-D离散非线性系统的潜在应用价值,但由于缺乏有效合理的模型使得2-D离散非线性系统的研究进展相当缓慢。本文是以2-D非线性系统的
符合中国国情的能源安全政策应是安全和环保原则的统一洁净、安全和高效应是中国能源政策的目标,而独立自主应是我国能源政策的立足点。