基于谱聚类度量的歧视发现与公平机器算法

来源 :南京审计大学 | 被引量 : 0次 | 上传用户:hanyeliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的发展,机器学习技术越来越多地应用于社会各个领域,用以辅助或代替人们进行决策,特别是在一些具有重要影响的领域,例如,信用程度评级、学生质量评估、福利资源分配、疾病临床诊断、自然语言处理、刑事犯罪判决等。如何提升机器学习算法的公平性,保护到弱势群体的利益,直接影响到社会和公众对机器学习的信任,以及人工智能技术的应用与系统部署。公平性机器学习目标是在分析数据的同时考虑到公平性、中立性和独立性等潜在问题。公平性机器学习算法的两个主要任务是不公平检测和不公平预防。在提高算法分类公平性的算法分类中,基于数据预处理的歧视样本发现是一类简单有效的方法,本方法的核心在于计算样本间的相似度量。考虑到衡量非结构化或高维数据的相似度量是机器学习中非常具有挑战性的问题,本文利用谱聚类算法原理将复杂结构的特征数据通过谱聚类进行非线性数值降维,然后利用标准欧式度量筛选出目标训练集,对目标集中的所有样本通过距离度量方法判定样本是否具有歧视性,并进行训练集的修改。针对Adult Income和German Credit公开的数据集,通过实证进行了歧视消除算法的对比分析。在实证分析中,基于决策树、支持向量机算法初步决策分类,后根据两类公平性指标对分类结果进行度量,验证未进行公平性处理的分类结果确实存在着不公平。经过对比,本文的方法具有更好的分类公平性和准确性。
其他文献
金融风险测度与预测一直是经济领域研究的热点问题,尤其对于波动性较大的可投资产品而言,比如股票、期货与期权等。常用度量风险测度方法是Va R模型,与统计学的分位数模型是一致的。然而,传统的分位数回归模型无法反映分布尾部的极端风险,从而容易导致过度乐观的风险值。与分位数回归相比,expectile回归模型不仅具有良好的数学性质(如一致性和可引出性),而且可以刻画分布尾部的极端损失或收益。鉴于此,本文首
学位
研究股市波动的理论众多,使用不同模型得出的结论也千差万别,自2008年GARCH-MIDAS模型出现后,越来越多的学者使用该模型研究股市波动与宏观经济发展之间的关系,本文使用该模型变体GJR-GARCH-MIDAS模型从宏观层面进行研究分析对股市波动的影响。本文在已有文献的基础上,将从以下几个方面进行分析:首先,本文对选取的收益率序列建立GARCH、GJR-GARCH、EGARCH模型,通过对比不
学位
一直以来,金融风险的度量与管理是金融界普遍关注的热点问题。而金融资产波动率作为量化金融风险的关键指标,它的预测在金融风险研究中具有重要的作用。良好的波动率预测不仅能够帮助投资者规避股市波动带来的风险,还能够有效防范贸易、投资等领域的风险,在一定程度上促进文明股市交易环境的构建。在实际研究中波动率预测面临着巨大的挑战。一方面在于波动率预测的影响因素较多,不同因素之间具有复杂的非线性关系。另一方面,在
学位
在股票市场上,行业板块波动特征与行业发展存在复杂多样联系,准确描述行业板块的波动性特征有助于探索该行业的发展形式及变化特征。世纪疫情对我国股票市场各行业板块造成强烈影响,给股票市场带来不确定性。基于此,本文通过研究新冠肺炎疫情发生前后各个行业板块波动性变化特征,分析疫情对该行业的影响,通过行业板块在不同时间的收益率序列来探索疫情前后行业板块波动的聚集性、非对称性和行业之间的传导方向是否发生变化以及
学位
金融资产的波动率预测研究一直是个热门的研究方向,金融资产的波动率预测模型大多基于传统时间序列模型进行开展。随着计算机领域的发展,深度学习等神经网络算法取得突破性的进展,怎样才能更好地借助这些理论使波动率预测更加准确还需要更深入的研究。随着我国在金融期权和商品期权市场的不断丰富和扩大,同时基于期权的杠杆性和收益不对称的特点,通过期权投资策略的构建,使投资组合的风险降低的同时提高投资组合收益对于投资者
学位
近年来,数字经济作为一种新的经济形式,已然成为撬动经济增长的新动能。数字经济的发展改变了居民原有的的消费模式和消费习惯,并拓宽了居民的消费渠道。研究数字经济对于居民消费的影响和作用,对畅通国内大循环、拉动内需、促进消费有着重要意义。在系统梳理相关文献基础上,本文首先界定数字经济和居民消费扩容升级的概念,理论探讨了数字经济发展对居民消费的影响路径;其次,利用CRITIC赋权法和泰尔指数及其贡献率测算
学位
随着我国经济飞速发展,居民生活水平得到了大幅度提升,但地区间发展不平衡、分配不均等问题仍然存在,我国中等收入群体比重并未出现大幅度的提高。截至2018年,国家统计局提出,以典型的三口之家计算,我国家庭年均收入在10万元-50万元内的中等收入群体大约有4亿人,是世界上规模最大,最具有发展潜力的中等收入群体。然而还应看到的是,我国人口规模较大,中等收入群体规模不足30%。要形成稳定的“中间大、两头小”
学位
事件抽取是指将用户感兴趣的主体、客体、时间等信息,从非结构化的文本中,自动检索并编辑成结构化的数据呈现给用户。因此,事件抽取在文本摘要、信息检索、情感分析、信息收集等领域有着广泛应用。近年来,随着深度学习的发展,事件抽取方法也从传统的基于规则的抽取发展到如今主流的基于深度学习的抽取。本文就基于深度学习的事件抽取模型优化问题开展深入研究,主要工作如下:(1)从优化训练方式角度出发,针对基于预训练语言
学位
癌症是导致非自然死亡的重要疾病之一。引起癌症的原因非常复杂,遗传、生活习惯、工作环境等因素都会对人体健康带来潜在的影响。肝癌是较为常见的恶性肿瘤,医学专家致力于癌症早期诊断治疗研究,相比较传统的诊断方法,基因芯片技术则从基因表达层面提供癌症特性,可以从高纬度基因集合中提取有用信息。本文数据来源TCGA数据库,研究原发性肝癌样本与正常样本的基因表达数据,找出能够判别两类样本的差异基因并结合临床数据分
学位
从改革开放到现在,我国不断扩大对外开放引进外商直接投资,而外商直接投资在我国的发展区位十分不平衡,主要集中于东部沿海地区。但随着国家大力引导外商直接投资进入内陆省份,中西部地区近年来也迎来了发展外商直接投资的良好机遇。湖南省作为中部省份之一,进入21世纪以后,外商直接投资的规模随着国家的趋势持续扩大,到2020年增幅已居全国前列,因此研究湖南省外商直接投资的影响因素以及对湖南省未来外商直接投资进行
学位