论文部分内容阅读
算法公开(透明)无法根治算法歧视
针对算法歧视,算法公开呼声颇高。算法是人工智能技术的核心基础,潜在的算法歧视则是公众担忧的焦点。不同领域的专家针对算法歧视提出不同的解决方案。比如,加州伯克利大学的研究者们就提出“算法的可解释性”,即在设计算法时加入另一个算法对其算法决策的过程进行忠实记录等。在众多方案中,算法公开呼声颇高,理由是算法公开能够曝光歧视性算法的恶意代码,并有效吓阻企图编制歧视性代码的程序员等。
針对算法歧视,算法公开的有效性有夸大之嫌, 还有许多副作用。一是算法公开并不必然保证公众知情权。算法通常表现为繁芜的程序、枯燥艰深的代码,体现了极强的专业性和技术性,一般社会公众根本不具备理解和识别算法的能力。因此,对公众而言,公开仅仅是形式而已。二是算法公开有时效方面的局限性。算法公开应当以算法的固定不变为前提,但随着机器学习水平的不断提升,算法程序可能会升级转化,即使是算法的最初设计者也无法完全理解迭代升级后的算法。此时,迭代后的算法早已不是最初公开的算法。三是算法公开不具有解决方案的整体性。算法歧视并不必然由算法程序本身产生,即使是中立性的算法,如果输入有偏见的歧视性数据也会导致算法歧视的发生。算法公开对数据层面的歧视并没有矫正效果,相反,单纯要求算法公开反而会帮助输入歧视数据者摆脱歧视指控。四是算法公开有违现代基本商业准则。算法是人类有意识的创造物,是知识产权的保护对象。同时,算法的具体内容对商业主体能产生直接的经济利益。强制算法公开可能侵害知识产权和商业秘密,也会破坏商业主体研发算法的动力。五是算法公开导致风险可控性减损。算法公开后,不法分子了解了算法程序的内在逻辑,反而更加容易操纵算法程序,客观上破坏算法的“中立性”。
数据比算法本身更容易导致歧视性后果的出现
算法通常不是算法歧视发生的直接原因。包括算法歧视在内的各种不同形式的歧视都根源于现实,是对现实歧视的映射。算法的优化往往有助于减少歧视的发生。现实歧视分为有意识歧视和无意识歧视两种。一是针对有意识的歧视。在现实中之所以存在故意歧视现象,很重要的一个原因就是事后没有充分的证据证明歧视行为曾经发生过,因而无法对歧视者施加制裁。但是,算法的编制者(程序员)却很难将脑海中的偏见直接灌输于算法中,这并非技术方面存在难点,而是因为一旦因为发生歧视性结果导致诉讼,进而引发强制披露,则算法的歧视倾向将被揭露。即使包含歧视倾向的算法没有引起诉讼纠纷,进而幸运地躲避过了强制披露,但也不代表歧视性算法没有曝光几率。因为算法的编制通常并非一人之力能够完成,而是涉及共享程序代码的团队,事后还面临不同人的审阅和调试,要保证算法的歧视性不被识别,有很大困难。而一旦算法被强制披露或被其他人识别,则明确的、有记载的代码恰恰成为了证明歧视存在的证据。这在欧美等国家和地区严厉惩治歧视行为的社会生态下,要背负沉重的法律代价。二是针对无意识的歧视。在现实生活中,每个人基于不同的生活经历、认知水平和文化背景,会对同一事物形成差异化的前见。这些前见通常是无意识的产物,与歧视在表现形式上很难截然分开。因此,现实中无意识的歧视行为可能暗藏于任何人的任何行为中,且难以防止和复查。但算法的最终生成是由编制者(程序员)一个代码一个代码地书写而成,它是程序员意识控制行为的后果,程序员对算法所追求的效果有清晰的预期。同时,现代编程实践也要求程序员记录(注释)程序正在做什么。正是得益于这种复杂繁琐的算法编制过程和明确的记录要求,大多数无意识的歧视会被剔除。
数据是更容易导致算法歧视出现的变量。鉴于数据具备导致歧视性后果出现的“天性”,输入具体算法的数据往往预先带有歧视性。一是数据采集的片面性。数据是对各种信息数字化处理后的具体表现形式,是统计学意义上的样本。样本采集面愈广、多样性愈足,分析处理过程中的误差愈小,结论的客观正确性愈高。在现实生活中,采集所有人、所有区域、所有时间段的数据并不具备可操作性,数据的采集依然离不开样本的操作思维。这就意味着输入算法的数据永远是片面的,区别只在于片面的程度不一。另外,算法之间亦有复杂和相对简单之分。越是复杂繁琐的算法,其链条越长,输入数据的片面性就会被放大得越多,计算后果的歧视性偏差也会越明显。二是数据“正义”的相对性。按照字面理解,避免算法歧视的出现,必备条件之一就是数据是正义的,即平等的、公正的。但是,平等、公正本身就需要切合具体场景,场景的转换极易使得此场景下正义的数据在彼场景下显得非正义。例如,在运用算法计算脑力劳动者的工作效率时,年龄数据的意义不大,执意输入年龄数据,可能导致出现年龄歧视后果。但是用相同算法计算体力劳动者的工作效率时,年龄是重要的考量因素,输入了年龄的运算结果才是实事求是的。在实践中,许多数据对不同场景的正负效应并不如年龄的例子那样明显,很难轻易判断出来。这种“正义”的相对性增加了数据取舍的难度。三是数据信息的可替代性。数据本身只是一个载体,其意义在于其需要传达的信息。这就意味着不同数据承载的信息可能是重复的,即数据 A 和数据 B 都含有相同信息 C。数据输入者的本意是想输入数据 A 承载的信息 C,但是为了避免发生输入数据 A 的表象行为,选择输入数据 B 从而实际代入了信息 C,这样表面整个运算过程与数据 A 无关,但实际结果与输入数据 A 相同或类似。例如,某家用人单位偏重于男性求职者,但是想从海量的求职者中只挑男性,无疑会触犯性别歧视的禁忌。因此,直接输入“性别”是不可取的,但并非没有曲径。现实中,男性的身高和体重通常会高于和重于女性。用人单位可以选择输入“身高”和“体重”数据从而达到实际排除女性的效果。由此可见,许多敏感的、歧视性的数据是可以被看似“无害”的数据替代,从而发挥数据输入者想要的后果。
结论与对策
算法歧视无法避免,只能尽可能控制。一是算法的事后公开审查。当出现算法歧视的后果之后,应当要求使用算法的商业主体向相应的主管部门公开算法,并阐释算法的内在逻辑,以供主管部门判断担责与否。不过,这种公开应当局限在一定范围内,仅向主管部门公开,供其审查。同时,这种公开应当是在歧视结果发生之后,因为事前公开不具备道义上的合理性,还可能泄露商业秘密。二是输入数据的存证备查。鉴于有倾向性的数据更容易导致算法歧视发生, 对输入数据的监管应是重点。应要求商业主体秘密存储输入算法的数据,同当初有关这些数据选择、收集和排除歧视性数据的相关活动都应被完整记录下来。当主管部门向商业主体质询时,商业主体应当提供上述记录,从而证明己方已尽到“合理”的注意义务,从而在数据输入层面对算法歧视后果没有过错。三是算法的固定周期复核机制。业界对人工智能的算法存在一种担忧,即随着机器学习的水平不断提高,算法会自动升级,发生不同于最初设计的异变,从而违背设计的初衷。为了防止这些现象出现,可安排对算法的定期复核,主要内容是算法是否发生变化、变化的具体影响。 明确算法歧视的责任主体和归责原则,尝试引入“纯粹经济损失”制度。一是明确算法歧视的责任主体。为算法歧视承担法律责任的,主要是那些注入歧视因子或有义务却未能及时排除歧视因子的主体。 一方面,如果算法本身就包含歧视内容,则算法编制者是责任主体; 另一方面,数据的选取、收集、输入者,在对数据进行选取、收集和输入的过程中,如果故意有歧视性操作并造成算法歧视后果的,也应承担法律责任。此外,因为算法可能会自我迭代进化,需要对算法进行定期核查。如果是核查者玩忽职守甚至于忽略自我进化后的算法呈现新的歧视倾向,则要承担相应法律責任。二是确定算法歧视的归责原则。算法歧视会给被歧视者造成精神或物质层面的损害,理应受到侵权法的规制。但算法歧视应当适用何种归责原则,即以什么样的标准来判断相关主体是否应为算法歧视负责需与传统情况有别;按照现有侵权法归责原则,主要有过错原则、过错推定原则和无过错原则。虽然侵权法以过错原则为大多数情况,但针对算法歧视的归责原则应当以无过错原则为准。因判断过错要透过责任者的外部行为,但算法涉及高深的专业知识,被歧视者通常不具备理解能力,更遑论透过算法判断商业主体的主观状态了。即使采用过错推定原则,商业主体也可以凭借专业知识和财富能力,证明自己并无过错,被歧视者亦无驳斥能力。因此,从救济被歧视者和增强公众信心的角度出发,以无过错原则更为合适。三是关注算法歧视带来的“纯粹经济损失”。“纯粹经济损失”是损害赔偿法的重要概念。一个经典的案例是:工人过失挖断电缆,因停电而导致工厂停工、冷藏库商品失效等。在这一系列的后果中,工人的行为只是直接损害了电缆,工厂主或者冷藏库主的财产、人身虽未受到工人挖断电缆行为的直接侵害,却因此蒙受经济损失,由此发生的损失被称为纯粹经济损失。实际上,纯粹经济损失的提出,是为了给予受害者充分完全的损害救济,但因为担心将此概念完全贯彻于立法会导致“诉讼泛滥”和每个人对自己行为后果的不确定性,因此各国立法普遍对纯粹经济损失持十分慎重的态度,除了极为特殊的情形,一般不予适用。在人工智能的算法时代,纯粹经济损失有了全新的意义。基于算法歧视的人工智能处理结果可能只是一个判断或决定,或许并未“直接”伤害受害者的人身和财产,但是受害者基于人工智能的算法歧视间接、客观地蒙受了巨大经济损失。按照一般的侵权损害赔偿原理,间接经济损失无法获赔,直接的经济损失又微不足道。“纯粹经济损失”则既能通过拉长损害赔偿的因果关系链条而实现充分赔偿,又具备理论合理性,是破解算法时代赔偿困局的法律方案中的一个重要方法。
针对算法歧视,算法公开呼声颇高。算法是人工智能技术的核心基础,潜在的算法歧视则是公众担忧的焦点。不同领域的专家针对算法歧视提出不同的解决方案。比如,加州伯克利大学的研究者们就提出“算法的可解释性”,即在设计算法时加入另一个算法对其算法决策的过程进行忠实记录等。在众多方案中,算法公开呼声颇高,理由是算法公开能够曝光歧视性算法的恶意代码,并有效吓阻企图编制歧视性代码的程序员等。
針对算法歧视,算法公开的有效性有夸大之嫌, 还有许多副作用。一是算法公开并不必然保证公众知情权。算法通常表现为繁芜的程序、枯燥艰深的代码,体现了极强的专业性和技术性,一般社会公众根本不具备理解和识别算法的能力。因此,对公众而言,公开仅仅是形式而已。二是算法公开有时效方面的局限性。算法公开应当以算法的固定不变为前提,但随着机器学习水平的不断提升,算法程序可能会升级转化,即使是算法的最初设计者也无法完全理解迭代升级后的算法。此时,迭代后的算法早已不是最初公开的算法。三是算法公开不具有解决方案的整体性。算法歧视并不必然由算法程序本身产生,即使是中立性的算法,如果输入有偏见的歧视性数据也会导致算法歧视的发生。算法公开对数据层面的歧视并没有矫正效果,相反,单纯要求算法公开反而会帮助输入歧视数据者摆脱歧视指控。四是算法公开有违现代基本商业准则。算法是人类有意识的创造物,是知识产权的保护对象。同时,算法的具体内容对商业主体能产生直接的经济利益。强制算法公开可能侵害知识产权和商业秘密,也会破坏商业主体研发算法的动力。五是算法公开导致风险可控性减损。算法公开后,不法分子了解了算法程序的内在逻辑,反而更加容易操纵算法程序,客观上破坏算法的“中立性”。
数据比算法本身更容易导致歧视性后果的出现
算法通常不是算法歧视发生的直接原因。包括算法歧视在内的各种不同形式的歧视都根源于现实,是对现实歧视的映射。算法的优化往往有助于减少歧视的发生。现实歧视分为有意识歧视和无意识歧视两种。一是针对有意识的歧视。在现实中之所以存在故意歧视现象,很重要的一个原因就是事后没有充分的证据证明歧视行为曾经发生过,因而无法对歧视者施加制裁。但是,算法的编制者(程序员)却很难将脑海中的偏见直接灌输于算法中,这并非技术方面存在难点,而是因为一旦因为发生歧视性结果导致诉讼,进而引发强制披露,则算法的歧视倾向将被揭露。即使包含歧视倾向的算法没有引起诉讼纠纷,进而幸运地躲避过了强制披露,但也不代表歧视性算法没有曝光几率。因为算法的编制通常并非一人之力能够完成,而是涉及共享程序代码的团队,事后还面临不同人的审阅和调试,要保证算法的歧视性不被识别,有很大困难。而一旦算法被强制披露或被其他人识别,则明确的、有记载的代码恰恰成为了证明歧视存在的证据。这在欧美等国家和地区严厉惩治歧视行为的社会生态下,要背负沉重的法律代价。二是针对无意识的歧视。在现实生活中,每个人基于不同的生活经历、认知水平和文化背景,会对同一事物形成差异化的前见。这些前见通常是无意识的产物,与歧视在表现形式上很难截然分开。因此,现实中无意识的歧视行为可能暗藏于任何人的任何行为中,且难以防止和复查。但算法的最终生成是由编制者(程序员)一个代码一个代码地书写而成,它是程序员意识控制行为的后果,程序员对算法所追求的效果有清晰的预期。同时,现代编程实践也要求程序员记录(注释)程序正在做什么。正是得益于这种复杂繁琐的算法编制过程和明确的记录要求,大多数无意识的歧视会被剔除。
数据是更容易导致算法歧视出现的变量。鉴于数据具备导致歧视性后果出现的“天性”,输入具体算法的数据往往预先带有歧视性。一是数据采集的片面性。数据是对各种信息数字化处理后的具体表现形式,是统计学意义上的样本。样本采集面愈广、多样性愈足,分析处理过程中的误差愈小,结论的客观正确性愈高。在现实生活中,采集所有人、所有区域、所有时间段的数据并不具备可操作性,数据的采集依然离不开样本的操作思维。这就意味着输入算法的数据永远是片面的,区别只在于片面的程度不一。另外,算法之间亦有复杂和相对简单之分。越是复杂繁琐的算法,其链条越长,输入数据的片面性就会被放大得越多,计算后果的歧视性偏差也会越明显。二是数据“正义”的相对性。按照字面理解,避免算法歧视的出现,必备条件之一就是数据是正义的,即平等的、公正的。但是,平等、公正本身就需要切合具体场景,场景的转换极易使得此场景下正义的数据在彼场景下显得非正义。例如,在运用算法计算脑力劳动者的工作效率时,年龄数据的意义不大,执意输入年龄数据,可能导致出现年龄歧视后果。但是用相同算法计算体力劳动者的工作效率时,年龄是重要的考量因素,输入了年龄的运算结果才是实事求是的。在实践中,许多数据对不同场景的正负效应并不如年龄的例子那样明显,很难轻易判断出来。这种“正义”的相对性增加了数据取舍的难度。三是数据信息的可替代性。数据本身只是一个载体,其意义在于其需要传达的信息。这就意味着不同数据承载的信息可能是重复的,即数据 A 和数据 B 都含有相同信息 C。数据输入者的本意是想输入数据 A 承载的信息 C,但是为了避免发生输入数据 A 的表象行为,选择输入数据 B 从而实际代入了信息 C,这样表面整个运算过程与数据 A 无关,但实际结果与输入数据 A 相同或类似。例如,某家用人单位偏重于男性求职者,但是想从海量的求职者中只挑男性,无疑会触犯性别歧视的禁忌。因此,直接输入“性别”是不可取的,但并非没有曲径。现实中,男性的身高和体重通常会高于和重于女性。用人单位可以选择输入“身高”和“体重”数据从而达到实际排除女性的效果。由此可见,许多敏感的、歧视性的数据是可以被看似“无害”的数据替代,从而发挥数据输入者想要的后果。
结论与对策
算法歧视无法避免,只能尽可能控制。一是算法的事后公开审查。当出现算法歧视的后果之后,应当要求使用算法的商业主体向相应的主管部门公开算法,并阐释算法的内在逻辑,以供主管部门判断担责与否。不过,这种公开应当局限在一定范围内,仅向主管部门公开,供其审查。同时,这种公开应当是在歧视结果发生之后,因为事前公开不具备道义上的合理性,还可能泄露商业秘密。二是输入数据的存证备查。鉴于有倾向性的数据更容易导致算法歧视发生, 对输入数据的监管应是重点。应要求商业主体秘密存储输入算法的数据,同当初有关这些数据选择、收集和排除歧视性数据的相关活动都应被完整记录下来。当主管部门向商业主体质询时,商业主体应当提供上述记录,从而证明己方已尽到“合理”的注意义务,从而在数据输入层面对算法歧视后果没有过错。三是算法的固定周期复核机制。业界对人工智能的算法存在一种担忧,即随着机器学习的水平不断提高,算法会自动升级,发生不同于最初设计的异变,从而违背设计的初衷。为了防止这些现象出现,可安排对算法的定期复核,主要内容是算法是否发生变化、变化的具体影响。 明确算法歧视的责任主体和归责原则,尝试引入“纯粹经济损失”制度。一是明确算法歧视的责任主体。为算法歧视承担法律责任的,主要是那些注入歧视因子或有义务却未能及时排除歧视因子的主体。 一方面,如果算法本身就包含歧视内容,则算法编制者是责任主体; 另一方面,数据的选取、收集、输入者,在对数据进行选取、收集和输入的过程中,如果故意有歧视性操作并造成算法歧视后果的,也应承担法律责任。此外,因为算法可能会自我迭代进化,需要对算法进行定期核查。如果是核查者玩忽职守甚至于忽略自我进化后的算法呈现新的歧视倾向,则要承担相应法律責任。二是确定算法歧视的归责原则。算法歧视会给被歧视者造成精神或物质层面的损害,理应受到侵权法的规制。但算法歧视应当适用何种归责原则,即以什么样的标准来判断相关主体是否应为算法歧视负责需与传统情况有别;按照现有侵权法归责原则,主要有过错原则、过错推定原则和无过错原则。虽然侵权法以过错原则为大多数情况,但针对算法歧视的归责原则应当以无过错原则为准。因判断过错要透过责任者的外部行为,但算法涉及高深的专业知识,被歧视者通常不具备理解能力,更遑论透过算法判断商业主体的主观状态了。即使采用过错推定原则,商业主体也可以凭借专业知识和财富能力,证明自己并无过错,被歧视者亦无驳斥能力。因此,从救济被歧视者和增强公众信心的角度出发,以无过错原则更为合适。三是关注算法歧视带来的“纯粹经济损失”。“纯粹经济损失”是损害赔偿法的重要概念。一个经典的案例是:工人过失挖断电缆,因停电而导致工厂停工、冷藏库商品失效等。在这一系列的后果中,工人的行为只是直接损害了电缆,工厂主或者冷藏库主的财产、人身虽未受到工人挖断电缆行为的直接侵害,却因此蒙受经济损失,由此发生的损失被称为纯粹经济损失。实际上,纯粹经济损失的提出,是为了给予受害者充分完全的损害救济,但因为担心将此概念完全贯彻于立法会导致“诉讼泛滥”和每个人对自己行为后果的不确定性,因此各国立法普遍对纯粹经济损失持十分慎重的态度,除了极为特殊的情形,一般不予适用。在人工智能的算法时代,纯粹经济损失有了全新的意义。基于算法歧视的人工智能处理结果可能只是一个判断或决定,或许并未“直接”伤害受害者的人身和财产,但是受害者基于人工智能的算法歧视间接、客观地蒙受了巨大经济损失。按照一般的侵权损害赔偿原理,间接经济损失无法获赔,直接的经济损失又微不足道。“纯粹经济损失”则既能通过拉长损害赔偿的因果关系链条而实现充分赔偿,又具备理论合理性,是破解算法时代赔偿困局的法律方案中的一个重要方法。