文|创瞰巴黎
导读
机器学习算法能够识别规律,因此,即便是最不起眼的偏见,也会影响到整个算法,最终导致偏见的延续和放大。人工智能技术为什么存在偏见问题?本期带您了解机器学习算法的运作机制,弄清其本质,找出避免问题的方法。
一览:
- 机器学习有三大主流方法:有监督学习、无监督学习、半监督学习。
- 机器学习算法能够识别规律,因此,即便是最不起眼的偏见,也会影响到整个算法,最终导致偏见的延续和放大。
- 算法以历史数据为基础发掘规律,以解决当下问题,但容易出现“数据泛化”的问题——总结出过于片面的规律。
- 人工智能的使用也牵涉到权力的分配:数据使用权等伦理问题可能会不断涌现。
- 民众应充分利用人工智能技术,以协作的方式实现广泛赋能。
要想解决人工智能技术存在的偏见问题,我们必须首先了解机器学习算法的运作机制,并弄清其本质。法国CEA-List研究所人工智能和机器学习专业博士后Victor Berger表示:“很多人都认为,所有的问题都能在数据集中通过统计学手段找到答案。”
01 三大主流学习方式
“有监督学习”是机器学习中最简单,也是最常见的方法。Berger解释道:“假设一个数据库中存有动物图片,那么有监督学习相当于告诉算法:狗的图片、猫的图片、鸡的图片对应着‘狗’、‘猫’、‘鸡’等名词。此后一旦给算法某个特定的输入(图片),就会得到一个特定的输出(名词)。机器翻译就是典型的有监督学习算法。”
“无监督学习”是第二类算法,也就是说,对于一个给定输入,不告诉算法现成的输出。“以上文的数据库为例,无监督学习指给机器输入一张张动物图片,让算法自主进行统计归纳,从而对输入进行分类。”
“监督算法的数据集发挥着至关重要的作用。”
第三类算法名为“半监督学习”。Berger称:“在前两类学习模式下,代码能够让算法不断自我改进。但在半监督模式下,算法只能分辨出任务完成与否,并不会得知改进方式。此时,影响算法学习能力的将是环境,以及环境对结果作出的反应。”
在上述三种学习模式中,提供给算法的数据集均发挥着至关重要的作用。Berger强调:“机器学习算法擅长识别规律。”因此,即便是最不起眼的偏见,也会影响到整个算法,最终导致偏见的延续和放大。
02 数据泛化
瑞士科创企业Tournesol的联合创始人Lê Nguyên Hoang是一名数学博士,他在人工智能的普及上做出过许多贡献。在他看来,“数据泛化”这一现象在机器学习领域无处不在。“纵观业界和学界,几乎所有人都将焦点放在算法的设计上,很少会有人关注数据的质量。当我们在训练算法时,使用了很多历史数据库,但其中的数据是否经过了仔细审核?从历史数据中总结出泛化、片面的规律,是否真正对社会发展有益?”
为了更好地了解数据泛化,Berger分享了一个业界广为流传的小故事。“为了杜绝性别偏见,一家公司在使用人工智能筛选简历时,抹去了姓名和照片等信息。但随后他们意识到,‘足球’一词成为了算法的关注焦点。” 该公司已经是万般谨慎,但他们没有预料到,训练算法时所使用的那些过往简历中,很多被招募的男性员工都将足球列为了兴趣爱好。所以,在这则故事中,算法不仅没有削弱性别偏见,反而助长了这一现象。Berger解释道:“当前有两种方法可以克服这一挑战:一、花费精力打造质量更高的数据库;二、让算法消除已经形成的偏见。”
但这并不是万全之策。Lê Nguyên Hoang 称:“以内容审核为例,数据的研判取决于我们对言论自由的理解,以及对仇恨言论或虚假信息的判断。可以说,这些问题并没有明确的、放之四海而皆准的答案。如果问题本身牵涉到了技术之外的因素,那么解决方案也理应如此。”
03 反馈循环
算法可能会导致的反馈循环也引发了人们的讨论。Lê Nguyên Hoang指出:“我们需要记住一点——机器学习算法的运作永远是以目的为导向的,如提升内容曝光率、利润、点击率等。”
假设某地区的警察想使用算法来预测最易发生犯罪行为的街区。在Berger看来,算法势必会基于警方的历史数据进行预测,找出逮捕人数最多的街区。但这又回到了之前的问题:历史数据的片面泛化,过度放大过往对未来的预测能力。事实上,算法不仅会对街区的现有治安环境进行定性,还会左右未来该街区的治安决策,如警力增加、视频监控覆盖率扩大,从而进一步加剧执法人员和民众的对立。
“但这一做法可能使人们对激进主义、宗教运动和阴谋论更加深信不疑。”
同样,当用户使用社交媒体和娱乐平台时,算法会基于他们的浏览记录来做相关推荐,以尽可能吸引用户驻足停留,但这可能会演变为系统大力推送宣扬激进主义、教派对立、阴谋论的内容。Lê Nguyên Hoang正在开发一款名为Tournesol的算法以解决上述问题。Tournesol使用的数据库采用了开源模式,基于用户的相互协作建立而成[1]。
04 权力分配
综上所述,人工智能技术不仅牵涉到科学研究和技术应用,还涉及权力的分配问题。美国机器学习应用开发企业Hugging Face 的哲学研究员和高级伦理学家Giada Pistilli指出:“我们必须辨明算法在训练、设计和部署等诸多环节可能产生的各种社会和伦理问题。”
问题究竟有哪些?Giada Pistilli称,这些问题在人工智能技术的发展历程中随处可见。“一旦数据存在偏见,模型训练完毕后便会引发一些伦理方面的思考,比如,相关数据是否会导致刻板印象的产生?特定数据的缺失会带来何种后果?如果数据库中含有侵犯了他人知识产权的图片或数据,那么在使用数据前是否征得了本人的同意?”
但这仅仅是问题的冰山一角。Giada Pistilli 指出:“在算法的开发和部署环节,模型的归属、算法设计人员的选取、设计的目的等疑问都有待解答。此外,模型的使用十分耗能,出于减排的考虑,某些模型是否该舍弃?这也间接证明了只有‘财大气粗’的公司才有能力去投资和使用算法。”
“我们可以将人工智能打造成有效的赋能工具,为各类群体谋福祉。”
所幸,前途并非一片黑暗——人工智能完全有潜力变成一种赋能工具。Giada Pistilli是BigScience项目的成员,该项目旨在开发一个开放的语言模型,共有几千名参与者。在她看来,这样的项目能够极大发挥人工智能的益处。“开发这种专注于单一任务的人工智能模型其实更能因地制宜,因为在此过程中,人人皆可参与,并且可以密切监督该模型的发展。向公众普及这些新技术,并广邀社会各界参与数据库的建立,可以将人工智能打造成有效的赋能工具,为各类群体谋福祉。”
人类能否自信迎接机器学习的重重挑战?答案或许需要你来书写。
评论