【薛饿】我设计了一款“完美”程序,却让我走向灭亡

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

点此查看完整视频

——扩展猫粮——

“这个地区出来的男生都有大男子主义”

“那种打扮的女生都特别容易劈腿”

“我钱包丢了,肯定是最穷的那个室友偷的”

……

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

在日常生活中,我们经常会依据传闻和经验对周围人和事情做出一些主观判断。然而理性思考一下,我们能意识到以上的说法都算是一种偏见。

之所以会存在这样“标签化”的思维模式,很可能是人类从远古时代继承的习惯。当时的人类面对危机四伏的世界,为了生存,通过这种简单直接的“刻板印象”,可以提高生存几率。比如感觉到周围草丛突然有动静,就立刻认为“有猛兽!快跑!”,即便是误判,也至少没有什么坏处。

但今天的世界已经变得无比复杂了,再用这种一刀切的思维模式也就显得不合时宜,人类社会也在努力杜绝种种“偏见”和“刻板印象”,科学家们在尝试用大数据、机器学习、人工智能等技术,努力寻求更客观公正的事物判断方法。但是机器真的能做到“绝对公平”吗? 我们这期节目说的这个故事,其实来源于下面这个真实的事件。


一道匪夷所思的数学题

从前,各个国家在给犯人量刑和假释之前,都要靠司法人员对犯人进行种种猜想和判断。这样的惩罚是不是能够阻止 TA 再犯下这样的罪行?如果现在释放 TA,TA 出狱后是否能够老老实实地从事正经工作,远离犯罪?可想而知,靠司法人员人为去猜测这些问题的答案往往存在一定的偏颇,做不到完全客观。

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

而几年前,美国一些州的法官有了一个新的执法小帮手:他们用一个叫 COMPAS 的算法来给犯人打一个“风险评估分数”。这些算法会把 100 多个变量纳入考量范围,得出一个数字(通常介于 1 到 10 之间),评估一个人再次犯罪可能性有多大。从 1 分到 10 分,分数越高,代表这个人将来再犯罪的概率就越高,这个人也就越不应该得到缓刑或者假释。而分数越低,在量刑的时候则会宽松一些。

一般这种基于人的判定,最忌讳的就是存在种族偏见,而法律面前更不希望出现这样的情况。因此 COMPAS 算法在这一点上做的很“政治正确”。预测犯人再犯罪率的一百多项指标里,包括性别、年龄、犯罪历史等等,其中根本就没有种族这个项目。而训练这个算法的大数据也来自于美国,犯人都是美国的犯人。这么看来,它是一套可以进入教科书般的、客观公正的人工智能开发案例。

然而这个算法被实际运用之后,还是出了一些问题。开发这个算法的公司竟然被指控存在种族歧视!

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

这个事件引起了轩然大波 。包括哈佛大学、斯坦福大学、康奈尔大学、卡内基梅隆大学、芝加哥大学和 Google 公司的一流专家,纷纷就此展开了研究。反正 COMPAS 的数据都是公开的,专家们可以独自验证。

后来有人在 2016 年专门写了一篇论文才把它分析清楚。下面欢迎来到雅思小作文片场。下面这个图表表现了黑人和白人的评分和实际的再犯罪率的情况。

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

这个图表按照黑人/白人、低分/中高分、再犯罪和没有再犯罪分成了八个区块,浅色的区块代表再次犯罪的人,深色区块代表没有再犯罪的人。

为了方便解释,我给这些区块编了号码并做了注释。

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

我们知道算法预测的都是概率而已,哪怕是被打了高分,犯人也不一定会再次犯罪。而一些被打了低分的“安全人”,有可能也还是会再次犯罪。其中 B2、B3、W2、W3 就是预测正确的部分。我们粗略能看出这些区块占比还是很高的,说明这个算法还是挺准确的。

然后我们再细看,通过数字,能够得到一些事实。

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

  1. 单独分开两个种族看,“算法判断的正确率”是几乎一致的。也就是(B2+B3) /(B1+B2+B3+B4)和( W2+W3 ) / ( W1+W2+W3+W4 ),这两个数字几乎是一致的。也就是说,无论是针对白人群体,还是黑人群体,算法判断的正确率是相同的,因此可以说算法是公平的。
  2. 其次每个评分分类下,无论是黑人还是白人,算法预测的再犯罪率都也是几乎一样的, B1/B2 = W1/W2,B3/B4 = W3/W4。分数很好地预测了再犯罪率,而且不分种族,数据相同,完全公平。


那……这到底哪不公平了?这可比人肉判断公平准确多了啊!

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

但一个不可否认的事实就是,假如你是一个“不会再犯罪的好人”,就是 B2,B4,W2,W4 这些深蓝色区域的人群,你会发现,如果你是黑人,你落入“冤枉区”的概率就比白人大很多!也就是 B4/(B2+B4)=42%, 比 W4/(W2+W4)=22%,要大很多,这就是这个算法被指控为种族歧视的原因!

可这是为什么呢?恐怕在于以下两个原因:

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

  1. 由于黑人的总体再犯罪率高于白人,(B1+B3)占所有黑人的比例是 58%,而白人同样的数据(W1+W3)只占到所有白人的 33% 。所以黑人的被打高分的比率一定也高。
    每组打分中被冤枉的比例又是固定的,那么其中被冤枉的“黑人好人”就一定更多。否则你的打分系统就是不准确的。
  2. 如果不看数字细想,也可以想得通。这个系统的打分指标虽然完全不考虑肤色,但会考虑“经济状况”“教育水平”“吸不吸食毒品”等指标,而这些指标在客观上的确会和种族存在一定相关性。所以虽然打分系统的出发点是不考虑肤色,但会间接导致黑人更容易被打高分和“黑人好人”更容易受到冤枉的客观结果。
【薛饿】我设计了一款“完美”程序,却让我走向灭亡

人工智能

归根到底是人类世界的反映


人工智能必不可少的就是需要通过大量的数据进行“机器学习”,而“算法”就是从这些海量数据当中寻找到细微的相关性,去更好地预测或者解决一些新的问题。而这些数据都是来自于人类真实世界。因此人工智能的偏见并非来自机器本身,而是真实世界的反映。这是无法避免的。

“机器学习学歪了”的一个典型案例就是微软的人工智能机器人 Tay。2016 年 3 月 23 日,微软公司的人工智能聊天机器人 Tay 上线。Tay 会在与人们的交流中不断学习,随着时间积累,她的理解能力将逐步提升,变得愈发“智能”。结果不到 24 小时,她就被“教坏”了,成为一个支持希特勒、性别歧视、种族歧视于一身的“不良少女”。微软迫不得已只好把她匆匆下架。

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

事实上,在人工智能时代,只要需要对人类行为进行“机器学习”,就往往会诞生“歧视”这个副产物。这是算法的一个难以预料的、无意识的属性,而非编程人员有意识的选择。

因为,算法是在用过去的经验去预测未来。产生经验的是一批人,要被预测的却是另外一批人。这就相当于新人要为前人的行为承担后果!这是一切基于经验的决策的本质缺陷。人工智能再厉害,只要是基于经验的,只要预测不是百分之一百准确,就一定会有人被冤枉。

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

听起来很不公平吧?那么这里再举个极端的例子,本期节目的章鱼星球中,如果绿章鱼 90% 是爱犯罪的章鱼,红章鱼只有 10% 的犯罪分子,假如你是一个理性思维的老板,你更倾向于雇佣哪种章鱼?你会发现这完全已经超越所谓歧视的问题了,因为不考虑歧视,仅从公司运营成本和风险的角度考虑,同样条件下,你还是会选择红章鱼。这种差距越是极端,“歧视”就越显得有理,而那仅剩的 10% 的好人绿章鱼,也就越是可怜。

【薛饿】我设计了一款“完美”程序,却让我走向灭亡

当然,最理想的模式是人只需要为自己的行为负责,和他人没有关系。但这个世界的规则不是如此。每个人一出生就自动挂上了“性别”、“种族”、“地域”这些天然标签。有的人享有前人为这个标签所贡献的荣耀,而有的人要为前人的过错买单。在这个问题上,人工智能也解决不了根本的问题。片面地鼓吹“技术能消灭一切不平等,技术塑造完美世界”,反而也走入了另一个误区。

此事古难全。


参考文献:

  • 布鲁萨德《人工不智能》
  • 得到 App:万维钢精英日课


分享到:


相關文章: