语音识别算法也可能有种族偏见其错误率几乎是其他人的两倍科技頭條網

2020-03-24 18:21:34 AI國際站

文 | AI国际站唐恩

编 | 艾娃

本文由AI国际站原创出品，未经许可，任何渠道、平台请勿转载，违者必究。

我们将更多决策决策外包给算法，部分是为了方便起见，部分是因为算法表面上没有人类所遭受的某些偏见。表面上。事实证明，对已经受人为偏见影响的数据进行训练的算法可以很容易地概括它们，就像我们在银行和司法系统等地方所看到的那样。事实证明，其他算法并不是特别好。

现在，斯坦福大学的研究人员已经确定了另一个可能存在问题的领域：语音识别算法可以完成从基本转录到让手机满足我们要求的所有工作。这些算法似乎与非裔美国人使用的语音模式存在更多问题，尽管地理也有可能参与其中。

错误的喜剧

语音识别系统已成为现代技术的中心，以致该领域的大多数大公司都已发展了自己的技术。对于这项研究，研究团队测试了来自Amazon，Apple，Google，IBM和Microsoft的系统。虽然其中一些系统是作为服务出售给其他企业的，但Apple和Google的系统与您的手机一样。他们在日常生活中日益重要的作用使他们的失败变得非常沮丧，因此研究人员决定研究一下这些失败是否表现出任何偏见。

为此，研究人员获得了大量口语单词。其中两个人由一个团体控制：来自北卡罗来纳州一个社区的非洲裔美国人和北加州的白人。其余样本来自混合社区：纽约罗切斯特；加利福尼亚萨克拉曼多；和华盛顿特区。这是通过五个系统中的每个系统进行的，其准确性是根据与人工翻译结果的比较来确定的。

基于称为单词错误率（包括单词的插入和丢失以及误解）的评分，所有系统的评分均低于0.5，效果良好。（基于此衡量标准，Apple的情况最糟，Microsoft的系统的情况最好。）在所有情况下，非裔美国人的录音最终的词错误率都比白人讲话的人更严重。错误几乎翻倍。

在非裔美国男性中，这种影响更为明显。白人和白人的错误率在统计学上无法区分，分别为0.21和0.17。非洲裔美国女性的平均比率为0.30，而男性则上升至0.41。

这些差异有多重要？作者建议，这取决于您如何定义可用性-在一定百分比的错误率之上，比起自己完成修复自动抄本变得更加烦人，否则您的手机最终会犯错的次数比您满意的多用。作者测试了单个文本块多长时间以0.5的保守单词错误率结束。他们发现，超过20％的非裔美国人所说的短语将达不到这一标准。不到白人所讲的2％。

发生什么了？可能存在一些地理问题。从美国的角度来看，加利福尼亚州的发言人通常被认为没有口音，并且来自该州的两个样本的错误率非常低。罗切斯特的房价与加州的房价相近，而哥伦比亚特区的房价与北卡罗来纳州的乡村小镇相近。如果有地理影响，我们将需要更大的样本来将其分开。

之后，研究人员分析了语言使用本身。由于他们无法访问这些系统使用的算法，因此他们转向了一些执行类似功能的开源软件包。他们通过一个称为“困惑”的数字来衡量软件对语言使用的理解，该数字是系统可以预测句子中接下来出现的单词的准确性所得出的值。而且，通过这种措施，该系统在处理非裔美国人说话者方面表现更好。这是怎么回事？

研究人员发现有两种相互矛盾的趋势。平均而言，非裔美国人使用的总单词列表要少于白人。但是他们的措词却变得更加复杂-在许多情况下，当听众可以轻松推断出他们的句子时，他们会从句子中删除单词。

最后，问题在于商业系统如何适应非裔美国人的声音。为了探索这一点，研究人员搜索了笔录，以查找非裔美国人和讲白人的人使用相同短语的情况。当通过系统运行这些程序时，非裔美国人的单词错误率高于白人，这表明这也导致整体性能下降。

一个有效的语音识别系统必须结合多种因素-实际单词识别，语言使用和可能的含义-才能成功识别句子或预测随后的单词。当涉及某些人群时，现有的商业系统似乎与之相比有些不足。这些系统并非设置为有偏见。他们很可能只接受了美国各种口音和用法的子集训练。但是，随着我们对这些系统的依赖性越来越高，使所有用户对它们的失败程度降低应成为当务之急。

分享到:

閱讀更多 AI國際站 的文章

關鍵字: 语音识别技术 2019科技之光 Go