Google发布用来评估机器学习系统长期影响的工具

机器学习技术越来越成熟,也被应用在更多重要的情境中,机器学习模型不能再被当作一个黑盒子使用,开发者需要了解其中运作的细节,因此机器学习的可解释性与评估工具逐渐受到重视。

Google现在发布了一个称为ML-fairness-gym的工具,让用户建构简单的模拟,以探索机器学习决策系统,在社会环境中的潜在长期影响。

Google提到,当机器学习被用来辅助刑事判决、儿童福利评估和医疗救助等高影响力的决策时,了解系统是否公平成为非常重要的工作。而目前许多现有的机器学习工具,包括AIF360、Fairlearn、公平性指标和公平性比较等,这些都只能用在简单环境的系统,在部分情况下,算法执行的环境以及时间等背景因素,才是了解算法影响的重点。

ML-fairness-gym是一个长期分析模拟工具,使用Open AI的Gym框架模拟序列决策,在这个框架中,代理(Agent)与模拟的环境互动,在互动循环中的每个步骤,代理会选择一个能影响环境状态的操作,接着环境会揭露代理影响后续行动的观察资讯。


Google发布用来评估机器学习系统长期影响的工具

Google提到,评估机器学习系统公平性的标准做法,是拿系统一部分的资料作为测试资料集,用来计算相关的指标,通过查看指标在不同群体间的差异以评估公平性。

但在具有回馈能力的系统中使用这样的测试集,存在两个主要的问题,当测试资料集是从现有系统产生的,则可能不完整,或是存在这些系统固有的偏差,第二个问题则是,机器学习系统的输出,可能会对未来的输入产生影响。这些问题显示出,静态资料集来评估演算法公平性的缺点,也刺激了部署动态系统评估演算法公平性的需求。

Google使用ML-fairness-gym来分析银行借贷,这是机器学习公平性的经典案例。以ML-fairness-gym分析利润最大化政策与机会均等两个银行贷款政策,Google发现,机会均等政策有时候会为弱势族群,提供高于利润最大化政策的阈值,也就是说,弱势族群能够得到更多的贷款帮助,但是长期来说,机会均等政策会使得弱势团体的信用分数,比对照组下降更多,而造成两组信用分数差距比使用最大奖励政策还要大。

虽然要比较那个政策对于弱势族群较好,需要看对于福利指标的定义,究竟是较高的信用评分,还是较多的总贷款,但以ML-fairness-gym进行长期分析,可以知道机会均等政策对弱势族群的影响大于利润最大化政策。

另一个发现则是,机会均等政策的敏感度指标,会不断地变动,这是有别以往的认知,而这证明当基础人群不断发展的时候,机会均等政策的指标会变得难以解释,银行应该进行更仔细的分析,才能确保机器学习系统能获得理想的结果。


分享到:


相關文章: