AI顶会ICLR找来论坛和推特网友当论文评审,这样真的靠谱?

选自 Approximately Correct

作者:Zachary C. Lipton

机器之心编译

参与:王淑婷、张倩、李泽南

随着人工智能顶会论文数量的增长,本科生评审也已经无法满足大会需求了,一些会议组织者最近产生了「大胆的想法」。本文中,来自卡耐基梅隆大学(CMU)的助理教授 Zachary C. Lipton 对此事发表了评论。

近年来,大会接收的论文数量直线上升,但经验丰富的研究人员却没有明显增长。一些机器学习大会陷入困境,不得不选择扩充同行评审队伍,以应对论文的大幅增长。

AI顶会ICLR找来论坛和推特网友当论文评审,这样真的靠谱?

该信息图展示了 NeurIPS 论文接收数量的逐年变化。红色部分为预测数据。

由于每个教授和高年级研究生、博士生的评审工作量都已接近饱和,大会组织者们极富创意地在「不太可能」的地方找到了评审者。

ICLR 的项目主席拒绝透露他们寻找未被发现的评审人才的策略,怕这些商业机密被对手 NeurIPS 和 ICML 利用。幸运的是,在匿名前提下,几个职位较低的 ICLR 工作人员同意透露他们利用的一些非常规渠道。

1. 著名论坛 Reddit 上 r/machinelearning 板块中的一切渠道

2. 关注 @ylecun(人工智能先驱 Yann LeCun)的 Twitter 用户

3. 注册 .ai 和.ml domain 用户的人

4. 把机器学习相关文章的评论发布到 Hacker News 上的人

5. 在 Siraj Raval 深度学习 rap 视频上评论的 YouTube 用户

6. 注册为.ai/.ml domain 所有者的公司的员工

7. 在 Burning Man 上 Andrej Karpathy 的 4° 上驻扎的每一个人

8. 过去六个月里处理 TensorFlow、Pytorch 或 MXNet 棘手问题的 GitHub 用户

9. 与优达学城合作,将 ICLR 大会论文评审作为深度学习入门课程的一个项目

有这么多新的评审员,看到一些不同寻常的评审意见也就不足为奇了。这些意见有的很短,有些则很奇怪……感受一下里面的网络语言(「imho, srs paper 4 real」)……还有些评审意见挑战社区成员具备的共同知识(如「who are you to say this matrix is degenerate?」)

然而,如果不仔细看,有人可能觉得这些给出意见的人不够格,掩盖了一批新评审员为应对评审工作所做的努力。我之所以知道这一点,是因为许多新的评审员都是《Approximately Correct》的热心读者,在过去的几周里,我的邮箱里充斥着善意的新评审员们提出的严肃问题。

如果以前当过老师,你就会发现他们的问题中有很多是重叠的。因此,虽然通常我们不会在《Approximately Correct》上发布 QA 类型的文章,但此次破例似乎倒也说得过去。我汇编了几个问题作为例子,并在一篇名为「Is This a Paper Review?」的问答文章中提供了简洁的答案。以下是部分问答内容:

帕萨迪纳市的 Henry 写道:

我被分配来评审一篇论文。我读了摘要,形成了与该论文主题相关的见解。然后写了一段话来表达我的见解,以及与一位匿名评审就一个无关的话题展开讨论。这是 Hacker News 上的标准做法,我在上面获得了 2000 多个支持,这些支持成为了我为 ICLR 进行评审的资格基础。这算论文评审吗?

AC:不,这不是论文评审。

迈索尔市的 Pandit 写道:

我阅读过一篇关于梯度下降收敛的论文。文中所说的「limit」我没看明白,所以直接跳到了论文后面,然后我发现他们没在 ImageNet 上做任何实验。我写了一个「一句话(one-line)」评论,标题上写着类似「这是什么鬼」这种,正文写了「没在 ImageNet 上做实验」。这算是论文评审吗?

AC:不,这不是论文评审。

上海的 Xiao 写道:

我根据曾经的 ICLR 评审训练了一个 LSTM,然后在 softmax temperature 设定为 0.01 的情况下运行它。输出显示「不新颖」。我把这一点加在了 OpenReview 中。这算是论文评审吗?

AC:不,这不是论文评审。

博尔德市(Boulder)的 George 写道:

评审这篇论文的时候,我发现它与我 1987 年的一个概念有某种相似之处。虽然我很喜欢这个概念(你尽可以想象),但我给它打了一个中等的分数。我给的评论意见中,有一半是关于技术研究的固定讨论,另一半专门用来列举我自己关于这个概念的论文,并要求作者引用它们。这算是论文评审吗?

AC:听起来像一个糟糕的论文评审。不过如果你把评分提高到不带感情的程度,并指出那篇论文与你自己论文的相似之处,然后给元评审(metareviewer)发一个提示,指出其中小小的利益冲突,这就是一个不错的评审了。

新泽西的 Rachel 写道:

我阅读了论文。在前两页出现了 10 个数学错误,其中的一些导致整篇论文都不正确。于是我停止阅读论文以节省时间,并撰写了一篇简短的评审意见指出错误,我写道:「该论文不适合在 ICLR 上发表。」这是一篇论文评审吗?

AC:虽然通常来讲,这么短的评审意见并不合适,但这篇明显例外。意见写得非常好!

11 月初,ICLR 2019 的论文评审结果出炉,评审们已经在论文的 openreview 页面公布了他们的评论和分数。本届大会共接收到了 1591 篇论文投稿,相比去年的 996 篇增长了 60%。在 11 月 5 日到 11 月 21 日期间,论文作者可以对评审人的评论进行回复、修改论文。

在社交网络上,已有论文作者对评审的给分提出了质疑。扩大评审队伍的效果究竟如何,看来还有待观察。

AI顶会ICLR找来论坛和推特网友当论文评审,这样真的靠谱?

原文链接:http://approximatelycorrect.com/2018/11/18/is-this-a-paper-review/

本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):[email protected]

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:[email protected]


分享到:


相關文章: