谷歌DeepMind创始人之一沙恩·莱格(Shane Legg)认为,超越人类水平的人工智能将在2025年左右出现。
而有3位华人博士生,在让GPT-4充当“审稿人”,审阅3000多篇Nature论文和1700多篇顶会论文后,惊喜地发现,在提供论文评审意见这件事上,AI有望达到类似人类审稿人的水平。
这是梁伟欣、张钰晖和曹瀚成花了5个月完成的研究。作为美国斯坦福大学计算机科学系的博士生,他们切身感受到计算机领域论文“井喷式增长”带来的审稿压力,于是踏出了GPT-4在“审稿”方面尝试的“第一步”。
10月初,这项研究以论文的形式公布在arXiv平台上,目前处于“顶刊在投”阶段。论文共同第一作者之一曹瀚成告诉《中国科学报》,他希望未来有更多同方向的研究,进一步解决AI审稿的局限性。
1、论文“井喷式增长”,审稿压力“太难顶”
“我们的初心非常简单,就是看看大家玩了很久的ChatGPT、大模型在提供论文评审意见上有没有一些用处,是否能够缓解人工审稿的压力。”曹瀚成回忆道。
近年来,随着科学的发展、各国对科研投入力度的加大,科研论文的数量也快速增长,世界仿佛进入了一个“增量式科学时代”。随之而来的是与日俱增的审稿压力——许多论文压根儿找不到人来审,还有许多论文无法及时获得有价值的评审意见。
而在计算机科学这种最“年轻”、迭代最快的领域中,这一现象更为突出。
各种数据都显示,计算机科学论文的增长正呈现“井喷式”的态势。如ICLR是深度学习的顶尖会议,在2018年时投稿量为960篇,而到了2023年,投稿量已经涨到了4966篇。而CVPR是计算机视觉方面的顶级会议,今年收到9155篇论文投稿,相比于去年有12%的增长。
不同于生物、物理等需要长时间积累才“够格”当审稿人的学科,计算机科学尤其是人工智能方向云集着年轻的审稿人:十几年前,博士生审稿已经成为常态;而近几年,本科生也逐渐加入这一队伍。这些“资历尚浅”的学生对新兴领域的了解,甚至比老派的学者教授更为深入,给学科的发展注入了新鲜血液。
对于年轻的博士生梁伟欣、张钰晖和曹瀚成而言,参与顶级会议论文审稿已经成为他们的“家常便饭”。据曹瀚成描述,在许多AI会议上,只要你投一篇论文,就意味着要签署“同意书”,志愿成为审稿人中的一员。一场会议下来,除了操心自己的论文,还要审七八篇乃至别人更多的论文,这让所有参与者感受到压力不小。
“在我们的经历中,包括身边的导师、朋友,大家都在抱怨,为什么要审的论文这么多?”曹瀚成告诉《中国科学报》。
另一方面,许多论文的作者早已开始对收到的审稿意见“心有不满”。明眼人都看得出来,这是因为有些审稿意见太不走心了。
有学者在社交平台上吐槽:很多审稿意见在否定论文时,仅仅给出简单的一句“我不相信”或“我不认为”,却没有提出具体的论据或参考。
2、学者在知乎上吐槽
“有时能明显感觉到审稿人没有认真读我们的文章,并且,最后论文的收录与否好像很随机。” 曹瀚成说。他将审稿质量下滑的原因再次归结于论文数量的“井喷式增长”,致使审稿人应接不暇。
一次闲聊中,梁伟欣、张钰晖和曹瀚成三人不约而同地想到:或许最新的AI技术,可以帮助打通审稿难问题的“任督二脉”。
就这样,三人开始着手验证这个“很容易被想到”的想法。
3、“AI在主要审稿意见上与人类保持一致”
他们进行的第一项大规模验证是:使用GPT-4对3096篇Nature期刊论文与1709篇ICLR机器学习会议论文进行“AI审稿”。
这是一项“宏大”的工程,但操作的思路却很清晰:首先设计一个自动化的框架,将一篇篇论文的PDF版本输入其中,然后为GPT-4构建特定的提示,让它生成对每篇论文的反馈。
“在对比GPT-4与人类给出的审稿意见后,我们得到了一些有趣的结论。”曹瀚成说。
首先,GPT-4给出的审稿意见与人类的意见高度重合;其次,GPT-4可以成功识别出论文中比较重大的问题,并在重大意见上与人类审稿人保持一致。以上两点表明,AI已经具有一定的准确性和潜在的实用性。
除此之外,GPT-4可以产生“非一般反馈”,也就是说,它不再局限于“走马观花”地产生通用于大批论文的反馈意见,而是针对每篇论文有了个性化的反馈。或许,未来的AI真的可以像人类一样实现“个性化思考”。
研究人员还发现了AI与人类的“互补性”——AI与人类给出审稿意见时的侧重点有所不同,如,在论文的研究意义与新颖性方面,AI发表评论的概率是人类的7-10倍。这种差异凸显了未来AI与人类合作的潜在优势。
就像深度学习“三巨头”之一,图灵奖得主、美国纽约大学终身教授杨立昆(Yann LeCun)所说的那样:“人工智能不是消灭人类创造力的力量,而是增强人类创造力的力量。”
4、学科交叉,助力5个月“又快又好”完成研究
除了直接使用技术化手段将论文“喂给”GPT-4,这些年轻人还进行了另外一项非常重要的研究:对308名学者进行了用户调查,看看这些学者如何看待AI给出的反馈。
这第二项研究,离不开团队中偏文科、社会学领域人员的灵感与努力,而学科交叉的助力,也是整篇论文能在5个月之内“又快又好”完成的秘诀。
“我们研究的问题本身是一个交叉性非常强的问题,团队中各位作者拥有文理的不同学科背景,大家各有分工。这第二项研究是用户测试,就是收集使用者的主观感受,包括AI审稿是否会对用户产生行为上的影响、情感上的影响,或数据隐私等伦理范畴的担忧。”曹瀚成如是说。
曹瀚成表示,用机器解决问题,最终真正的落脚点还是在“人”,与“人”打交道的质性研究法是社会学家的强项。通过问卷的设计和发放,研究团队能真正了解,未来的使用者对AI审稿有何见解。
调查发现,无论是经验丰富的研究人员还是新手,均对GPT-4生成的审稿意见有相似的满意度。有41.9%的被调查者认为GPT-4比许多人类的审稿意见更有帮助,50.5%的被调查者表示愿意重复使用该评估系统。
有被调查者认为,比起所谓的“领域权威”和人类审稿人,他们更能从AI给出的意见中获益。对于一些来自传统贫困地区的研究人员,他们的论文更可能被期刊退稿,得不到同行评审的资源与机会,AI审稿对他们尤其有帮助。
还有被调查者评价道:“AI强调了一些人类审稿人没有指出的局限性,作为作者,我们意识到了这一点,并对此有所期待,但最后将其指出来的不是人类,而是AI,所以这很有趣。”“GPT建议我进行可视化,还要求解决数据隐私问题。这两点都很重要,人类审稿人却忽略了。”
这些被调查者还发现了AI审稿存在的局限性。最主要的局限性有二:产生的反馈有时模糊、不具体,以及无法提供“可操作”的改进建议。目前来看,人类专家的反馈仍然是严格评审的基石。
“我们的研究并非要用AI取代人类审稿人,而是希望对论文作者能有所帮助,毕竟AI永远也不会取代人类的高质量审稿意见。”曹瀚成笑着说,“距离电影中真正的‘通用型人工智能’,我们还有很长的路要走。谁也无法预测《西部世界》是否会变成现实。”