RT-Thread-AI已经会刷LeetCode了 | 转自量子位RT-Thread问答社区

AI已经会刷LeetCode了 | 转自量子位

发布于 2021-05-31 10:56:19 浏览：868 订阅该版

[tocm]

你在面试中会遇到的那种算法题，AI已经能自己解决了，比如下面这道题：

> 对于一个记录论文引用次数的数组，每个元素都是非负整数。请写出函数h_index，输出这些论文的h指数，即至多有h篇文章被至少引用了h次。
> 例：
> 输入: [3, 0, 6, 1, 4]
> 输出: 3

AI给出的Python答案是这样的：

![Image](https://oss-club.rt-thread.org/uploads/20220714/52abdc3ce4bf702d7f528efc30cdd7205db70ed7.png)

除了排序没用counts.sort(reverse = True)让人看着血压升高，算是顺利通过测试：

![Image](https://oss-club.rt-thread.org/uploads/20220714/52abdc3ce4bf702d7f528efc30cdd7205db70ed7.png)

来自UC伯克利的研究团队，将上面这道题被归为“面试级”难度（看来国外程序员面试题有点简单）。

此外还有更简单的“入门级”和更难的“竞赛级”，总共5000道题的测试中，AI能做出**15%**。

另外有人声称，他专门用GPT-2训练了个专门做LeetCode的AI，能完成**80%**。

![Image](https://oss-club.rt-thread.org/uploads/20220714/52abdc3ce4bf702d7f528efc30cdd7205db70ed7.png)

在刷LeetCode的你，是否在颤抖？

![Image](https://oss-club.rt-thread.org/uploads/20220714/42a734e4bf28d6744534b4fd022fdbed883c53a2.png)

## GPT-Neo赢过GPT-3

本研究使用的题目形式是自然语言题干，不同于以往研究常用的伪代码和代码之间翻译。

![Image](https://oss-club.rt-thread.org/uploads/20220714/eeec607317498ca376777ee14eb06bc65cbb4011.png)

题目是从Codeforces、Kattis等刷题网站收集的10000道题，5000道用于训练，另外5000道作为测试集。

题干的平均长度为293.2个单词，在测试集中每道题平均有21.2个测试用例。

![Image](https://oss-club.rt-thread.org/uploads/20220714/67d0eb9acc945a9f1c523846a8ed3ef5e6e55ec6.png)

**入门级难度**的题不需要复杂算法，有1-2年经验的程序员都能回答的那种，有3639个。

**面试级难度**的题会涉及数据结构，比如树或者图，或需要修改常见的算法，有5000个。

剩下的是**竞赛级难度**，达到USACO、IOI和ACM等竞赛的水平。

研究人员分别训练了GPT-2的1亿参数版和15亿参数版、GPT-3以及“高仿版”**GPT-Neo**。

参数规模“只有”**27亿**的GPT-Neo和更低的GPT-2在测试用例通过率上，表现却比**1750亿**的GPT-3还要好。

![Image](https://oss-club.rt-thread.org/uploads/20220714/e63d50f8b2c23000422759c3ecf61a75bab7ed26.png)

在**严格模式**下，通过所有测试用例才算完全正确，成绩最好的GPT-Neo只通过了1.12%，不过这也有**56道**题了（反正比我强）。

![Image](https://oss-club.rt-thread.org/uploads/20220714/6e71b273df9739d7b55cb2334310b85390106d4e.png)

GPT-Neo来自EleutherAI团队尝试复现GPT的开源项目。

虽然参数规模比GPT-3小得多，但训练数据包含了更多技术网站，比如Stack OverFlow和Stack Exchange等，这可能是它在代码生成上胜出的原因之一。

至于GPT-3为什么表现还不如GPT-2，有人猜测可能是它见过的文本太多，虽然擅长生成自然语言，但在逻辑和解题方面**过拟合**了。

![Image](https://oss-club.rt-thread.org/uploads/20220714/1969272c94875289bedc7e141a9719a749a0600e.png)

## 如何评价AI“做题家”

论文一发出来，吃瓜群众脑洞大开。

> 如果我没通过面试但我写的算法通过了会怎么样？

![Image](data:image/gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVQImWNgYGBgAAAABQABh6FO1AAAAABJRU5ErkJggg==)

有人回答他:

> 没关系，你还可以当你算法的助手。

还有很多人给出下一步建议，比如不用**自回归**的GPT，改用**自编码**语言模型会怎样？比如**CodeTrans**。

![Image](https://oss-club.rt-thread.org/uploads/20220714/4d8621fdb6b02155f4ebb448af87f0785752cbb2.png)

或者，再用一个GPT专门生成自己回答不出来的问题。

![Image](https://oss-club.rt-thread.org/uploads/20220714/a3c01b8056b109250857a8a233c22d1a363fd9ea.png)

###### **△**矛盾相争是吧

**乐观**的人认为这是解放了人的创造力，未来编程是关于写更少的代码，做更多的架构、工程。

![Image](https://oss-club.rt-thread.org/uploads/20220714/0e0da9d29617e8583e4f64e01f0a06ded67986cb.png)

有人畅想，只需要描述需求就能生成代码可太爽了。

> 嗨IDE，用我的数据库做一个JavaScript的增查改删，要带测试。

![Image](https://oss-club.rt-thread.org/uploads/20220714/a700a146c5c4ee7f7216cafbee619155663cb53d.png)

###### **△**Ruby on Rails直呼内行

悲观的人却认为，将来有一天，人类程序员只能做做维护工作和评审机器生成的代码了。

![Image](https://oss-club.rt-thread.org/uploads/20220714/9d6ec0fd227114333c63109444eb57c8b2c99cc9.png)

面对AI“做题家”，你怕了吗？

论文地址：
https://arxiv.org/abs/2105.09938

数据集地址：
https://github.com/hendrycks/apps

自动刷LeetCode项目：
https://github.com/gagan3012/project-code-py

参考资料：
[1]https://twitter.com/DanHendrycks/status/1395536919774121984

回到
底部

AI已经会刷LeetCode了 | 转自量子位

关于作者

lebhoryi

相关文章

热门标签

本月文章贡献

AI已经会刷LeetCode了 | 转自量子位

关于作者

lebhoryi

相关文章

推荐文章

热门标签

本月问答贡献

本月文章贡献