
AI的下一个突破:在工作中学习
The next big breakthrough will be AIs learning on the job
Wayne,你的设计工具平台可以借鉴这种“在职学习”思路:让AI在用户使用中通过上下文学习不断改进,无需频繁更新模型权重。同时关注可验证任务(如设计合规性检查)与可磨性(如并行测试不同设计变体)的结合,这可能是产品差异化的关键。
AI实验室正押注一个宏大研究:通过让AI在数千个多样化强化学习环境中完成数百万个可验证任务,就能实现AGI。这种训练将产生通用问题解决能力,比如在数周内面对错误和模糊性时持续取得进展。当前范式中的“根本缺陷”(如数据低效、缺乏持续学习)可能被规模化训练碾压,就像LLM用算力洪流冲垮NLP研究难题一样。关键不在于训练时的样本效率,而在于会话内的智能、通用性和样本效率——这些正随着RL训练而提升。
- 1
AI实验室的AGI赌注:在数千个多样化RL环境中训练AI完成数百万可验证任务,即可产生通用问题解决能力
- 2
数据低效问题可通过规模化训练解决:训练成本一次性摊销到数十亿用户会话中,会话内智能才是关键
- 3
持续学习可能不必要:如果上下文内学习足够强大,可将6个月的在职学习压缩到上下文窗口中
- 4
架构创新正在大幅扩展上下文长度,未来可能实现任意大的上下文窗口
- 5
除了可验证性,领域还需要“可磨性”(grindability):能在确定性可重放模拟器中并行运行大量rollout
本期播客探讨了AI研究的一个核心赌注:通过让AI在数千个多样化强化学习环境中完成数百万个可验证任务,就能实现AGI。这种训练将产生通用问题解决能力,比如在数周内面对错误和模糊性时持续取得进展。当前范式中的所谓“根本缺陷”——数据低效和缺乏持续学习——可能被规模化训练碾压,就像LLM用算力洪流冲垮NLP研究难题一样。训练时的样本效率并不重要,因为成本可摊销;重要的是会话内的智能和通用性,而这正随着RL训练提升。持续学习可能不必要,因为上下文内学习可以变得足够强大,将数月的在职学习压缩到上下文窗口中。架构创新正在大幅扩展上下文长度,未来可能实现任意大的上下文窗口。此外,播客提出了一个关键洞察:除了可验证性,领域还需要“可磨性”(grindability),即能在确定性可重放模拟器中并行运行大量rollout。这解释了为什么编程和数学进展快,而计算机使用进展慢。
深度概述(800-1000 字)需要全文逐字稿,等转写完成后自动生成。


