Andrej Karpathy 2025年高价值言论汇总
1月:强化学习(RL)是深学习魔力核心,agents需十年
强化学习才是所有惊人能力的来源:预训练/监督微调只是模仿,真正的新兴认知策略(如AlphaGo的Move 37、o1的链式思考)全来自RL。强调当前LLM主要停留在“阅读+例题”阶段,“练习题”(多样化RL环境)才是前沿。 RL很可能泛化到数学/代码之外的领域。 对AI agents的长期视角:2025不是agents之年,而是“2025-2035是agents之十年”。多模态、长任务地平线等瓶颈严重。 基准测试方向错误:医学生/PhD级短任务会快速饱和,真正难的是实习生级的长序列、多模态、纠错任务(Moravec悖论)。
2月:Scaling预训练回报递减,进步微妙
GPT-4.5(10X计算)提升“一切好一点,但无slam dunk例子”:非推理任务(如创意、幽默、EQ)才有明显改善,推理仍需RL。进步“diffuse”,像水涨船高20%。 公众品味问题:GPT-4.5 vs GPT-4盲测中,公众多数偏好旧模型。他自称“high-taste tester”,暗示投票者“poor taste”淹没结果。 Agency > Intelligence:几十年来文化错把智力置于主动性之上,agency更强大、更稀缺,应在招聘、教育、行动中优先。
3月:隐私、web开发碎片化、vibe coding实践、LLM首要用户
强烈隐私立场:推荐iPhone优于Android(后者app可窥探安装列表用于shady profiling),并分享全面“Digital Hygiene”指南(密码管理器、YubiKey、Signal等)。 web开发像组装IKEA家具:2025年建web app需拼凑无数碎片服务,非代码配置最耗时。谁提供“开箱即用”全栈将大胜。 vibe coding实战:零Swift基础下1小时用ChatGPT建iOS app,强调“hand held”过程超易。 AI生成内容“slop”风险:AI partial autonomy仅适合工具辅助,自主则产垃圾。 内容格式转型:文档应为单一.md文件,便于LLM scrape。
4月:LLM首要用户范式、AGI定义坚守、编程严格控制
产品文档新时代:首要受众已是LLM而非人类。LLM不喜欢导航/点击,喜欢单一.md + “copy to clipboard”或curl操作。传统华丽网页像“2024年原始人”。 LLM玩游戏深层局限:连tic-tac-toe都玩不好,暴露内部rollout、索引检查等核心缺陷。 AGI目标杆反向移动:坚持OpenAI原定义(经济价值工作),不确定当前人们用AGI指什么,泼冷水短期炒作。 AI辅助编程需“tight leash”:LLM如“over-eager junior intern savant”——知识广但爱bullshit、无好品味。专业代码中需严格审查、增量变更。
5月:System prompt learning新范式、agents buzzword、RL痛点
提出“system prompt learning”缺失范式:预训练给知识、finetune/RL给习惯,此范式给显式策略(如scratchpad笔记)。Claude巨prompt不应手工写,而由LLM自写“问题解决书”。 当前“agents”定义lame:MacOS/Gmail/X已是高度智能agents,仅换成LLM无根本区别,炒作空洞。 RL sux:训练1小时难任务仅得0.32分,痛点明显。 食物行业“bs”:强烈推荐Bobby app揭露添加剂等切割角落,90%购物“Bobby approved”。
6月:Software 3.0、context engineering、递归自改进现实性
Software 3.0(YC keynote):LLM如新计算机(英语编程),机会在于自治产品、可及软件、为agents建基础设施。建产品时首要为LLM而非仅人类。 Context engineering > Prompt engineering:工业级LLM app中上下文构建(RAG、工具、历史)是科学+艺术,远超简单prompt。 递归自我改进渐进而非爆发:nanoGPT优化基准显示当前agents远逊人类,生产级代码库复杂百倍以上。 媒体趋向毒品:高度成瘾、脑腐烂,已真实但尚未明显。 最高质量预训练数据痴迷:好奇纯质量数据(如完美markdown教科书)的潜力,批评当前数据格式乱、OCR错。 LLM“认知核心”竞赛:几亿参数小模型作为个人计算内核(低延迟、私有、多模态、工具使用)。
上半年总体特征: Karpathy上半年言论一贯理性谨慎、反短期炒作:反复强调RL潜力同时承认其痛点、scaling回报递减、agents/自改进需长期、LLM首要用户范式巨变。提出多个高价值框架(system prompt learning、Software 3.0、context engineering),并在隐私、编程、产品设计等领域给出极具操作性的建议。在AI圈乐观叙事主导的2025年,他的观点常被视为“泼冷水”或“精英主义”,但深度与前瞻性极高。
7月:LLM-assisted coding实践、vibe coding潜力
LLM-assisted coding混合工作流:面包黄油是Cursor tab complete(高带宽任务指定);高亮代码块修改;Claude Code用于较大功能;GPT-5 Pro用于最难bug。强调LLM如“over-eager junior intern”——知识广但无品味,需严格控制。 代码后稀缺时代:可随意生成/删除千行一次性可视化/调试代码。 iPhone事件传统:每年观看直播,怀念mini机型。
8月:RL环境重要性、LLMification教科书、vibe coding类比
强化学习时代核心是环境:需要大型、多样、高质量环境集合(如PrimeIntellect hub)。长期看好agentic交互,但看衰传统RL(奖励函数可疑、人类不主要用RL学智力任务),期待新范式(如system prompt learning扩展)。 教科书“LLMification”:将教科书转化为LLM原生格式(markdown+图像+SFT/RL例子+合成问题生成+RAG索引),远优于pdf-to-text预测。 vibe coding类比:如Justin Bieber无乐谱指挥管弦乐队,未来创作者将概念级编排AI。 slop内容浪潮:A/B测试极限下所有平台趋向搞笑熊猫视频。
9月:放射科就业分析、模型趋同、AGI定义
AI未取代放射科:基准不足以反映真实场景;工作多面性;监管/责任/扩散惯性;Jevons悖论(AI工具加速需求)。 模型趋同:SFT层风格浅层转移,RL可能更深层物种分化。 AGI定义坚守:经济价值工作,非谜题分数。
10月:Dwarkesh Podcast访谈、nanochat实验、图像输入优越
AGI仍需约10年(“agents之十年”):多模态、长任务、安全、集成瓶颈;行业工具超前于能力。 RL痛点:监督通过吸管吸、噪声大、易鼓励错误路径;看好agentic交互但短期RL。 LLM如“召唤鬼魂”而非“养动物”:不同优化压力导致锯齿状智能(jagged)。 认知核心:剥离记忆的小模型更好泛化。 nanochat教学:通过合成数据+SFT教小模型计'r' in strawberry;注入身份(自称“King”)。 像素优于文本输入:压缩、更通用、双向注意力、删除分词器。
11月:(相对安静,散见观点延续前月,如LLM本质、slop风险)
12月:2025 LLM年度回顾博客
RLVR成熟:从模仿转向逻辑推理,模型自发“思考迹”。 Vibe coding主流:自然语言编程门槛剧降。 本地代理(如Claude Code):AI如“电脑里鬼魂”。 基准崩塌:易被RLVR污染。 Slop泛滥:需量化“slop指数”。 鬼魂智能深化:LLM非动物式,jagged但潜力广阔。
下半年总体特征:Karpathy观点更深刻谨慎:泼冷水agents短期炒作(需十年)、深化“鬼魂”框架、批判RL同时期待新范式(如RLVR、system prompt learning)。实用贡献包括nanochat实验、教科书LLMification建议、教育/就业理性分析。年末回顾系统化全年主题,强调“还有大量工作”,在乐观氛围中突出反思性。
来源:https://vestlab.beikee.org/
评论
发表评论