作为2024年的压轴之作,大家期待已久的 Coding Agent 深度拆解来了!这一期我们邀请到了国内和硅谷 Coding Agent 一线创业者、Coding 大模型研究员和 AI 投资人,进行了长达三个多小时的讨论(全网恐怕都很少见了),既有一线 Coding Agent 的设计解读,也有对刚刚发布的 o3 实现难点和未来挑战的拆解。内容新鲜热辣,绝对值得你的笔记和时间!
在过去不到两个月的时间里,Coding Agent 的产品已经完成了二连跳式的升级。如果说第一次升级,是从 IDE 编程助手 Cursor 到以 Replit、Windsurf 为代表的 Coding Agent,那么Devin 的惊艳发布,无疑更为我们打开了一个全新的想象空间—— 实现 end-to-end 后的 Coding Agent,能做的事情已经超过 Coding 本身。
更巧的是,本期节目录制的凌晨刚好赶上 OpenAI 连续 12 天发布会的最后一天,OpenAI o3 重磅登场,在模型性能的测试集 SWE-bench 上的断层式表现,无疑再次拉高了人们对LLM 能力天花板的认知。展望2025年,AI领域还会发生什么?Coding Agent 和以RL(强化学习)为新范式的 o3系列,无疑都是新一轮讨论的核心话题。
除此之外,在本期节目中我们还探讨了:
- 为什么说 Devin 展示了“完成工作”的 scaling law?
- 最早引领 Coding Agent 潮流的 Replit Agent,以及开源 Devin 项目 - Openhands, 在设计中有哪些关键决策?
- Coding Agent 未来是 Devin 形态赢家通吃吗?
- 底层模型能力之外,Coding Agent 应用公司的核心能力和壁垒是什么?
- Coding Agent 对于工程师和未来的组织和社会,会有哪些深远影响?
- 如何看待 o3 超越大部分人类的能力?未来的发展空间在哪里?
与此同时,我们也非常感谢大家在这一年以来的支持与陪伴!让我们明年见!Enjoy!
【主持人】
谢岩 Monica:真格基金投资副总裁
本期联合主持人 Peak:真格基金EIR,前猛犸浏览器创始人
【嘉宾】
戴雨森,真格基金管理合伙人,聚美优品联合创始人。
李珎,Replit Agent 核心成员,Replit 资深工程师,ex-字节,Google.
王星尧,Allhands Al (FIFIE OpenHands) co-founder & Chief Al Officer, UIUC PhD.
惠彬原,阿里巴巴通义实验室科学家
【时间轴】
- Coding Agent 的发展历程
01:56 嘉宾自我介绍与最近体验到有意思的项目
13:36 Coding Agent 的四个代际与三次进化
16:53 Devin 给人带来的全新想象:工作的 Scaling Law ? - Replit Agent:
20:47 Replit Agent的诞生历程以及关键节点
25:50 “优秀创业者,产能会被增大至10倍甚至100倍。”
35:59 Replit 的关键更新:Integration、Edit 和 UI
38:06 未来不同 Coding Agent 产品形态会复合吗? - OpenHands:
37:30 OpenHands 不同寻常的诞生故事
41:48 Openhands 的架构设计:Agent、EventStream 和 Runtime
47:48 Computer Use的终极理想: 用有限的空间,做无限多的事。
52:25 决定开源的契机
1:02:40 Coding agent 产品的长期竞争力是什么? - o3 发布的影响
1:07:20 o3 最让人印象深刻的是什么?对 Coding 和 AGI 的未来有何影响?
1:18:10 解决真实世界的复杂问题,o3 之后还需要什么?
1:22:23 SWE-bench 被“刷爆”后,下一个 Benchmark 会是什么? - Coding agent 的影响与展望
1:34:27 Coding Agent,今年还有哪些重要事件?
1:39:23 在未来的组织形态中,理想工程师的画像是?
1:56:11 如何提高模型多步骤任务的能力?
2:05:54 Agent 的普及,能带来哪些底层技术栈的新机会?
2:11:30 投资人眼中,中国 coding agent 的未来机遇如何 - 快问快答
2:23:27 未来1年和3年对AI的期望
2:32:15 coding agent 翻车实例:Context与记忆管理
2:37:23 AI 领域目前被高估和低估的能力?
【延伸阅读】
Devin:
www.cognition.ai
刚体验了一小时 Devin,这是我第一次见到真正意义上的 A - 即刻App
[Agentic AI] Devin和Agent Cursor使用体验对比
Bolt.new:
Bolt.new, Flow Engineering for Code Agents, and >$8m ARR in 2 months as a Claude Wrapper
Cursor:
Our Problems | Cursor - The AI Code Editor
More Problems | Cursor - The AI Code Editor
OpenAI o3:arcprize.org
【相关概念】
LLM monitoring:指在部署和运行期间用于监督和管理大型语言模型 (LLM) 性能的流程和工具。
SWE-Bench:用于评估 LLM 解决GitHub 上真实软件问题能力的基准测试数据集。通过给定一个代码库和一个问题,LLM 需要生成一个解决所述问题的补丁。
Pre-training:训练 LLM 的初始阶段,LLM 需要从包含数万亿个 token 的大型多样化数据集中学习,目标在于对语言、上下文和各种知识有广泛的理解。
Fine-tuning:将已经预训练好的模型,在特定领域中更具体的数据集做进一步训练。
Instruct-tuning:用于 ChatGPT 和 InstructGPT 等模型,其中模型经过训练(或进一步训练)以更好地遵循提示指令,提升以符合用户意图的方式解析并响应提示的能力。
RLHF:Reinforcement Learning from Human feedback,通过人类反馈的强化学习。
Autonomous Agent:是一种能够独立执行复杂任务的人工智能系统,可以理解和响应询问,并在完全无需人工干预的情况下采取行动。
Async:异步,异步过程中程序的执行将不再与原有的序列有顺序关系。
Asynchronized Agents:异步代理,通过与其他代理异步协作解决更大的计算任务。
PR:Pull Request,拉取请求,指对代码进行修改、调试和改进的过程。
Knowledge Cutoff Date:知识截止日期,指 LLM 最后更新数据的时间点,意味着模型无法处理在其截止日期之后的信息。
Compound AI:是指通过组合多个交互组件来处理任务的复合 AI 系统。
EventStream:是一种持续的、单向的数据流格式,用于实时传输事件数据。
Runtime:指运行环境,又称为“运行时系统”,简称“运行时”,是执行码在目标机器上运行的环境。
ReAct: 是一种使用自然语言推理解决复杂任务的语言模型范例,通过结合推理(Reason)和行动(Act)两个步骤,以更灵活和动态的方式处理决策问题。
DAG:有向无环图(Directed Acyclic Graph),是一种区别于传统区块链的数据结构。
VM:虚拟机(Virtual Machine),使用软件而非硬件来运行程序和部署应用程序。虚拟机将整个计算机虚拟化到应硬件层。
Container:容器,单一容器可用于执行从小型微服务或软件服务、到大型应用程式的任何作业。容器只虚拟化操作系统级别以上的软件层。
Docker:一种开源的容器化平台,旨在简化应用程序的开发、部署和运行过程。
Feedback Loop:反馈回路,是系统(机构组织或有机个体)在输出端借由一定通道反送到输入端形成的“闭合回路”。
【提及公司和重点事件】
Cursor:www.cursor.com
Cognition labs/Devin:app.devin.ai
Replit:replit.com,Replit Agent:docs.replit.com
OpenHands:github.com,OpenHands 论文: arxiv.org
VisualWebArena: arxiv.org,TheAgentCompany: 官网 the-agent-company.com,论文 arxiv.org
OpenAI o3:x.com
Computer use by Anthropic:www.anthropic.com
SWE-bench:github.com
Windsurf:codeium.com
Bolt.new:bolt.new
【Staff】
监制:Wendi、Zoe
后期:Keyone Studio
【关于真格】
《此话当真》是一档由真格基金出品的泛商业类播客,真格基金投资团队将在此和各领域的领军人物一起分享最新热点和行业洞察。
真格基金创立于 2011 年,是国内最早的天使投资机构之一。自创立伊始,真格基金一直积极在人工智能、芯片与半导体、机器人与硬件、医疗健康、企业服务、新能源、跨境出海、消费生活等领域寻找最优秀的创业团队和引领时代的投资机会。
真格,你的创业第一站!
【联系我们】
公众号: 真格基金(ID:zhenfund)
官网链接:www.zhenfund.com
邮箱:media@zhenfund.com
你可以通过小宇宙、苹果Podcast、喜马拉雅收听我们。
如对节目有任何的建议与期待,也欢迎大家在留言中互动~