被Stability AI赞助算力,被Open AI招募,这个大模型小团队是?先见未明

被Stability AI赞助算力,被Open AI招募,这个大模型小团队是?

29分钟 ·
播放数150
·
评论数5

本期嘉宾来自最近小有话题的一个大模型团队。非Transformer架构、作者非“AI正规军”出身、核心成员仅4人,这个叫RWKV的开源模型刚刚被Hugging Face收录入库,也在日前公开了首篇论文。

用嘉宾的话说,RWKV挑战了当下关于大模型的几个共识:Transformer是不是现在的唯一选择?小公司做不了大模型?AI的未来就是云服务?于是,我们的聊天,也从共识和非共识开始。

【本期嘉宾】

罗璇  智能联创兼CPO | 炬星科技联创 | 前阿里机器人产品总监

【时间轴】

03:08 RWKV是不同于TF的新架构,将算法复杂度从n²降到了n

03:50 TF和Open AI被“神话”,GPT成了衡量AI的唯一标准

05:02 TF复杂度不合理,大规模应用瓶颈明显,架构层需要创新

06:14 RWKV的正反面评价、测试结果,成为TF的补充/替代路还有多长?

09:38 未来AI不应是中央式云服务,将来的大模型可能跑在终端上

11:15   算法不做到极致就是在吃算力,现在还未形成好的芯片+OS互相迭代

12:09 小团队怎么做出大模型?大公司算力资源浪费在哪里?

14:22 与Open AI和Stability AI的交集

16:56  闭源是闭不住的,大模型真正的门槛不是源代码

19:30  RWKV希望成为Linux,元智能想成为安卓

22:30 过去的开源大模型缺乏强有力的主导方向,开源需要vision

相较于已经经过6年发展、也证明了自己独特价值的TF架构,RWKV无疑还是个小婴儿。但我觉得RWKV团队这种出于真实使用需求,去寻求更优解的精神,正是创新者的品质之一。期待看到RWKV后续scale up的发展,以及商用方面的案例。

【很高兴认识你】

散装智能,一档有人情味的科技播客。我们希望探索科技演变所辐射的所有面向,在这里,没有冰冷的技术,只有闪光的人和故事。

想交流?想表达?微信添加ziyuanao,或关注公号:散装智能

展开Show Notes
10:46 其实,这个不是大模型了…
老王不姓王
:
哈哈是想说下云的就不能算通用大模型了吗?
晨萱I语迟者说:LLM要看有多少参数GPT3.5是1700亿,GPT4是万亿以上。这样系统的训练都需要内存超大的,终端达不,跟云不云的没关系。这事不存在弯道超车,国内打纹各开始就吹永动机理论了,近几十年也都是这样的风气,虽然上一波互联网巨头们商业很成功,不代表他们掌握核心技术,范式一变就又要重新开始了
3条回复
18:23 这两个理由都是错的