本期嘉宾来自最近小有话题的一个大模型团队。非Transformer架构、作者非“AI正规军”出身、核心成员仅4人,这个叫RWKV的开源模型刚刚被Hugging Face收录入库,也在日前公开了首篇论文。
用嘉宾的话说,RWKV挑战了当下关于大模型的几个共识:Transformer是不是现在的唯一选择?小公司做不了大模型?AI的未来就是云服务?于是,我们的聊天,也从共识和非共识开始。
【本期嘉宾】
罗璇 智能联创兼CPO | 炬星科技联创 | 前阿里机器人产品总监
【时间轴】
03:08 RWKV是不同于TF的新架构,将算法复杂度从n²降到了n
03:50 TF和Open AI被“神话”,GPT成了衡量AI的唯一标准
05:02 TF复杂度不合理,大规模应用瓶颈明显,架构层需要创新
06:14 RWKV的正反面评价、测试结果,成为TF的补充/替代路还有多长?
09:38 未来AI不应是中央式云服务,将来的大模型可能跑在终端上
11:15 算法不做到极致就是在吃算力,现在还未形成好的芯片+OS互相迭代
12:09 小团队怎么做出大模型?大公司算力资源浪费在哪里?
14:22 与Open AI和Stability AI的交集
16:56 闭源是闭不住的,大模型真正的门槛不是源代码
19:30 RWKV希望成为Linux,元智能想成为安卓
22:30 过去的开源大模型缺乏强有力的主导方向,开源需要vision
相较于已经经过6年发展、也证明了自己独特价值的TF架构,RWKV无疑还是个小婴儿。但我觉得RWKV团队这种出于真实使用需求,去寻求更优解的精神,正是创新者的品质之一。期待看到RWKV后续scale up的发展,以及商用方面的案例。
【很高兴认识你】
散装智能,一档有人情味的科技播客。我们希望探索科技演变所辐射的所有面向,在这里,没有冰冷的技术,只有闪光的人和故事。
想交流?想表达?微信添加ziyuanao,或关注公号:散装智能