- Mamba:颠覆 Transformer 的全新架构?
Mamba和Transformer有什么相同与不同? Mamba相比Transformer的优势在哪里,其能够全面替代Transformer吗? Mamba在各个领域的应用前景如何?如何看待现在基于Mamba的图像、视频等方向的变种? 在把Mamba应用到研究领域的时候,有哪些要注意的地方? 来看看声音背后的他们是谁~ 王琦,上海交通大学人工智能教育部重点实验室博士生,中国科学院大学硕士,《Easy RL:强化学习教程》(GitHub Star 7.9k,国家图书馆收录,人民邮电出版社季度好书,人邮异步社区度畅销新书)作者,百度飞桨AI Studio 《EASY RL 强化学习-案例与实践》课程设计者,开源项目”l李宏毅深度学习教程 leedl-tutorial” 设计者(GitHub Star 9.2k,李宏毅老师推荐),Hugging Face官方强化学习课程译者,人邮优秀作译者,人邮异步社区年度影响力作者,AI TIME成员,Datawhale成员,英特尔边缘计算创新大使,Hugging Face志愿者。主要研究方向为强化学习、计算机视觉。曾获中国研究生数学建模竞赛二等奖、中国大学生计算机设计大赛二等奖、亚太地区大学生数学建模竞赛(APMCM)二等奖、“挑战杯”全国竞赛江苏省选拔赛二等奖和Datawhale致卓奖,发表SCI/EI论文3篇,申请3项国家发明专利。曾在世界人工智能大会(WAIC)、全球人工智能开发者先锋大会(GAIDC)、AI TIME、人民邮电出版社、Datawhale、古月居等媒体/会议上进行相关主题分享。个人主页:qiwang067.github.io。 刘悦,中国科学院大学机器学习与感知实验室直博生,中国科学院大学本科部学士毕业。对主动学习、弱监督、单目或BEV的3D目标检测(户外场景,车辆相关)、场景图生成、图像生成等都有涉猎,目前正在准备VMamba论文,该论文开源代码已有1K+star, arxiv已有20+引用。熟悉C语言,python语言,会编写matlab, html, javascript, golang, cuda, triton等代码,对transformers, diffusers, openmmlab系列等框架/库较为熟悉。github: github.com 苍岳洋,清华大学自动化系直博一年级在读,清华大学自动化系学士毕业,博士研究方向为类脑智能,经营Bilibili站账号:Camnuy_AI,账号每周更新AI领域全新论文,涉及AIGC、NLP、CV等多个子领域,其中对于Mamba的讲解视频是目前B站上播放量最高的,目前参与多个国家重点研究项目,负责基于AI的智能控制、数字呈现等方面。 杨毅远,牛津大学计算机系博士生,《Easy-RL:强化学习教程》作者,牛津大学克拉伦登学者。曾获得国家奖学金、北京市优秀毕业生等荣誉。所参与的开源教程、项目全网阅读/参与量数十万,曾受邀在2022年&2023年世界人工智能大会、华为、阿里等做相关分享。 申泽楷,北京交通大学研究生。研究方向为时空数据挖掘。
- 如何创建智能体:从概念、应用场景、技术原理到实践
技术专家手把手带练,一次性玩转Agent! 【Show notes】 1. 智能体定义及需求背景 2. 学术研究与产业应用情况 3. GLMs Agent系统架构及技术细节 4. Agent的实践 扫码与智能体官方客服对话,玩转智能体~
- 拥抱大模型,探寻新时代的科研范式
随着ChatGPT、SAM为代表的大规模预训练模型的横空出世,对于人工智能、自然语言处理、计算机视觉以及软件开发等领域都带来了巨大的影响。2023年4月12日,AI TIME与上海交通大学人工智能研究院共同举办了CVPR 2023 预讲会,在panel环节,来自上海交通大学的王琦、任星宇、李逸轩、官同坤四位同学,围绕论文投稿、研究热点以及大模型时代下的科研等话题进行了思辨,以CVPR为例与观众分享了大模型新时代下的科研之路。 顶会论文投稿经验分享 l 投稿时间安排 任星宇:我认为论文投稿尽早准备比较好,留出更充裕的时间打磨文章,打磨的次数越多,论文的瑕疵就能相对越少。在第一次投稿的时候,经验不足,有很多问题是正常的,但需要留出足够的时间和导师一起修改,多次投稿熟悉写作套路之后,就能对整个流程比较清楚。 李逸轩:能早做的事情就尽可能在前期做完,比如画图、对比实验、写文章等等,给后面的文章润色留出更多时间。看文章与自己写文章是有差距的,如果是第一次写文章,最好在deadline一个月之前开始写,留出2周左右的时间修改文章是很重要的。 官同坤:对于顶会投稿,精度提升当然是必要的。还有很重要的一点是,写论文时想清楚任务的意义,如何打磨好整个故事。比如针对落地成熟的场景,应该具有有一定的实际意义,对真正落地起到一定的推动作用。 王琦:一开始不要过于追求完美,先让实验模型有个原型,论文有个初稿,在此基础上不断打磨、迭代。 l 如何Rebuttal? 任星宇:Rebuttal过程中最困难的两种情况,一是创新性不够,提出的观点难以让人信服;第二个是多个审稿专家对一个问题同时提出review,那说明论文中的某个点确实存在问题,这种情况会比较困难。如果提出的是实验细节问题或者理解不清的地方,这种会比较容易修改。在投稿过程中若遇到“创新性不足”问题,那就需要将整个故事重新给审稿专家讲一遍,把核心的观点和研究动机理顺,说清和前人工作中最主要的区别,阐明自己不同于别人的优势。若是遇到补充实验的要求,但是实验耗费时间较长,这种情况下我们需要实话实说,在最后的提交版本补充材料。但一般情况下我们会在交完初稿继续补实验,在Rebuttal环节补充。 李逸轩:针对创新性不足的问题,我的方法是给审稿人重新讲一遍整篇论文的故事,针对他的疑问和意见耐心解答,但要注意有所侧重,精简回答问题,尽量让他认可自己的想法。如果遇到特殊的情况(比如审稿人提出的问题不够专业),需要考虑其他的策略。 官同坤:在回答审稿人的意见之前,我们需要揣摩审稿人提出问题的动机,在问题之外他有什么疑惑,将这一点搞清楚,我们才能清楚如何更准确地回答问题。 王琦:当审稿人给出的评分非常不合理的时候,可以尝试给领域主席(AC)发邮件说明具体情况,一般是由AC决定论文是否录用。 科研经验分享 l 目前的研究方向及研究热点 任星宇:我目前的研究方向是三维人脸建模,它包括几何重建和纹理重建。该领域实践性更强,相关的文章更看重实际效果和落地性。在大模型的时代,现在的主流思路是与语言、文本大模型结合去提高特定任务的性能。CVPR的很多文章也都是这种范式,包括Stable diffusion视觉大模型的提出也促进了很多下游任务的优化,大家可以多多关注这方面的研究。但是学校中的算力条件有限,我们更应该关注应用层面,研究如何更好地使用大模型、结合多个大模型拓展更新的任务。 官同坤:我的研究方向是文本检测与识别,首先OCR目前的研究方向可以结合自监督,比如如何利用无标注的图像做自监督文本检测,自监督文本识别,面向检测与识别的自监督训练。其次,现有的语言模型在语义预测上错误率很高,较多的只是辅助视觉模型操作,可以在未来对语言模型进行深度优化,使语言模型具有语义矫正的功能。然后,端到端文本识别在目前仍需要一系列流程,还不够丝滑,未来的再突破也是一个问题。最后,OCR的应用场景很广泛,在一些场景下识别的精度还有待提升,比如工业场景,所以将研究聚焦到具体的任务当中也是值得研究的。 李逸轩:首先,现在的换脸算法与影视级别、游戏级别的应用是有差距的,如何将最新的技术与换脸结合并且达到很好的效果,并且如何与CG的方法系统地结合起来实现更好地落地是需要研究的。其次,3D换脸方面要解决的问题很多,比如目前使用3D GAN技术换脸的背景、头发效果并不理想且耗时长,与2D GAN的效果相比有差距,想要实现一些动态的驱动效果或者与下游任务结合也是非常值得探索的。 l CVPR中的idea来自哪里? 任星宇:总结日常生活中的直觉,将直觉提炼为一个规律,发现前人研究中的不足,对自己从日常生活中总结的经验加以探索研究。 官同坤:Idea的产生需要有任务引导,在实际任务中意识到存在的问题,并且现有研究中尚未解决,我们就可以继续研究。 李逸轩:首先出于自己的研究兴趣分析目标工作,找出与自己想实现的效果之间的差距。然后做出第一个demo之后重新理思路,加上一定的约束或者框架,讲好整个故事,让别人理解自己的想法。 l 对科研小白的忠告 任星宇:实践出真知。idea是通过实践得来的,抓紧时间动手,多做验证的工作才能知道有没有效,不要停留在空想的阶段。有实验结果之后,抓紧时间开始写论文,提前完成初稿才有更多时间打磨。其次选方向需要很慎重,不要太耗计算资源,选自己所在条件接受范围内的研究方向做起来会比较顺畅。 官同坤:首先科研小白初期可以将自己研究方向所有的研究工作看一遍,了解整个发展过程,记录重要的点,剖析前人未解决的问题。然后针对具体任务做实验,会发现不同的想法和问题,针对问题提出解决方案。有了想法和实验之后,写文章很重要,文章的打磨和修改也是需要锻炼的。多看论文,多动手实践,改进过程发现新的想法,并通过不断的实验验证有效性,在学习过程中不断成长。 李逸轩:最初的idea需要通过实践去验证,在尝试的过程中调整方向。写代码、配环境需要靠自己多动手实践,可以对照着代码看文章,理解思路和难点。多看新接触领域的文章,学会精读和泛读文章,要了解领域内大致的研究状况。 王琦:Get your hands dirty,理论要和实践相结合,有一个较为清晰的 idea,就可以动手实践了,通过实践得到反馈,不断地调整 idea。 大模型时代下的科研转变 任星宇:在大模型时代,我们可以将自己的方向与大模型结合匹配,将大模型作为先验提升自己任务的性能。对于遥感、医学等有具体物理意义的领域,针对其具体的物理场景做一个大数据集是很有意义的。如何将通用大模型与3D大模型以及其他更多的大模型更好地融合起来是值得思考的。 官同坤:第一,大模型对OCR的冲击是有的,但应该放平心态,积极想对策,拥抱大模型的到来,将自己的任务与其结合起来,做一些更有效果的工作;第二,技术工作可以被替代,但是大脑创造的鲜活性还是需要人类,我们要始终保持创造力。 李逸轩:找到合适的切入点将自己的领域与大模型做融合,将大模型作为工具,积极地拥抱新生事物。 王琦:我们可以将大模型结合到已有的任务上做改进,不断优化,将大模型作为工具来帮助我们更好地科研和生活。