Daily-AI | 12.23 | OpenAI最强推理模型o3发布!AGI测试能力暴涨

Daily-AI | 12.23 | OpenAI最强推理模型o3发布!AGI测试能力暴涨

11分钟 ·
播放数46
·
评论数0

0:00 消息称雷军亲自重金招募大模型领军人才,DeepSeek 罗福莉将加入小米

1:04 OpenAI最强推理模型o3发布!AGI测试能力暴涨,最难数学测试分数碾压同行

2:23 突发!GPT论文一作Alec Radford离职,前两代GPT作者全部离开OpenAI

3:21 Ilya宣判后GPT-5被曝屡训屡败,一次训数月,数据要人工从头构建

4:43 意大利重拳出击:ChatGPT AI 数据隐私违规,OpenAI 被罚 1500 万欧元

5:43 AI 导致用电量激增,研究显示全美数据中心所需电力未来三年预计增长近三倍

7:00 香港中文大学开发新型基础 AI 模型,多种眼科疾病诊断能力优于人类医生

7:54 消息称 AI 编程助手 Cursor 四个月内再获 1 亿美元融资,估值暴涨 6.5 倍

8:56 戴尔创始人迈克尔・戴尔:并不担心 AI PC 遇冷,产品更新通常会被低估

10:17 “AI 教师”上岗,美国亚利桑那州推出完全由 AI 教授学术课程的学校

文字版

#小米科技正在大力发展人工智能领域。据报道,DeepSeek开源大模型DeepSeek-V2的关键开发者罗福莉将加入小米,可能供职于小米AI实验室,领导大模型团队。罗福莉曾就读于北京大学,后在阿里达摩院工作,主导开发了多语言预训练模型VECO。2022年她加入DeepSeek,参与了DeepSeek-V2的开发。

消息称,小米创始人雷军认为公司在大模型领域起步较晚,因此亲自出马招揽人才,提供千万级别薪酬。今年4月,小米AI实验室已成立专门的大模型团队,由前微软小冰首席语音科学家栾剑负责。

#OpenAI发布了迄今最强大的推理模型o3,在多项基准测试中表现出色。在ARC-AGI测试中,o3高推理设置下得分87.5%,低推理设置下也是前代o1的3倍。在编程竞赛Codeforces中,o3高推理设置得分2727,远超o1的1891分。在数学测试AIME 2024中,o3准确率达96.7%。在衡量博士级科学问题的GPQA Diamond测试中,o3准确率87.7%,超过专业博士在强项领域的70%。

o3有完整版和mini版,可设置低、中、高三种推理时间。o3采用"审议对齐"训练方法,结合基于过程和结果的监督,让模型在回答前进行复杂推理。这解决了标准大模型严重依赖人工标注数据的问题。

o3将于1月底推出mini版,之后不久推出完整版。目前OpenAI已向安全研究人员开放o3访问权限,申请截止日期为1月10日。

#OpenAI再次失去一位重要人物。初代GPT论文第一作者Alec Radford宣布离职,转向独立研究。Radford自2016年加入OpenAI以来,参与了从初代GPT到GPT4o的所有开发工作,并在多个重要项目中担任第一作者,包括多模态模型CLIP和语音识别模型Whisper。他的论文被引量超19万。

Radford的离开标志着前两代GPT论文的所有作者都已离开OpenAI。此前,原首席科学家Ilya Sutskever、Karthik Narasimhan、Tim Salimans等人也相继离职。他们分别加入了新创公司、谷歌、普林斯顿大学等机构。

OpenAI研究负责人Mark Chen表示,公司对Radford的贡献深表敬意,并期待未来继续合作。

#OpenAI的GPT-5开发遇到重大挫折。据华尔街日报报道,GPT-5已进行至少两轮训练,每次持续数月,但每次都遇到新问题。为满足GPT-5的预训练需求,OpenAI正专门雇人从头创建数据,包括编写代码和解数学题。同时也在使用AI合成数据,但效率不够高。

市场估算一次6个月的训练仅计算成本就需5亿美元。GPT-5的预期目标是能进行科学探索、完成日常任务,并减少错误和幻觉。前CTO Mira曾将其智能水平比作博士生。

OpenAI正调整战略,推出了o1、o3系列。最新发布的o3在ARC-AGI测试上取得突破性进展,在400项公共任务中最高准确率达91.5%。o3通过在token空间内搜索和执行,实现了测试时的知识重组,开创了通向AGI的新范式。

o3在一些简单任务上仍有失误,显示与人类智能存在根本差异。ARC-AGI测试的发起者认为,o3在该领域接近人类水平,但还未实现AGI。

#意大利数据保护机构Garante对人工智能公司OpenAI处以1500万欧元罚款,约合1.14亿元人民币。原因是OpenAI旗下的AI聊天机器人ChatGPT在数据处理过程中违反了隐私规定。调查发现,OpenAI在训练ChatGPT时未遵循意大利法律,违反了数据透明度原则和用户信息义务。此外,ChatGPT还缺乏有效的年龄验证系统,无法阻止13岁以下儿童接触不当内容。

作为处罚的一部分,OpenAI被要求在意大利媒体开展为期六个月的宣传活动,以提高公众对ChatGPT工作原理的认识,特别是关于其如何收集和使用数据来训练算法。对此,OpenAI表示这一决定"和事实存在出入",并计划提出上诉。

#美国能源部支持的最新研究显示,人工智能的快速发展正推动数据中心用电量激增。预计未来三年内,美国数据中心的电力需求将增长近三倍,可能占到全国电力消耗的12%。劳伦斯·伯克利国家实验室的报告预测,到2028年,数据中心年用电量或达74至132吉瓦。目前,数据中心用电已占美国总电力需求的4%以上。

自2017年起,GPU加速服务器的广泛部署使该行业六年内用电量翻了一番多。AI对更强大芯片和高效冷却系统的需求是数据中心增长的主要驱动力。2016年时,AI服务器在数据中心能耗中仅占2%左右。如今,新建的AI数据中心单个电力容量高达1吉瓦,足以为费城所有家庭供电。

美国能源部工业效率与去碳化办公室主任Avi Shultz表示,AI数据中心已成为推动美国电力需求增长的新兴领域。报告建议进一步研究开发适应快速增长的AI数据中心的能效策略。

#香港中文大学研究团队开发出一种名为"VisionFM"的新型基础人工智能模型,在眼科疾病诊断方面表现出色。该模型在诊断12种眼科疾病时,精确度与中级眼科医生相当,甚至更高。特别是在预测青光眼进展方面,VisionFM的表现超过了眼科领域的第一个基础模型RETFound。

这项研究成果已发表在《NEJM AI》期刊上,研究人员表示,随着数据量增加,VisionFM有望在更多临床场景中得到应用。此外,香港人工智能与机器人研究中心(CAIR)今年初推出的AI模型也在多家医院投入使用,可协助外科医生进行手术规划和生成诊断报告。

#AI编程助手Cursor的开发商Anysphere再获1亿美元B轮融资,估值飙升至26亿美元。这轮融资由老股东Thrive Capital领投,a16z参投。Anysphere仅在四个月前刚完成6000万美元A轮融资,当时估值为4亿美元,短短几月估值暴涨6.5倍。

据悉,Anysphere今年10月的年化经常性收入已达4800万美元,增长迅速。Cursor采用免费增值模式,提供免费试用和付费订阅选项,已吸引OpenAI、Shopify等多家知名公司使用。

Anysphere由四位麻省理工学院学生于2022年创立,曾参加OpenAI加速器项目并获得种子轮融资。公司投资者阵容强大,包括风险投资公司Neo、Stripe联合创始人Patrick Collison等业界知名人士。

#戴尔公司创始人兼CEO迈克尔·戴尔近日表示,他并不担心AI PC市场遇冷的情况。尽管公司高层承认客户对新一代AI PC的采用速度不及预期,但迈克尔·戴尔认为这种情况并不罕见。他指出,产品更新通常会被低估,进展有快有慢。戴尔强调,关键在于何时能推出足够吸引用户的新特性和功能。他还表示,对于大公司的采购负责人来说,不采用AI PC将是一个错误的选择。

戴尔在AI基础设施解决方案方面表现出色。公司上季度AI服务器销售帮助实现了80%的收入增长。戴尔正与埃隆·马斯克的xAI公司合作,为其在孟菲斯的Colossus超级计算机项目提供支持,该项目使用了上万个英伟达AI芯片。

戴尔公司最新财报预期不及市场预期。公司预计截至明年2月的季度营收约为245亿美元,低于分析师平均预期的254亿美元。调整后每股收益预计为2.40美元至2.60美元,也低于市场平均预期的2.66美元。

#美国亚利桑那州特许学校委员会批准了一所创新型在线学校Unbound Academy,该校将完全由人工智能授课。这是首次尝试用AI驱动的自适应学习技术将课程压缩至两小时内。学校面向四至八年级学生,采用互动智能化平台,根据学生个人学习节奏和风格动态调整教学。

虽然设有工作人员,但他们并非认证教师,而是担任"熟练指导员"角色,负责监控学习进度并提供个性化辅导。除两小时学术课程外,学校还安排了生活技能工作坊,涵盖批判性思维、创造性解决问题、财务管理等实用内容。