GPT-5.2屠榜
三星发布首款三折叠手机Galaxy Z TriFold,AI功能增强;GPT-5.2刷新榜单成绩,OpenAI与Google竞争激烈;京东招募端侧AI芯片人才,迪士尼与OpenAI合作生成AI视频;Rivian推出AI助手,Astribot Lumo-1模型可推理物理空间;谷歌AI试穿功能只需自拍,迪士尼起诉Google侵犯版权;世航完成多轮融资,巩固海洋机器人领先地位
行业新闻
三星首款三折叠Galaxy Z TriFold国内亮相
近日,三星旗下首款三折叠手机 Galaxy Z TriFold 在国内真机亮相,该产品配备 10 英寸可折叠屏幕。三星 Galaxy Z TriFold 采用向内多重折叠设计,可支持两次展开操作。闭合时,6.5 英寸外屏可以满足日常手机使用;在完全展开状态下,机身厚度约为 3.9 毫米,是目前机身最薄的 Galaxy 机型之一。10 英寸大屏同样有利于多任务处理,用户可以在屏幕中同时开启三个互不干扰的竖屏应用程序并行使用,也可以通过多窗口视图自由调整应用尺寸和布局,按个人习惯定制交互界面。硬件方面,三星 Galaxy Z TriFold 搭载骁龙8至尊版移动平台(for Galaxy),为系统日常运行提供性能保障。内屏与外屏均采用第二代动态AMOLED屏幕,支持高分辨率、较高峰值亮度以及120Hz自适应刷新率,可覆盖办公、观影与游戏等多种使用场景。电池方面,机身内置5600毫安时(典型值)三电芯电池系统,支持45W快速充电,以提升续航表现。影像系统由2亿像素大底主摄领衔的后置摄像头组构成,可满足用户在日常生活和出行场景中的拍摄需求。在夜景等光线复杂环境下,增强超视觉引擎会根据拍摄场景智能优化画面亮度与色彩。此外,此前需要外接显示设备才能使用的Samsung DeX,如今在三星Galaxy Z TriFold上可以本地独立运行。开启DeX模式后,用户可以创建至多四个独立桌面,每个桌面可同时运行...
B站辟谣“所有视频类资源均需购买B站视频会员方可完整观看”
近日,一张关于B站“所有视频类资源均需购买B站视频会员方可完整观看,基础弹幕功能同步绑定会员权益开放”的相关截图在社交平台流传。对此,B站客服回应称:“该消息为不实消息,对于造谣者我们将追究法律责任。也请大家切勿轻信和传播网络谣言。” (中新经纬)B站客服在回应中还提到,平台无任何免费完整视频类资源开放,所有番剧、影视、纪录片、综艺等视频内容,仅“B站视频会员”可解锁完整观看权限,同时畅享基础弹幕观看、发送、互动及弹幕屏蔽等核心功能。这一消息的传播使得不少用户对此产生了担忧,B站客服的回应是为了消除用户的疑虑,同时也表达了对于造谣者的严肃态度。
谷歌发布智能体Scaling Law
谷歌发布了一篇新论文,填补了智能体性能决定原则的空白。论文通过大量实验找到了智能体的Scaling Law,即定量扩展原则。他们将这种扩展定义为智能体数量、协作结构、模型能力和任务属性之间的相互作用。他们在四个不同的基准测试中对此进行了评估,包括金融推理、网络导航、游戏规划和工作流执行。利用五种典型的智能体架构,在三个LLM家族中进行了实例化,谷歌这个团队对180种配置进行了受控评估,标准化了工具、提示结构和token预算,以将架构效应从实施混杂因素中隔离出来。他们使用经验性的协作指标(包括效率、开销、错误放大和冗余)推导出了一个预测模型,该模型实现了交叉验证R²=0.513,通过对任务属性建模而非过度拟合特定数据集,实现了对未见任务领域的预测。是的,智能体的Scaling Law找到了!并且准确度还相当高,谷歌表示:“我们的框架在预测保留任务的最佳架构方面实现了87%的准确率。”这样一来,智能体的部署决策将第一次获得强有力的原则支撑。
热门开源项目
Astribot Lumo-1: 能在物理空间中推理和行动的通用操作大模型
Lumo-1 是一个大规模的视觉-语言-动作(VLA)模型。该模型能够泛化到新的物体、环境和指令 - 包括涉及抽象或间接描述的指令,并且可以高效得适应新任务,包括需要推理或精确操作的任务。Lumo-1 继承现有视觉-语言模型(VLMs)强大的多模态推理能力,然后逐步将这种能力扩展到关于物理世界的具身推理和真实世界的动作执行。训练过程遵循结构化的三阶段流程:01.在精选的视觉-语言数据上进行VLM继续预训练,以增强具身推理技能,如规划、空间理解和轨迹预测;02.在跨本体数据和视觉-语言数据上进行联合训练;03.使用在Astribot S1(一个具有类人灵巧性和敏捷性的绳驱双臂移动操作机器人)上收集的数据进行带推理过程的动作训练。最后应用强化学习阶段进一步优化推理结果与推理-动作一致性。
BrainOmni:首个统一脑电磁基础模型,实现跨设备、跨模态的通用脑信号表征
上海人工智能实验室(上海 AI 实验室)联合清华大学、剑桥大学等合作单位,正式发布 BrainOmni——全球首个统一脑电(EEG)与脑磁(MEG)的大脑基础模型。BrainOmni 通过一种新注意力机制,模拟了脑科学中源重构算法的前向过程,并且首次利用传感器的真实物理属性(坐标、方向、类型)替代通道命名,从而实现跨设备、跨模态兼容。通过 1997 小时 EEG 和 656 小时 MEG 的大规模自监督预训练,BrainOmni 在 9 项下游任务上超越现有基础模型与专用模型,并在未见过的设备上展现强零样本泛化能力。工作自发布以来,收到了来自牛津大学、剑桥大学、法国国家科学研究中心、荷兰 Radboud 大学、美国著名可穿戴脑磁图企业等的关注与合作邀请。
Disney hits Google with cease-and-desist claiming ‘massive’ copyright infringement
Disney is accusing the tech giant of unauthorized distribution of its copyrighted characters without permission via Gemini AI. Disney says that alongside the agreement, it will "become a major customer of OpenAI," as it will use its APIs to build new products, tools, and experiences, including for Disney+. This move is part of Disney's broader strategy to protect its intellectual property and ensure that its characters are used ethically and legally.
学术论文
谷歌发布智能体Scaling Law:180组实验打破传统炼金术
智能体(Agent),即基于语言模型且具备推理、规划和行动能力的系统,正在成为现实世界 AI 应用的主导范式。尽管其已被广泛采用,但决定其性能的原则仍未被充分探索,导致从业者只能依赖启发式经验,而非有原理依托的设计选择。现在,谷歌的一篇新论文填补了这一空白!他们通过大量实验找到了智能体的 Scaling Law,只不过他们将其称为 quantitative scaling principles,即定量扩展原则。论文标题:Towards a Science of Scaling Agent Systems 论文地址:https://arxiv.org/abs/2512.08296 具体来说,他们将这种扩展定义为智能体数量、协作结构、模型能力和任务属性之间的相互作用。他们在四个不同的基准测试中对此进行了评估:Finance-Agent(金融推理)、BrowseComp-Plus(网络导航)、PlanCraft(游戏规划)和 Workbench(工作流执行)。利用五种典型的智能体架构(单智能体系统以及四种多智能体系统:独立型、中心化、去中心化、混合型),并在三个 LLM 家族(OpenAI, Google, Anthropic)中进行实例化,谷歌这个团队对 180 种配置进行了受控评估,标准化了工具、提示结构和 token 预算,以将架构效应从实施混杂因素中隔离出来。他们使用经验性的协作指标(包括效率、开销、错误放大和冗余)推导出了一个预测模型,该模型实现了交叉验证 R²=0.513,通过对任务属性建模而非过度拟合特定数据集,实现了对未见任务领域的预测。
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年
不久前,NeurIPS 2025 顺利举办,作为人工智能学术界的顶级会议之一,其中不乏学术界大佬的工作和演讲。有一项荣誉的颁发显得格外厚重且众望所归 —— 由任少卿、何恺明、Ross Girshick 和孙剑合著的经典论文 《Faster R-CNN》,摘得了 「时间检验奖」 (Test of Time Award)。凡是接触过计算机视觉的人,对这个名字绝不陌生。自 2015 年发表以来,《Faster R-CNN》无疑成为了该领域最具里程碑意义的工作之一。它不仅一举奠定了现代目标检测框架的核心范式,更像是一座灯塔,深刻影响并指引了随后整整十年的视觉模型发展方向。论文地址:https://arxiv.org/pdf/1506.01497 作为这一历史性时刻的见证与总结,何恺明在大会上发表了题为 《视觉目标检测简史》 (A Brief History of Visual Object Detection) 的演讲。何恺明演讲 PPT 已经公开,可以参阅以下链接:https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf
技术趋势
通用机器人的类人灵巧操作能力
实现通用机器人的类人灵巧操作能力,是机器人学领域长期以来的核心挑战之一。近年来,视觉 - 语言 - 动作 (Vision-Language-Action,VLA) 模型在机器人技能学习方面展现出显著潜力,但其发展受制于一个根本性瓶颈:高质量操作数据的获取。ByteDance Seed 团队最新的研究论文《End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy》针对这一关键问题提出了解决方案。该研究的核心贡献在于提出了共享自主 (Shared Autonomy) 框架,通过合理划分人类操作员与自主 AI 系统的控制职责——人通过 VR 遥操作控制机械臂 (负责高层定位和避障),DexGrasp-VLA 自主控制灵巧手 (负责精细抓握),消除了同时遥操作臂和灵巧手的需求,大幅降低操作员认知负荷,有效解决了机器人部署中最关键的数据采集成本问题。通过将数据采集效率提升至可规模化的水平,它为灵巧操作技术从实验室走向工业应用奠定了基础。
把数据中心塞进办公桌,让智能开发快N倍 ⚡
Dell的PowerScale智能存储系统,不仅是存数据的"硬盘",更是智能时代的"数据中枢",让海量非结构化数据变成可流动的战略资产。今天,两家技术巨头直接把"数据驱动的智能原生架构"打包成了一套开箱即用的解决方案,让你从传统IT丝滑进化到智能驱动的基础设施。核心三板斧:每一斧都砍在数据命脉上第一斧:Dell Pro Max with GB10——桌面上的"AI超算",但核心是数据预处理革命这台看起来平平无奇的台式机,藏着数据中心级的Grace Blackwell架构。128GB统一内存全给GPU用,意味着你在工位上就能跑70B、200B大模型的量化版。智能体开发、LoRA微调、多智能体调试,再也不用抢集群资源。下班前发现模型有问题?花10分钟改完,本地就能验证,不用提交工单等审批。