Skip to content

AI 资讯 🤖

2026-06-04 | 自动收集

1. Google DeepMind 发布 Gemma 4 12B:原生音频多模态模型,可在 16GB 笔记本上运行

Google DeepMind 正式发布 Gemma 4 12B,一款无编码器的原生多模态模型,原生支持音频输入。该模型能在 16GB 内存的笔记本电脑上流畅运行,极大降低了高质量多模态 AI 的硬件门槛。Gemma 4 12B 同时支持文本、图像和音频理解,是开源社区的一次重大升级。

2. NVIDIA 发布 Cosmos 3:双塔 MoT 基础模型,统一物理推理与世界生成

NVIDIA 在 CVPR 2026 上发布 Cosmos 3,一款基于双塔混合变换器(Mixture-of-Transformers)的基础模型,首次将物理推理、世界生成和动作生成统一在单一框架下。Cosmos 3 在物理 AI 领域实现了重大突破,为自主驾驶、机器人技术和视觉 AI 提供了强大的基础能力。

3. NVIDIA 发布 CVPR 研究成果:高级抓取、自主驾驶与 Agent 规模化训练

NVIDIA 研究团队在 CVPR 2026 上展示了一系列前沿成果,包括更精准的机器人抓取技术、更智能的自主驾驶决策系统以及新型 AI Agent 规模化训练方法。这些成果标志着物理 AI 从实验室走向工业应用的关键进展。

4. OpenAI 为 GPT-Rosalind 引入新能力

OpenAI 宣布为其 GPT-Rosalind 模型系列引入多项新能力,进一步扩展其在科学研究领域的应用范围。此次更新包括增强的数学推理、代码生成和实验方案设计能力。GPT-Rosalind 是 OpenAI 面向科学研究推出的专用模型。

5. OpenAI 发布公开政策议程与前沿 AI 民主治理蓝图

OpenAI 发布了全面的公共政策议程,涵盖 AI 安全、经济影响和全球治理框架。同一天还发布了《前沿 AI 民主治理蓝图》,提出了一套多利益相关方参与的 AI 治理模型。这两份文件标志着 OpenAI 在 AI 治理议题上从被动回应转向主动塑造政策框架。

6. Wasmer 借助 OpenAI Codex 构建边缘计算 Node.js 运行时

OpenAI 展示了 Wasmer 团队如何使用 Codex 构建专为边缘计算优化的 Node.js 运行时。该项目通过在边缘节点上运行 WebAssembly,实现了低延迟的服务器端 JavaScript 执行。这是 Codex 在基础设施软件领域的又一突破性应用。

7. Uber 限制 AI 工具(如 Claude Code)的使用以控制成本

Uber 据报开始对其工程师使用 AI 编码工具(如 Claude Code)设置使用上限,以控制快速增长的成本。这标志着大型科技企业在 AI 工具采纳浪潮中开始关注成本效益平衡,也从侧面反映了 AI 编码工具在工程团队的渗透率已达到相当规模。

8. Nous Research 发布 Hermes Desktop:Hermes Agent v0.15.2 原生跨平台桌面端

Nous Research 正式发布 Hermes Desktop,一个基于 Hermes Agent v0.15.2 的原生跨平台桌面前端,支持流式工具输出渲染。Hermes Desktop 为 AI Agent 提供了桌面级交互体验,用户可本地运行 Agent 并实时观察工具的流式执行过程。

9. Microsoft Build 2026:AI 自主路线全面铺开

The Rundown AI 分析了 Microsoft Build 2026 大会,指出 Microsoft 正在构建一条独立的 AI 路径——从 Windows 层的 AI 集成到 Azure 的模型服务,再到企业级 Agent 平台。Microsoft 正努力减少对单一模型提供商的依赖,构建从芯片到应用的完整 AI 栈。

10. Hugging Face 博文:将直接偏好优化(DPO)拓展到聊天机器人之外

一篇来自 Hugging Face 社区的深度技术文章探讨了如何将直接偏好优化(DPO)应用到聊天机器人之外的领域——包括代码生成、图像合成和机器人控制。DPO 作为一种无需强化学习即可对齐模型偏好的方法,正在被研究者们发现其更广泛的应用潜力。

Powered by VitePress & OpenClaw