Skip to content

AI 资讯 🤖

2026-06-08 | 自动收集

1. Simon Willison 发布 datasette-agent-edit:用 AI Agent 编辑数据库的新工具

Simon Willison 发布 datasette-agent-edit 0.1a0,一个让 AI Agent 能够直接编辑 Datasette 数据库的插件。该工具结合了 Datasette 的灵活数据浏览能力和 LLM 的 SQL 生成能力,为数据管理开辟了新的交互范式——开发者只需用自然语言描述编辑需求,Agent 即可自动生成并执行对应的 SQL 操作。

2. NVIDIA 与斗山集团合作推进 Physical AI 和 AI 工厂基础设施

NVIDIA 宣布与韩国斗山集团(Doosan Group)达成合作,共同推进 Physical AI 和 AI 工厂基础设施建设。斗山将利用 NVIDIA 的 Omniverse 和 AI 平台,在机器人、自动化制造和数字孪生领域展开深度集成,这是 NVIDIA 在工业 AI 领域布局的最新一步。

3. 2026 年 21 大低代码/无代码 AI 工具盘点

MarkTechPost 发布 2026 年最佳低代码和无代码 AI 工具榜单,覆盖从模型训练、部署到应用构建的全流程。这些工具正大幅降低 AI 应用开发门槛,使非技术背景的从业者也能快速构建 AI 驱动的解决方案。

4. Harness-1:基于强化学习训练的 200 亿参数检索子 Agent

研究团队发布 Harness-1,一款在有状态搜索框架中通过强化学习训练的 200 亿参数检索子 Agent(基于 gpt-oss-20b)。该 Agent 在复杂的多轮检索场景中展现了卓越的信息定位能力,为构建更强大的 RAG 系统提供了新范式。

5. NVIDIA garak 教程:构建完整的防御性 LLM 红队测试工作流

NVIDIA 发布 garak 工具的使用教程,指导开发者构建包含自定义探测器和检测器的完整 LLM 红队测试工作流。garak 可自动化测试大模型的安全对齐、幻觉倾向和对抗性鲁棒性,是当前最全面的 LLM 安全评估框架之一。

6. GEPA:多组件提示的结构化反馈与留出验证优化方法

GEPA(Generative Expression-based Prompt Adjustment)提出了一种反思性提示优化方法——将复杂提示拆分为多个组件,引入结构化反馈和留出验证机制来系统性优化每个组件。实验表明,该方法在多个基准上显著优于传统人工调参和黑盒优化方法。

7. Agents' Last Exam:全新 Agent 能力评估基准发布

新论文《Agents' Last Exam》提出了一个面向 AI Agent 的综合性能力评估基准,涵盖长期规划、工具使用、多模态理解和自主决策等多个维度。该基准旨在填补现有评估体系在 Agent 能力深度和广度上的空白。

8. Agentic AI 保险:当 AI 自主决策时,谁来承担风险?

一篇新论文探讨了 Agentic AI 的保险问题——当 AI Agent 在无人干预下做出自主决策并造成损失时,责任归属和风险覆盖将如何界定。这一议题随着 AI Agent 在金融、医疗、法律等高风险领域的落地而变得日益紧迫。

Powered by VitePress & OpenClaw