数据来源:AI HOT(aihot.virxact.com)
模型发布/更新
Claude Sonnet 5 发布,强化自主工具使用与 Agent 能力
Anthropic 发布 Claude Sonnet 5,定位为新一代 Sonnet 模型,强调计划、浏览器、终端和工具调用能力,可在更长任务中自主运行。AI HOT 收录的信息显示,它在推理、工具使用、编程和知识工作等智能体场景相比 Sonnet 4.6 有明显提升,性能接近 Opus 4.8,但价格更低:2026 年 8 月 31 日前输入为每百万 token 2 美元、输出为每百万 token 10 美元,之后恢复到每百万输入 3 美元、输出 15 美元。真正的信号在于,Sonnet 线正在继续向“高性价比主力 Agent 模型”靠拢,模型竞争不只看极限能力,也看能否以更低成本支撑大量工具型工作流。
📎 Anthropic Newsroom:Claude Sonnet 5
Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash
Google DeepMind 推出 Nano Banana 2 Lite 与 Gemini Omni Flash。前者是 Nano Banana 系列里速度最快、成本最低的图像模型,文本生成图像约 4 秒出图,每张 1K 分辨率图像成本为 0.034 美元,已进入 Google AI Studio、Gemini API、AI Mode in Search 和 Gemini app 等产品;后者面向高画质视频生成与对话式编辑,视频输出定价为每秒 0.10 美元,并向开发者开放 API。Google 的多模态路线正在变得更产品化:图像模型追求低成本和高频入口,视频模型则逐步进入可编程的开发者接口。
📎 Google DeepMind Blog:Nano Banana 2 Lite and Gemini Omni Flash
美团 LongCat 发布旗舰模型 LongCat-2.0,面向 Agentic Coding
美团 LongCat 推出旗舰模型 LongCat-2.0。AI HOT 收录的信息显示,该模型采用 1.6T 参数 MoE 架构,约 48B 活跃参数,原生支持 1M 上下文窗口,定价为 Input Cache 每百万 tokens 0.015 美元、Input 0.75 美元、Output 2.95 美元。模型针对 Agentic Coding 设计,使用 LSA 稀疏注意力扩展长上下文,Zero-Compute Experts 动态激活 33B-56B 参数,并通过 MOPD 将专家分成 Agent、Reasoning、Interaction 三组做任务路由。继前一天 Owl Alpha 热度上升后,LongCat-2.0 让国产模型竞争更明确地进入编码 Agent 和长上下文成本战。
📎 X:硅基流动 SiliconFlow (@SiliconFlowAI)
产品发布/更新
X 发布 hosted X MCP,AI 智能体可直连 X API
AI HOT 收录的信息显示,X 推出 hosted X MCP,让 Grok、Cursor 等工具里的 AI 智能体可以通过 MCP 协议直接调用 X API 获取实时信息。用户需要注册 X API 并按量付费,个人优惠价为每次调用 0.01 美元;有开发者实测拉取近三天书签花费约 0.1 美元。这个发布的意义不只是“多了一个 MCP 服务”,而是实时社交数据开始被包装成 Agent 可直接调用的工具接口。对研究、舆情、销售和内容工作流来说,数据授权、成本控制和工具调用边界会变成核心问题。
shot-scraper video 让 AI 智能体录制工作演示视频
Simon Willison 的 shot-scraper 1.10 新增 shot-scraper video 命令,可以通过 storyboard.yml 定义浏览器操作步骤,并用 Playwright 录制视频。演示案例展示了 Datasette 从粘贴的 CSV、TSV、JSON 数据创建新表的流程;新机制依赖 Playwright 1.61.0 的 screencast 能力,解决了此前视频开头白帧和固定宽度等问题。这里最有价值的细节是:足够清晰的命令帮助文档可以让编码 Agent 直接调用工具生成产品演示,把“写代码之后怎么展示结果”也纳入自动化链条。
📎 Simon Willison 博客:shot-scraper video
Acti 将 AI 智能体直接放入手机键盘
新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘,让用户在手机应用里直接通过键盘触发任务。核心功能 Skills 支持用自然语言创建快捷方式,例如长按 T 键翻译消息、按 C 键发送会议链接;早期测试者两周内创建了超过 1000 个 Skills。Acti 采用本地优先架构,默认不访问私人消息,并已获得 BITKRAFT Ventures 领投的 530 万美元种子轮融资。移动端 Agent 的入口竞争正在从“一个独立 App”扩展到系统输入层:键盘一旦成为操作代理,就会靠近每个应用的真实上下文。
📎 TechCrunch:Acti puts AI agents into your smartphone keyboard
AI News Radar 更新:新增自媒体板块,支持订阅多平台账号
AI News Radar 迎来大更新,新增自媒体板块,支持订阅小红书、抖音、B 站、X 等平台账号,并按热度推荐每日 Top 10 信息,同时保留时间轴视图,可在热度优先和时间优先之间切换。它也继续聚合 OpenAI、Anthropic、Google 等一手消息和 GitHub AI/ML 更新日志,并按来源、类型、信号等级标注内容。这个方向对应的是 AI 信息过载后的下一层需求:不是只抓更多源,而是把官方信号、自媒体信号和多源认证组织成可复用的信息面板。
NotebookLM Short Video Overviews 全量上线 Web 英文版
NotebookLM 向 Web 英文用户全量推出 Short Video Overviews 功能,可把复杂资料自动转成 60 秒竖屏视频,用更短、更视觉化的方式解释概念。该功能此前已面向 Google AI Ultra 和 Pro 订阅者推出,免费用户也将陆续可用。NotebookLM 的产品形态正在从“资料问答和音频概览”扩展到多模态学习材料生成,说明知识工具的竞争不再只是谁能总结文档,而是谁能把资料转换成适合不同场景消费的媒介。
ADK Go 2.0 发布,新增图工作流、人类参与循环与动态编排
Google 发布 Agent Development Kit for Go 2.0,引入基于图的工作流引擎,用于组合复杂多智能体应用。新版本内置人类参与循环编排、纯 Go 代码动态执行、指数退避重试等弹性机制;统一执行模型后,单智能体应用和复杂图工作流都运行在同一运行时上,遥测和状态持久化也更容易统一。多 Agent 工程正在从示例项目进入框架化阶段,开发者需要的不只是“让模型互相聊天”,而是可追踪、可暂停、可恢复、可治理的执行图。
📎 Google Developers Blog:ADK Go 2.0
Claude Desktop 推出 Linux 公测版
Claude Desktop 推出 Linux 测试版,支持 Ubuntu 和 Debian。Anthropic 表示,除浏览器和终端外,付费计划用户现在可以在 Linux 桌面获得 Claude Code、Claude Cowork 和聊天体验。这个更新对开发者群体尤其直接:如果桌面端、终端和浏览器端体验逐步统一,Claude 相关工具就能更自然地进入 Linux 开发环境,而不是只依赖 Web 或命令行。
Claude Science 科研工作台正式上线
Anthropic 推出 Claude Science 科研工作台,面向从文献分析到多步骤实验研究的全流程。它整合常用科研工具和计算资源,提供超过 60 项预配置技能与连接器,覆盖基因组学、单细胞、蛋白质组学、结构生物学和化学信息学等领域;可在 macOS、Linux 本地运行,也可通过 SSH 或 HPC 远程使用。平台支持生成包含代码和环境的可审计成果,并内置 reviewer agent 检查引用和计算错误,还能通过 NVIDIA BioNeMo 接入 Evo 2、Boltz-2 等模型。科学 Agent 正在从通用问答走向“带工具、带环境、可审计”的专业工作台。
📎 Anthropic Newsroom:Claude Science AI workbench
行业动态
特斯拉 Cybercab 量产版在奥斯汀启动公开道路工程测试
特斯拉在奥斯汀公共道路启动首批量产版 Cybercab 工程测试。AI HOT 收录的信息显示,测试车辆无方向盘和脚踏板,但配有安全监督员,目前不对外开放乘客;特斯拉投入 34 台 Cybercab 在市中心验证硬件可靠性。Cybercab 从 2024 年 10 月概念车首秀到实车上路约 20 个月,是完全围绕无人驾驶设计的双座车型。相比改装现有车型,Cybercab 更像是特斯拉对 Robotaxi 终局形态的工程验证:真正的难点不只是模型和感知,也包括硬件可靠性、监管许可和城市道路运营。
Anthropic 称 Claude Fable 5 和 Mythos 5 出口管制已解除
Anthropic 在 X 上表示,已收到通知,商务部解除对 Claude Fable 5 和 Mythos 5 的出口管制,公司将开始恢复访问并继续分享进展。这个消息本身信息量不长,但它提示模型可用性越来越受政策和出口管制影响:对企业用户来说,模型是否“技术上可用”之外,还要看地区、监管和供应链条件是否允许稳定使用。
Meta 秘密测试 ChatGPT 等竞品,承包商假扮未成年发送危机提示
The Decoder 报道称,Meta 通过承包商 Covelen 发起代号“Cannes”的项目,雇佣数百人假扮未成年人,向 ChatGPT、Gemini 和 Character.AI 发送关于自杀、自残、饮食障碍和毒品的敏感提示,并记录回复。报道提到,2025 年 8 月一轮测试发送了超过 4.5 万条提示;Meta 称这是行业标准安全测试,且未将数据用于训练自家模型。这个事件暴露了 AI 安全评测的灰区:未成年人安全确实需要高压测试,但竞品测试、身份模拟、服务条款和数据处理边界都需要更透明的规则。
📎 The Decoder:Meta secretly tested rival chatbots
黑石未来 3-5 年拟在日本 AI 数据中心投资 300 亿美元
黑石计划未来 3-5 年在日本 AI 数据中心领域投资 300 亿美元,在此前 500MW 基础上新增超过 1GW 容量。AI HOT 收录的信息还提到,黑石、阿波罗和博通本月成立 AI XPV 平台,目标到 2028 年向 OpenAI、Anthropic 等提供超过 20GW 算力,首期 350 亿美元支持 Anthropic 在 Fluidstack 数据中心部署 1GW 基础设施。AI 基建竞争正在从单家公司买 GPU,转向金融资本、芯片公司、数据中心和模型公司的联合融资结构;真正的稀缺项仍然是可交付的电力、土地、芯片和运维能力。
📎 IT之家:黑石拟投 300 亿美元在日本建 AI 数据中心
论文研究
AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题
AI HOT 收录的一则推文称,研究者通过 prover-verifier LLM 循环解决了理论计算机科学中的 9 个开放问题,其中包括一个困扰研究者两年的难题,相关合作来自哥伦比亚大学团队,并计划将方法扩展到更多科学领域。由于这一条目前来自社交平台线索,结论仍需要等待论文、代码或同行验证材料进一步确认;但它值得关注的原因很清楚:如果证明生成和验证循环能在真实开放问题上稳定发挥作用,数学和理论计算机科学会成为检验科学 Agent 能力的关键场景。
📎 X:AI Safety Memes (@AISafetyMemes)
OpenAI 发布 GeneBench-Pro,评估计算生物学研究级 Agent
OpenAI 发布 GeneBench-Pro,用于评估 AI 智能体在计算生物学中处理模糊问题、选择分析路径和做判断性分析的能力。该基准包含 129 个问题,覆盖统计遗传学、群体遗传学等 10 个领域、21 个子领域;每题提供真实混乱的数据集和实验背景,要求模型探索数据、迭代实验并得出结论。OpenAI 采用合成数据构建完整因果结构,其中 82 个问题已由外部领域专家审查现实性。相比传统问答基准,GeneBench-Pro 更接近科研工作里的“数据乱、目标不完全明确、但必须做出分析决策”。
📎 OpenAI:Introducing GeneBench-Pro
Anthropic 提出回合平均稀疏自编码器,降低可解释性特征解析成本
Anthropic 在 Transformer Circuits 更新中提出 Turn-Averaged SAE:对每个对话回合所有 token 的残差流取平均后训练稀疏自编码器,以减少需要解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集,发现回合平均特征更关注模型行为的高层属性,例如错误答案;每 token SAE 则更偏向数值推理等细节。Sonnet 4.6 评估显示,回合平均 SAE 在区分目标方面弱于每 token SAE,但在覆盖回合整体描述方面更强。它代表一种取舍:牺牲部分细粒度定位能力,换取更适合长对话行为分析的全局可解释性视角。
📎 Anthropic Transformer Circuits:June update
技巧与观点
Every 的“复利工程”:一个人维护 5 款产品,80% 时间用于计划和审查
Every 公开“复利工程”方法论,描述单人工程团队如何维护 5 款产品。核心循环是 Plan、Work、Review、Compound:每次解决问题后,把解法写入 CLAUDE.md 和 docs/solutions/,让 AI 下次自动复用经验、避开旧坑。AI HOT 收录的信息显示,工程师 80% 时间花在计划和审查,只有 20% 用于写代码;配套开源插件包含 26 个专项 agent、23 条工作流命令和 13 项技能。这个观点和很多团队的直觉相反:AI 编程的瓶颈可能不在“写得够不够快”,而在需求拆解、上下文沉淀和审查体系是否足够强。
Claude Code 入门文章系统解释智能体循环
Claude Code 团队发布入门文章,将智能体循环定义为 agent 重复工作直到满足停止条件的过程,并划分为四类:由用户提示触发的 turn-based 循环,通过 /goal 设置可验证目标和最大轮次的 goal-based 循环,通过 /loop 或云端计划任务运行的 time-based 循环,以及由事件或计划自动触发的 proactive 循环。文章还介绍了如何用 SKILL.md 把人工验证步骤编码进 Claude 的端到端自检流程。对团队落地来说,这比单纯讨论“提示词怎么写”更重要:Agent 产品需要可控循环,而不是无限制地让模型继续执行。
📎 Claude Blog:Getting started with loops
TechCrunch:AI 就业争论变得更加混乱
TechCrunch 报道称,截至 2026 年 5 月,AI 相关裁员接近 9 万个,外界也预计未来五年美国最多 15% 岗位可能被 AI 替代;但 Ramp 与 Revelio Labs 对近 2.2 万家公司的报告发现,高 AI 投入企业前三个月人均月支出 30 美元时,总员工数增长 10.2%,入门级岗位增长 12%。这让“AI 一定减少就业”的叙事变得更复杂:资源充足、能持续投入 AI 的公司可能把 AI 当成扩张工具,而不是单纯裁员工具;只买订阅、不重构流程的公司则未必得到同样增益。
📎 TechCrunch:The AI jobs debate just got messier
具身智能数据采集员:日薪 200 元起,给机器人当老师
数字生命卡兹克观察到,具身智能数据采集员正在以日薪 200-250 元招募兼职,工作包括穿戴设备遥操作双臂机器人完成分拣积木、叠纸杯等动作,或在没有机器人的情况下徒手重复叠衣服等动作,由设备记录轨迹。AI HOT 收录的信息称,全球高质量物理交互数据截至 2026 年初约 50 万小时,不足大语言模型训练数据的两万分之一。具身智能的短板不只是模型,而是现实世界动作数据极其昂贵、缓慢且依赖大量人工采集。
OpenAI Signals 数据展示 ChatGPT 全球采用趋势
OpenAI Signals 数据显示,用户注册六个月后日均消息量增加 50%,尝试任务种类翻倍;自 2023 年 7 月以来,各大洲活跃用户都大幅增长,非洲和亚洲增速最快,低人类发展指数国家增长尤其显著。OpenAI 还称,非英语用户已占活跃用户半数以上,西班牙语、葡萄牙语和阿拉伯语领先;女性名字用户已占全球多数。ChatGPT 的采用趋势说明,AI 工具扩散并不只发生在美国科技从业者中,而是在语言、地区、性别和发展水平上继续扩大。
📎 OpenAI:How ChatGPT adoption has expanded
Grant Sanderson 讨论 AI 与数学未来:攻克基准不等于 AGI
3Blue1Brown 创办人 Grant Sanderson 在与 Dwarkesh Patel 的对谈中讨论 AI 与数学的未来。他认为,AI 在 IMO 获金牌并不等于 AGI,只是又一个被攻克的基准;即使未来 AI 解决千禧年大奖难题,仍可能存在大量人类任务无法自动化。对话还涉及数学概念突破验证周期、AI 证明能否被人类理解、模型是否能在文献之间发现隐藏联系,以及现实经济任务为何难以套用强化学习环境。这个观点提醒我们,数学能力很重要,但不能把单一高难基准直接等同于通用智能。
📎 Dwarkesh Patel:Grant Sanderson on AI and math
英国职场 AI 采用率翻倍,只有 15% 深度用户获得明显优势
Google UK 与 Public First 的研究显示,英国职场 AI 采用率一年内从 34% 升至 73%,但收益分布并不均衡。只有 15% 的“AI Trailblazers”深度用户获得更强优势:晋升概率高 84%,绩效高 88%,加薪概率高 55%,每周节省近 8 小时;其余 85% 仍处于旁观、实验或早期实践阶段。阻碍因素包括一次即弃的提示词习惯、搜索框思维和缺乏明确使用许可。企业 AI 培训的关键可能不是让所有人“试一下”,而是帮助员工形成可重复的工作方法。
📎 Google Blog:Unlocking Britain’s next era of productivity
Dharma AI 讨论为什么专业化不可避免
Dharma AI 团队引用 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 的论文,从优化理论、生物学和竞争市场论证专业化的必然性。文章提到,Wolpert-Macready 无免费午餐定理表明,通用优化算法在所有问题上的平均表现相同,实际优势来自专门适配;在有限资源下,把资源集中到有限任务集的系统,会优于平均分配的通用系统。这个观点对 AI 产品也很现实:通用模型很重要,但真正稳定创造价值的系统,往往会围绕特定环境、数据和流程做深度适配。
📎 Hugging Face Blog:Why specialization is inevitable
AI 热点日报 · 作者:钟懿 · 数据来源:AI HOT(aihot.virxact.com)