AI 热点日报 | 2026年7月1日

数据来源：AI HOT（aihot.virxact.com）

模型发布/更新

Claude Sonnet 5 发布，强化自主工具使用与 Agent 能力

Anthropic 发布 Claude Sonnet 5，定位为新一代 Sonnet 模型，强调计划、浏览器、终端和工具调用能力，可在更长任务中自主运行。AI HOT 收录的信息显示，它在推理、工具使用、编程和知识工作等智能体场景相比 Sonnet 4.6 有明显提升，性能接近 Opus 4.8，但价格更低：2026 年 8 月 31 日前输入为每百万 token 2 美元、输出为每百万 token 10 美元，之后恢复到每百万输入 3 美元、输出 15 美元。真正的信号在于，Sonnet 线正在继续向“高性价比主力 Agent 模型”靠拢，模型竞争不只看极限能力，也看能否以更低成本支撑大量工具型工作流。

📎 Anthropic Newsroom：Claude Sonnet 5

Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google DeepMind 推出 Nano Banana 2 Lite 与 Gemini Omni Flash。前者是 Nano Banana 系列里速度最快、成本最低的图像模型，文本生成图像约 4 秒出图，每张 1K 分辨率图像成本为 0.034 美元，已进入 Google AI Studio、Gemini API、AI Mode in Search 和 Gemini app 等产品；后者面向高画质视频生成与对话式编辑，视频输出定价为每秒 0.10 美元，并向开发者开放 API。Google 的多模态路线正在变得更产品化：图像模型追求低成本和高频入口，视频模型则逐步进入可编程的开发者接口。

📎 Google DeepMind Blog：Nano Banana 2 Lite and Gemini Omni Flash

美团 LongCat 发布旗舰模型 LongCat-2.0，面向 Agentic Coding

美团 LongCat 推出旗舰模型 LongCat-2.0。AI HOT 收录的信息显示，该模型采用 1.6T 参数 MoE 架构，约 48B 活跃参数，原生支持 1M 上下文窗口，定价为 Input Cache 每百万 tokens 0.015 美元、Input 0.75 美元、Output 2.95 美元。模型针对 Agentic Coding 设计，使用 LSA 稀疏注意力扩展长上下文，Zero-Compute Experts 动态激活 33B-56B 参数，并通过 MOPD 将专家分成 Agent、Reasoning、Interaction 三组做任务路由。继前一天 Owl Alpha 热度上升后，LongCat-2.0 让国产模型竞争更明确地进入编码 Agent 和长上下文成本战。

📎 X：硅基流动 SiliconFlow (@SiliconFlowAI)

产品发布/更新

X 发布 hosted X MCP，AI 智能体可直连 X API

AI HOT 收录的信息显示，X 推出 hosted X MCP，让 Grok、Cursor 等工具里的 AI 智能体可以通过 MCP 协议直接调用 X API 获取实时信息。用户需要注册 X API 并按量付费，个人优惠价为每次调用 0.01 美元；有开发者实测拉取近三天书签花费约 0.1 美元。这个发布的意义不只是“多了一个 MCP 服务”，而是实时社交数据开始被包装成 Agent 可直接调用的工具接口。对研究、舆情、销售和内容工作流来说，数据授权、成本控制和工具调用边界会变成核心问题。

📎 X：歸藏 (@op7418)

shot-scraper video 让 AI 智能体录制工作演示视频

Simon Willison 的 shot-scraper 1.10 新增 shot-scraper video 命令，可以通过 storyboard.yml 定义浏览器操作步骤，并用 Playwright 录制视频。演示案例展示了 Datasette 从粘贴的 CSV、TSV、JSON 数据创建新表的流程；新机制依赖 Playwright 1.61.0 的 screencast 能力，解决了此前视频开头白帧和固定宽度等问题。这里最有价值的细节是：足够清晰的命令帮助文档可以让编码 Agent 直接调用工具生成产品演示，把“写代码之后怎么展示结果”也纳入自动化链条。

📎 Simon Willison 博客：shot-scraper video

Acti 将 AI 智能体直接放入手机键盘

新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘，让用户在手机应用里直接通过键盘触发任务。核心功能 Skills 支持用自然语言创建快捷方式，例如长按 T 键翻译消息、按 C 键发送会议链接；早期测试者两周内创建了超过 1000 个 Skills。Acti 采用本地优先架构，默认不访问私人消息，并已获得 BITKRAFT Ventures 领投的 530 万美元种子轮融资。移动端 Agent 的入口竞争正在从“一个独立 App”扩展到系统输入层：键盘一旦成为操作代理，就会靠近每个应用的真实上下文。

📎 TechCrunch：Acti puts AI agents into your smartphone keyboard

AI News Radar 更新：新增自媒体板块，支持订阅多平台账号

AI News Radar 迎来大更新，新增自媒体板块，支持订阅小红书、抖音、B 站、X 等平台账号，并按热度推荐每日 Top 10 信息，同时保留时间轴视图，可在热度优先和时间优先之间切换。它也继续聚合 OpenAI、Anthropic、Google 等一手消息和 GitHub AI/ML 更新日志，并按来源、类型、信号等级标注内容。这个方向对应的是 AI 信息过载后的下一层需求：不是只抓更多源，而是把官方信号、自媒体信号和多源认证组织成可复用的信息面板。

📎 公众号：卡尔的AI沃茨

NotebookLM Short Video Overviews 全量上线 Web 英文版

NotebookLM 向 Web 英文用户全量推出 Short Video Overviews 功能，可把复杂资料自动转成 60 秒竖屏视频，用更短、更视觉化的方式解释概念。该功能此前已面向 Google AI Ultra 和 Pro 订阅者推出，免费用户也将陆续可用。NotebookLM 的产品形态正在从“资料问答和音频概览”扩展到多模态学习材料生成，说明知识工具的竞争不再只是谁能总结文档，而是谁能把资料转换成适合不同场景消费的媒介。

📎 X：NotebookLM (@NotebookLM)

ADK Go 2.0 发布，新增图工作流、人类参与循环与动态编排

Google 发布 Agent Development Kit for Go 2.0，引入基于图的工作流引擎，用于组合复杂多智能体应用。新版本内置人类参与循环编排、纯 Go 代码动态执行、指数退避重试等弹性机制；统一执行模型后，单智能体应用和复杂图工作流都运行在同一运行时上，遥测和状态持久化也更容易统一。多 Agent 工程正在从示例项目进入框架化阶段，开发者需要的不只是“让模型互相聊天”，而是可追踪、可暂停、可恢复、可治理的执行图。

📎 Google Developers Blog：ADK Go 2.0

Claude Desktop 推出 Linux 公测版

Claude Desktop 推出 Linux 测试版，支持 Ubuntu 和 Debian。Anthropic 表示，除浏览器和终端外，付费计划用户现在可以在 Linux 桌面获得 Claude Code、Claude Cowork 和聊天体验。这个更新对开发者群体尤其直接：如果桌面端、终端和浏览器端体验逐步统一，Claude 相关工具就能更自然地进入 Linux 开发环境，而不是只依赖 Web 或命令行。

📎 X：Claude Devs (@ClaudeDevs)

Claude Science 科研工作台正式上线

Anthropic 推出 Claude Science 科研工作台，面向从文献分析到多步骤实验研究的全流程。它整合常用科研工具和计算资源，提供超过 60 项预配置技能与连接器，覆盖基因组学、单细胞、蛋白质组学、结构生物学和化学信息学等领域；可在 macOS、Linux 本地运行，也可通过 SSH 或 HPC 远程使用。平台支持生成包含代码和环境的可审计成果，并内置 reviewer agent 检查引用和计算错误，还能通过 NVIDIA BioNeMo 接入 Evo 2、Boltz-2 等模型。科学 Agent 正在从通用问答走向“带工具、带环境、可审计”的专业工作台。

📎 Anthropic Newsroom：Claude Science AI workbench

行业动态

特斯拉 Cybercab 量产版在奥斯汀启动公开道路工程测试

特斯拉在奥斯汀公共道路启动首批量产版 Cybercab 工程测试。AI HOT 收录的信息显示，测试车辆无方向盘和脚踏板，但配有安全监督员，目前不对外开放乘客；特斯拉投入 34 台 Cybercab 在市中心验证硬件可靠性。Cybercab 从 2024 年 10 月概念车首秀到实车上路约 20 个月，是完全围绕无人驾驶设计的双座车型。相比改装现有车型，Cybercab 更像是特斯拉对 Robotaxi 终局形态的工程验证：真正的难点不只是模型和感知，也包括硬件可靠性、监管许可和城市道路运营。

📎 IT之家：特斯拉 Cybercab 公开道路工程测试

Anthropic 称 Claude Fable 5 和 Mythos 5 出口管制已解除

Anthropic 在 X 上表示，已收到通知，商务部解除对 Claude Fable 5 和 Mythos 5 的出口管制，公司将开始恢复访问并继续分享进展。这个消息本身信息量不长，但它提示模型可用性越来越受政策和出口管制影响：对企业用户来说，模型是否“技术上可用”之外，还要看地区、监管和供应链条件是否允许稳定使用。

📎 X：Anthropic (@AnthropicAI)

Meta 秘密测试 ChatGPT 等竞品，承包商假扮未成年发送危机提示

The Decoder 报道称，Meta 通过承包商 Covelen 发起代号“Cannes”的项目，雇佣数百人假扮未成年人，向 ChatGPT、Gemini 和 Character.AI 发送关于自杀、自残、饮食障碍和毒品的敏感提示，并记录回复。报道提到，2025 年 8 月一轮测试发送了超过 4.5 万条提示；Meta 称这是行业标准安全测试，且未将数据用于训练自家模型。这个事件暴露了 AI 安全评测的灰区：未成年人安全确实需要高压测试，但竞品测试、身份模拟、服务条款和数据处理边界都需要更透明的规则。

📎 The Decoder：Meta secretly tested rival chatbots

黑石未来 3-5 年拟在日本 AI 数据中心投资 300 亿美元

黑石计划未来 3-5 年在日本 AI 数据中心领域投资 300 亿美元，在此前 500MW 基础上新增超过 1GW 容量。AI HOT 收录的信息还提到，黑石、阿波罗和博通本月成立 AI XPV 平台，目标到 2028 年向 OpenAI、Anthropic 等提供超过 20GW 算力，首期 350 亿美元支持 Anthropic 在 Fluidstack 数据中心部署 1GW 基础设施。AI 基建竞争正在从单家公司买 GPU，转向金融资本、芯片公司、数据中心和模型公司的联合融资结构；真正的稀缺项仍然是可交付的电力、土地、芯片和运维能力。

📎 IT之家：黑石拟投 300 亿美元在日本建 AI 数据中心

论文研究

AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题

AI HOT 收录的一则推文称，研究者通过 prover-verifier LLM 循环解决了理论计算机科学中的 9 个开放问题，其中包括一个困扰研究者两年的难题，相关合作来自哥伦比亚大学团队，并计划将方法扩展到更多科学领域。由于这一条目前来自社交平台线索，结论仍需要等待论文、代码或同行验证材料进一步确认；但它值得关注的原因很清楚：如果证明生成和验证循环能在真实开放问题上稳定发挥作用，数学和理论计算机科学会成为检验科学 Agent 能力的关键场景。

📎 X：AI Safety Memes (@AISafetyMemes)

OpenAI 发布 GeneBench-Pro，评估计算生物学研究级 Agent

OpenAI 发布 GeneBench-Pro，用于评估 AI 智能体在计算生物学中处理模糊问题、选择分析路径和做判断性分析的能力。该基准包含 129 个问题，覆盖统计遗传学、群体遗传学等 10 个领域、21 个子领域；每题提供真实混乱的数据集和实验背景，要求模型探索数据、迭代实验并得出结论。OpenAI 采用合成数据构建完整因果结构，其中 82 个问题已由外部领域专家审查现实性。相比传统问答基准，GeneBench-Pro 更接近科研工作里的“数据乱、目标不完全明确、但必须做出分析决策”。

📎 OpenAI：Introducing GeneBench-Pro

Anthropic 提出回合平均稀疏自编码器，降低可解释性特征解析成本

Anthropic 在 Transformer Circuits 更新中提出 Turn-Averaged SAE：对每个对话回合所有 token 的残差流取平均后训练稀疏自编码器，以减少需要解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集，发现回合平均特征更关注模型行为的高层属性，例如错误答案；每 token SAE 则更偏向数值推理等细节。Sonnet 4.6 评估显示，回合平均 SAE 在区分目标方面弱于每 token SAE，但在覆盖回合整体描述方面更强。它代表一种取舍：牺牲部分细粒度定位能力，换取更适合长对话行为分析的全局可解释性视角。

📎 Anthropic Transformer Circuits：June update

技巧与观点

Every 的“复利工程”：一个人维护 5 款产品，80% 时间用于计划和审查

Every 公开“复利工程”方法论，描述单人工程团队如何维护 5 款产品。核心循环是 Plan、Work、Review、Compound：每次解决问题后，把解法写入 CLAUDE.md 和 docs/solutions/，让 AI 下次自动复用经验、避开旧坑。AI HOT 收录的信息显示，工程师 80% 时间花在计划和审查，只有 20% 用于写代码；配套开源插件包含 26 个专项 agent、23 条工作流命令和 13 项技能。这个观点和很多团队的直觉相反：AI 编程的瓶颈可能不在“写得够不够快”，而在需求拆解、上下文沉淀和审查体系是否足够强。

📎 X：小互 (@xiaohu)

Claude Code 入门文章系统解释智能体循环

Claude Code 团队发布入门文章，将智能体循环定义为 agent 重复工作直到满足停止条件的过程，并划分为四类：由用户提示触发的 turn-based 循环，通过 /goal 设置可验证目标和最大轮次的 goal-based 循环，通过 /loop 或云端计划任务运行的 time-based 循环，以及由事件或计划自动触发的 proactive 循环。文章还介绍了如何用 SKILL.md 把人工验证步骤编码进 Claude 的端到端自检流程。对团队落地来说，这比单纯讨论“提示词怎么写”更重要：Agent 产品需要可控循环，而不是无限制地让模型继续执行。

📎 Claude Blog：Getting started with loops

TechCrunch：AI 就业争论变得更加混乱

TechCrunch 报道称，截至 2026 年 5 月，AI 相关裁员接近 9 万个，外界也预计未来五年美国最多 15% 岗位可能被 AI 替代；但 Ramp 与 Revelio Labs 对近 2.2 万家公司的报告发现，高 AI 投入企业前三个月人均月支出 30 美元时，总员工数增长 10.2%，入门级岗位增长 12%。这让“AI 一定减少就业”的叙事变得更复杂：资源充足、能持续投入 AI 的公司可能把 AI 当成扩张工具，而不是单纯裁员工具；只买订阅、不重构流程的公司则未必得到同样增益。

📎 TechCrunch：The AI jobs debate just got messier

具身智能数据采集员：日薪 200 元起，给机器人当老师

数字生命卡兹克观察到，具身智能数据采集员正在以日薪 200-250 元招募兼职，工作包括穿戴设备遥操作双臂机器人完成分拣积木、叠纸杯等动作，或在没有机器人的情况下徒手重复叠衣服等动作，由设备记录轨迹。AI HOT 收录的信息称，全球高质量物理交互数据截至 2026 年初约 50 万小时，不足大语言模型训练数据的两万分之一。具身智能的短板不只是模型，而是现实世界动作数据极其昂贵、缓慢且依赖大量人工采集。

📎 公众号：数字生命卡兹克

OpenAI Signals 数据展示 ChatGPT 全球采用趋势

OpenAI Signals 数据显示，用户注册六个月后日均消息量增加 50%，尝试任务种类翻倍；自 2023 年 7 月以来，各大洲活跃用户都大幅增长，非洲和亚洲增速最快，低人类发展指数国家增长尤其显著。OpenAI 还称，非英语用户已占活跃用户半数以上，西班牙语、葡萄牙语和阿拉伯语领先；女性名字用户已占全球多数。ChatGPT 的采用趋势说明，AI 工具扩散并不只发生在美国科技从业者中，而是在语言、地区、性别和发展水平上继续扩大。

📎 OpenAI：How ChatGPT adoption has expanded

Grant Sanderson 讨论 AI 与数学未来：攻克基准不等于 AGI

3Blue1Brown 创办人 Grant Sanderson 在与 Dwarkesh Patel 的对谈中讨论 AI 与数学的未来。他认为，AI 在 IMO 获金牌并不等于 AGI，只是又一个被攻克的基准；即使未来 AI 解决千禧年大奖难题，仍可能存在大量人类任务无法自动化。对话还涉及数学概念突破验证周期、AI 证明能否被人类理解、模型是否能在文献之间发现隐藏联系，以及现实经济任务为何难以套用强化学习环境。这个观点提醒我们，数学能力很重要，但不能把单一高难基准直接等同于通用智能。

📎 Dwarkesh Patel：Grant Sanderson on AI and math

英国职场 AI 采用率翻倍，只有 15% 深度用户获得明显优势

Google UK 与 Public First 的研究显示，英国职场 AI 采用率一年内从 34% 升至 73%，但收益分布并不均衡。只有 15% 的“AI Trailblazers”深度用户获得更强优势：晋升概率高 84%，绩效高 88%，加薪概率高 55%，每周节省近 8 小时；其余 85% 仍处于旁观、实验或早期实践阶段。阻碍因素包括一次即弃的提示词习惯、搜索框思维和缺乏明确使用许可。企业 AI 培训的关键可能不是让所有人“试一下”，而是帮助员工形成可重复的工作方法。

📎 Google Blog：Unlocking Britain’s next era of productivity

Dharma AI 讨论为什么专业化不可避免

Dharma AI 团队引用 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 的论文，从优化理论、生物学和竞争市场论证专业化的必然性。文章提到，Wolpert-Macready 无免费午餐定理表明，通用优化算法在所有问题上的平均表现相同，实际优势来自专门适配；在有限资源下，把资源集中到有限任务集的系统，会优于平均分配的通用系统。这个观点对 AI 产品也很现实：通用模型很重要，但真正稳定创造价值的系统，往往会围绕特定环境、数据和流程做深度适配。

📎 Hugging Face Blog：Why specialization is inevitable

AI 热点日报 · 作者：钟懿 · 数据来源：AI HOT（aihot.virxact.com）

模型发布/更新#

Claude Sonnet 5 发布，强化自主工具使用与 Agent 能力#

Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash#

美团 LongCat 发布旗舰模型 LongCat-2.0，面向 Agentic Coding#

产品发布/更新#

X 发布 hosted X MCP，AI 智能体可直连 X API#

shot-scraper video 让 AI 智能体录制工作演示视频#

Acti 将 AI 智能体直接放入手机键盘#

AI News Radar 更新：新增自媒体板块，支持订阅多平台账号#

NotebookLM Short Video Overviews 全量上线 Web 英文版#

ADK Go 2.0 发布，新增图工作流、人类参与循环与动态编排#

Claude Desktop 推出 Linux 公测版#

Claude Science 科研工作台正式上线#

行业动态#

特斯拉 Cybercab 量产版在奥斯汀启动公开道路工程测试#

Anthropic 称 Claude Fable 5 和 Mythos 5 出口管制已解除#

Meta 秘密测试 ChatGPT 等竞品，承包商假扮未成年发送危机提示#

黑石未来 3-5 年拟在日本 AI 数据中心投资 300 亿美元#

论文研究#

AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题#

OpenAI 发布 GeneBench-Pro，评估计算生物学研究级 Agent#

Anthropic 提出回合平均稀疏自编码器，降低可解释性特征解析成本#

技巧与观点#

Every 的“复利工程”：一个人维护 5 款产品，80% 时间用于计划和审查#

Claude Code 入门文章系统解释智能体循环#

TechCrunch：AI 就业争论变得更加混乱#

具身智能数据采集员：日薪 200 元起，给机器人当老师#

OpenAI Signals 数据展示 ChatGPT 全球采用趋势#

Grant Sanderson 讨论 AI 与数学未来：攻克基准不等于 AGI#

英国职场 AI 采用率翻倍，只有 15% 深度用户获得明显优势#

Dharma AI 讨论为什么专业化不可避免#