AI 热点日报 | 2026年6月30日

数据来源：AI HOT（aihot.virxact.com）

模型发布/更新

美团 LongCat Owl Alpha 登上 OpenRouter 热门榜，1.6 万亿参数 MoE 使用国产 ASIC 训练

AI HOT 收录的信息显示，美团 LongCat 的 1.6 万亿参数 MoE 模型 Owl Alpha 已成为 OpenRouter 上最流行的模型之一，累计消耗 10 万亿 tokens，性能被称达到 Gemini 与 Opus 4.6 级别。该模型使用 35 万亿 tokens 训练，并完全在 5 万块国产 ASIC 上完成训练；上线后每日调用量进入全球 Top 3，在 Hermes Agent 排名第 1、Claude Code 排名第 2、OpenClaw 排名第 3。真正值得关注的是两条线索：一是国产算力已经进入大模型训练叙事的核心位置，二是模型竞争正在被真实调用量和 Agent 场景重新排序。

📎 X：Emad Mostaque (@EMostaque)

产品发布/更新

Cursor for iOS 公测版发布，手机端可启动云端编码智能体

Cursor 推出 iOS 原生公测版，所有付费计划用户可用。开发者可以在手机上启动始终在线的云端智能体，也可以远程操控电脑端智能体；移动端支持语音输入、斜杠命令和模型选择，任务状态通过锁屏 Live Activities 与推送通知同步。云端智能体运行在隔离虚拟机中，可自动迭代生成合并就绪的 PR，并输出演示、截图和日志。这个发布说明编码 Agent 正在从桌面 IDE 扩展到移动入口：用户不一定要坐在电脑前，才能触发和接管一个开发任务。

📎 Cursor Blog：从任何地点构建

EverOS 开源：Markdown 优先的智能体记忆运行时

EverMind 推出开源智能体记忆运行时 EverOS，采用 Apache 2.0 许可。它以可编辑 Markdown 文件作为记忆主体，用 SQLite 管理状态，并通过 LanceDB 实现 BM25 关键词、向量搜索和标量过滤的混合检索。每个完成任务都会记录为 Case，离线提炼为可复用 Skill，让智能体记忆随使用而进化。v1.1.0 新增 Knowledge APIs 与 Reflection，分别面向可检索知识页面和跨会话自我优化。对 Agent 产品来说，记忆不再只是“把聊天记录塞进上下文”，而是在走向可编辑、可检索、可迁移的运行时资产。

📎 MarkTechPost：EverOS agent memory runtime

小红书 RedKnot 推理引擎按注意力头拆解 KV Cache，加速长文本推理

小红书技术团队介绍了 RedKnot 推理引擎：它将 KV Cache 沿注意力头维度拆解，通过头分类稀疏、稀疏 FFN 和 SegPagedAttention 统一算法与存储粒度。AI HOT 收录的数据称，在 8 卡 H800 上，TTFT 最高加速 1.6-3.54 倍，单卡并发提升 4.7-7.8 倍，预填充 FLOPs 削减 67%-79.5%；在 DeepSeek-V4-Flash 的 128K 上下文中，TTFT 加速可达 5.16 倍。长上下文能力的瓶颈正在从“模型能不能支持”转向“系统能不能经济地跑起来”，这类推理优化会直接影响 Agent 和搜索增强应用的成本结构。

📎 公众号：小红书技术（dots.llm）

OpenClaw 发布原生 iOS 与 Android 应用

OpenClaw 宣布原生 iOS 与 Android 应用上线，把智能体任务、频道和回复搬到手机端。和 Cursor iOS 类似，这类产品的重点不是简单把聊天窗口移植到移动端，而是让用户随时查看长任务状态、补充输入、处理阻塞并继续执行。Agent 产品一旦从“即时问答”变成“持续执行”，移动端就会成为任务监督和轻量介入的天然入口。

📎 X：OpenClaw (@openclaw)

Herdr：驻留在终端里的 AI 智能体多路复用器

Herdr 是一个终端中的 AI 智能体多路复用器，允许用户在单一终端界面内管理和切换多个 AI 智能体会话。它对应的是开发者工作流里越来越常见的问题：同一时间可能有多个 Agent 在处理不同任务，如果仍靠多个窗口和手动状态记忆，很快会变得混乱。终端多路复用器把 Agent 当成可调度会话管理，说明编码智能体周边工具正在向“长期并行协作”演进。

📎 GitHub：Herdr

Anthropic 推出 Claude apps gateway，面向 Bedrock 与 Google Cloud 上的 Claude Code

Anthropic 推出 Claude apps gateway，这是一个自托管控制平面，让企业可以在 Amazon Bedrock 和 Google Cloud 上运行 Claude Code。它作为无状态容器部署，后端使用 PostgreSQL，支持企业级 SSO、集中策略管理、角色权限、故障转移路由和按组织、群组、用户维度设置消费上限；遥测数据可发送到用户配置的收集器。关键点在于，gateway 不把推理流量或使用数据发送给 Anthropic，除非用户显式配置 Anthropic API。这是 Claude Code 进入企业云环境的重要基础设施补位：不只是能用模型，还要能被身份、权限、预算和审计体系接住。

📎 Claude Blog：introducing the Claude apps gateway

Claude 模型在 Microsoft Foundry 正式可用

Anthropic 宣布 Claude 模型在 Microsoft Foundry 上正式可用，托管于 Azure 环境，运行在 NVIDIA GB300 GPU 上。首批提供 Claude Opus 4.8 和 Claude Haiku 4.5，通过 Messages API 调用，并支持提示缓存和扩展思考。用户可以选择推理处理位置，包括美国数据区域；Azure 用户可沿用现有身份验证、计费与治理控制，并把符合条件的 Claude 用量计入 Azure 承诺消费。对企业采购来说，这降低了引入 Claude 的组织摩擦，也让模型竞争进一步嵌入云厂商的治理和账单体系。

📎 Claude Blog：Claude in Microsoft Foundry

Claude Code v2.1.196 发布，强化默认模型、MCP 安全和代码审查效率

Claude Code v2.1.196 新增组织默认模型支持，未选择模型时会显示“Org default”；聊天会话可读默认名称，文件附件支持 Cmd/Ctrl-click 定位。安全方面，claude mcp list/get 不再启动通过 .claude/settings.json 自批准的不安全服务器，不受信任工作区会显示“Pending approval”。/code-review 合并五个清理查找器，token 用量减少约 25%；流式空闲看门狗默认开启，5 分钟无事件会自动中止重试。这个版本的重点很工程化：默认项、权限边界、审查成本和长任务稳定性，正在成为编码 Agent 的核心产品质量。

📎 Claude Code：GitHub Releases v2.1.196

行业动态

国务院印发《教育发展“十五五”规划》，推进人工智能全学段教育

国务院日前印发《教育发展“十五五”规划》，要求推进人工智能全学段教育，提升学生人工智能素养以及提出问题、解决问题的能力。规划同时强调完善科学教育体系，强化科技教育与人文教育协同，加强青少年科学素养、批判性思维和创新能力培养，并提出到 2030 年高质量教育体系基本建成。AI 教育正在从选修兴趣和竞赛培训，进入国家教育体系的长期规划，这会影响教材、教师培训、课程评价和未来人才结构。

📎 IT之家：国务院印发《教育发展“十五五”规划》

SemiAnalysis 称 Rubin Ultra 方案取消，新版尺寸与性能减半

SemiAnalysis 称，NVIDIA 在 GTC 2026 宣布 Rubin Ultra 仅三个月后，原 4-die Rubin Ultra 因制造执行问题被取消；新的“Rubin Ultra”尺寸减半，实际性能约为原版的一半。该消息如果属实，说明前沿 AI 芯片路线不只受设计能力约束，也受制造、封装、良率和交付节奏牵制。对模型公司和云厂商来说，算力路线图的不确定性会直接影响训练计划、资本开支和下一代模型发布时间表。

📎 X：SemiAnalysis (@SemiAnalysis_)

The Decoder 报道美军 AI 目标选择事故，暴露军用系统数据链风险

The Decoder 报道称，美军在打击伊朗时首次大规模使用 AI 选择目标，Anthropic 的 Claude 模型嵌入 Palantir 的 Maven Smart System 后，首日建议约 1000 个目标；但一次对学校的导弹袭击造成严重伤亡。调查发现，情报分析师早在 2019 年就通过数字工具标记该地点已变为小学，但该工具未连接军方官方目标数据库 MIDB，信息没有送达指挥官。这个案例的核心不是“AI 是否会犯错”这么简单，而是 AI 被接入旧数据库、旧流程和人工验证链条后，错误信息如何被放大。军用 AI 的可靠性取决于模型、数据同步、责任链和最终人工确认的整体设计。

📎 The Decoder：US military AI target selection report

三星和 SK 海力士计划 5900 亿美元芯片投资，AI 需求推高内存价格

在韩国政府支持下，三星和 SK 海力士计划投入 5900 亿美元扩大芯片产能，包括新建四座工厂、建设封装中心，以及未来 15 年用于下一代芯片研发的资金。AI 数据中心需求是主要驱动力。Jefferies 预测，2026 年第三季度内存价格将上涨 40%-50%，第四季度再涨 30%-40%，2027 年继续上涨，到 2028 年新产能只上线 15%-20% 才可能缓解。AI 算力热潮正在从 GPU 扩散到 HBM、封装、存储和消费电子价格，基础设施短缺会通过供应链传导到更广泛市场。

📎 The Decoder：Samsung and SK Hynix chip investment

SK 集团计划到 2035 年建设 15GW AI 数据中心

SK 集团会长崔泰源宣布，计划到 2035 年建成 15GW AI 数据中心容量，作为韩国国家级基础设施和实体 AI 时代核心底座。项目总投资达 1000 万亿韩元，未来 10 年保持年均 100 万亿韩元以上国内投资；同时，SK 海力士还将向韩国西南部投资 400 万亿韩元，半导体供应项目总投资达 1100 万亿韩元。这个规模说明 AI 数据中心已经成为国家产业战略的一部分，不只是云厂商的商业扩张。

📎 IT之家：SK 集团计划建设 15GW AI 数据中心

论文研究

Meta 发布 Brain2Qwerty v2，探索非侵入式实时句子解码

Meta 公布 Brain2Qwerty v2，称其为非侵入式脑电信号解码研究的新里程碑。基于当天发表在《Nature》的 v1，v2 从原始脑信号实时解码句子，并从字符级性能提升到单词和语义层面，提高整体沟通准确性。这个方向的长期价值很明确：如果非侵入式脑信号可以更稳定地转化为自然语言，它可能帮助因脑损伤或疾病无法沟通的人群获得新的表达通道。短期看，它也会推动 AI、神经科学和辅助沟通设备之间的交叉研究。

📎 X：AI at Meta (@AIatMeta)

Claude Code 打开 GitHub 仓库即执行隐藏恶意代码，安全边界再次被提醒

The Decoder 报道，安全研究人员在 Mozilla 的 GenAI 漏洞赏金平台 0DIN 发现一种新攻击向量：一个看似正常的 GitHub 仓库包含 setup 脚本，该脚本运行时从 DNS 条目拉取命令并执行，恶意代码从未存在于仓库本身，因此对扫描器、代码审查和 AI 智能体不可见。开发者使用 Claude Code 等 AI 编码工具打开该仓库时，Agent 可能在设置过程中自动运行脚本，打开反向 shell。这个案例再次说明，编码 Agent 的危险不只在“生成错误代码”，也在它能执行工具、安装依赖和处理环境设置；第三方仓库的 setup 指令必须被当作不可信代码审查。

📎 The Decoder：Claude Code hidden malware report

OpenAI 发布报告，绘制欧洲 AI 劳动力机遇版图

OpenAI 发布新报告，分析 AI 对欧盟就业的影响，并划定哪些职业更可能面临自动化、增长或工作流程变化。相比单纯讨论“AI 会替代多少岗位”，这类研究更适合用来指导政策和企业行动：哪些职业需要技能迁移，哪些岗位会因为 AI 工具而扩大产出，哪些流程应该优先重构。对欧洲劳动力市场来说，关键不是只预测冲击，而是把职业分类、培训资源和产业机会连接起来。

📎 OpenAI：Mapping AI jobs transition in the EU

DiScoFormer 用单一 Transformer 跨分布估计密度与分数

Hugging Face 博客介绍了 DiScoFormer，这是一种无需重新训练即可从数据点估计分布密度和分数的单一 Transformer 模型。它利用交叉注意力机制，在单次前向传播中输出密度和分数，并通过一致性损失实现分布外自适应。AI HOT 收录的结果称，在 100 维空间中，DiScoFormer 相比最优调参的核密度估计降低分数误差约 6.5 倍、密度误差超过 37 倍，并能泛化到 Laplace、Student-t 等非高斯分布和未见过的多模态混合。它的意义在于把传统统计估计问题转化为可泛化的神经模型能力。

📎 Hugging Face：DiScoFormer

技巧与观点

Anthropic 工程师分享提示词工程实战：调试生产提示词，评估才是硬标准

Berry Xia 汇总 Anthropic 应用 AI 工程师 Margot Van Laar 在 Code with Claude 的分享：实际提示词工程中，大部分时间不是从零写新提示词，而是在调试和维护已有生产提示词。她举了客服机器人和零售排班 Agent 两类场景，强调 XML 标签结构化、清理旧模型遗留的“禁止列表”指令、精确计算工具调用条件，以及把复杂 Agent 拆成生成、评估、修复三个简单提示词。最重要的观点是：评估是唯一严谨方式，没有 Eval 就是在碰运气。这对企业落地尤其直接，因为提示词已经是生产系统的一部分，而不是一次性文案。

📎 X：Berry Xia (@berryxia)

Qwen 3.6 27B 被称为本地开发的理想选择

Quesma 博客认为 Qwen 3.6 27B 是本地开发的理想模型选择。它是一款密集参数本地大语言模型，原生支持 256K 上下文；在 MacBook Max M5 上运行 llama.cpp Q8_0 量化版可达约 30 tokens/s，用户反馈 RTX 5090 上 Q6_K 量化可达约 50 tokens/s。作者展示了它通过单个提示完成创意诗歌、用 pnpm 生成六边形扫雷游戏等任务，并称其为首个真正具备通用智能的本地模型。无论评价是否夸张，趋势很清楚：本地模型正在从“能跑”走向“可用于日常开发任务”。

📎 Quesma：Qwen 3.6 27B is awesome

数字生命卡兹克分享两个 Vibe Coding Prompt：第一性原理与对抗式审查

数字生命卡兹克分享了 Vibe Coding 中两个实用 Prompt：一是“从第一性原理出发”，强制 AI 跳出类比推理，从基本事实重新推导问题；二是“对抗式审查”，让 AI 站在恶意用户角度攻防式审查代码，寻找 OOM、死循环、未来时间污染等手工难发现的问题。文章提到，这两个 Prompt 曾帮助作者发现 AIHOT 抓取海外信源的底层流量路由隐患并重构。这个经验的价值在于，它把生成和验证分开：先让模型提出方案，再让模型以不同目标审查方案，形成更可靠的迭代闭环。

📎 公众号：数字生命卡兹克

Anthropic 算力支出超过工程师薪酬，Tomer Tunguz 讨论 AI 成本拐点

Tomer Tunguz 分析称，Anthropic 在算力上的支出达到每位工程师每年 51.5 万美元，是其完全薪资 22.4 万美元的 2.3 倍；相比之下，顶尖 1% 软件公司的算力支出为 8.9 万美元，中位数仅为 1.37 万美元。文章还给出三个 2029 年情景，讨论算力与人力成本差距如何收敛。这个问题会越来越影响 AI 公司经营：模型越强，推理与训练成本越可能成为组织里最重的成本项，商业模式必须证明这些算力投入可以转化为足够高的收入和留存。

📎 Tomer Tunguz：When AI costs more than engineers

AI 热点日报 · 作者：钟懿 · 数据来源：AI HOT（aihot.virxact.com）

模型发布/更新#

美团 LongCat Owl Alpha 登上 OpenRouter 热门榜，1.6 万亿参数 MoE 使用国产 ASIC 训练#

产品发布/更新#

Cursor for iOS 公测版发布，手机端可启动云端编码智能体#

EverOS 开源：Markdown 优先的智能体记忆运行时#

小红书 RedKnot 推理引擎按注意力头拆解 KV Cache，加速长文本推理#

OpenClaw 发布原生 iOS 与 Android 应用#

Herdr：驻留在终端里的 AI 智能体多路复用器#

Anthropic 推出 Claude apps gateway，面向 Bedrock 与 Google Cloud 上的 Claude Code#

Claude 模型在 Microsoft Foundry 正式可用#

Claude Code v2.1.196 发布，强化默认模型、MCP 安全和代码审查效率#

行业动态#

国务院印发《教育发展“十五五”规划》，推进人工智能全学段教育#

SemiAnalysis 称 Rubin Ultra 方案取消，新版尺寸与性能减半#

The Decoder 报道美军 AI 目标选择事故，暴露军用系统数据链风险#

三星和 SK 海力士计划 5900 亿美元芯片投资，AI 需求推高内存价格#

SK 集团计划到 2035 年建设 15GW AI 数据中心#

论文研究#

Meta 发布 Brain2Qwerty v2，探索非侵入式实时句子解码#

Claude Code 打开 GitHub 仓库即执行隐藏恶意代码，安全边界再次被提醒#

OpenAI 发布报告，绘制欧洲 AI 劳动力机遇版图#

DiScoFormer 用单一 Transformer 跨分布估计密度与分数#

技巧与观点#

Anthropic 工程师分享提示词工程实战：调试生产提示词，评估才是硬标准#

Qwen 3.6 27B 被称为本地开发的理想选择#

数字生命卡兹克分享两个 Vibe Coding Prompt：第一性原理与对抗式审查#

Anthropic 算力支出超过工程师薪酬，Tomer Tunguz 讨论 AI 成本拐点#