数据来源:AI HOT(aihot.virxact.com)
模型发布/更新
美团 LongCat Owl Alpha 登上 OpenRouter 热门榜,1.6 万亿参数 MoE 使用国产 ASIC 训练
AI HOT 收录的信息显示,美团 LongCat 的 1.6 万亿参数 MoE 模型 Owl Alpha 已成为 OpenRouter 上最流行的模型之一,累计消耗 10 万亿 tokens,性能被称达到 Gemini 与 Opus 4.6 级别。该模型使用 35 万亿 tokens 训练,并完全在 5 万块国产 ASIC 上完成训练;上线后每日调用量进入全球 Top 3,在 Hermes Agent 排名第 1、Claude Code 排名第 2、OpenClaw 排名第 3。真正值得关注的是两条线索:一是国产算力已经进入大模型训练叙事的核心位置,二是模型竞争正在被真实调用量和 Agent 场景重新排序。
📎 X:Emad Mostaque (@EMostaque)
产品发布/更新
Cursor for iOS 公测版发布,手机端可启动云端编码智能体
Cursor 推出 iOS 原生公测版,所有付费计划用户可用。开发者可以在手机上启动始终在线的云端智能体,也可以远程操控电脑端智能体;移动端支持语音输入、斜杠命令和模型选择,任务状态通过锁屏 Live Activities 与推送通知同步。云端智能体运行在隔离虚拟机中,可自动迭代生成合并就绪的 PR,并输出演示、截图和日志。这个发布说明编码 Agent 正在从桌面 IDE 扩展到移动入口:用户不一定要坐在电脑前,才能触发和接管一个开发任务。
EverOS 开源:Markdown 优先的智能体记忆运行时
EverMind 推出开源智能体记忆运行时 EverOS,采用 Apache 2.0 许可。它以可编辑 Markdown 文件作为记忆主体,用 SQLite 管理状态,并通过 LanceDB 实现 BM25 关键词、向量搜索和标量过滤的混合检索。每个完成任务都会记录为 Case,离线提炼为可复用 Skill,让智能体记忆随使用而进化。v1.1.0 新增 Knowledge APIs 与 Reflection,分别面向可检索知识页面和跨会话自我优化。对 Agent 产品来说,记忆不再只是“把聊天记录塞进上下文”,而是在走向可编辑、可检索、可迁移的运行时资产。
📎 MarkTechPost:EverOS agent memory runtime
小红书 RedKnot 推理引擎按注意力头拆解 KV Cache,加速长文本推理
小红书技术团队介绍了 RedKnot 推理引擎:它将 KV Cache 沿注意力头维度拆解,通过头分类稀疏、稀疏 FFN 和 SegPagedAttention 统一算法与存储粒度。AI HOT 收录的数据称,在 8 卡 H800 上,TTFT 最高加速 1.6-3.54 倍,单卡并发提升 4.7-7.8 倍,预填充 FLOPs 削减 67%-79.5%;在 DeepSeek-V4-Flash 的 128K 上下文中,TTFT 加速可达 5.16 倍。长上下文能力的瓶颈正在从“模型能不能支持”转向“系统能不能经济地跑起来”,这类推理优化会直接影响 Agent 和搜索增强应用的成本结构。
OpenClaw 发布原生 iOS 与 Android 应用
OpenClaw 宣布原生 iOS 与 Android 应用上线,把智能体任务、频道和回复搬到手机端。和 Cursor iOS 类似,这类产品的重点不是简单把聊天窗口移植到移动端,而是让用户随时查看长任务状态、补充输入、处理阻塞并继续执行。Agent 产品一旦从“即时问答”变成“持续执行”,移动端就会成为任务监督和轻量介入的天然入口。
Herdr:驻留在终端里的 AI 智能体多路复用器
Herdr 是一个终端中的 AI 智能体多路复用器,允许用户在单一终端界面内管理和切换多个 AI 智能体会话。它对应的是开发者工作流里越来越常见的问题:同一时间可能有多个 Agent 在处理不同任务,如果仍靠多个窗口和手动状态记忆,很快会变得混乱。终端多路复用器把 Agent 当成可调度会话管理,说明编码智能体周边工具正在向“长期并行协作”演进。
Anthropic 推出 Claude apps gateway,面向 Bedrock 与 Google Cloud 上的 Claude Code
Anthropic 推出 Claude apps gateway,这是一个自托管控制平面,让企业可以在 Amazon Bedrock 和 Google Cloud 上运行 Claude Code。它作为无状态容器部署,后端使用 PostgreSQL,支持企业级 SSO、集中策略管理、角色权限、故障转移路由和按组织、群组、用户维度设置消费上限;遥测数据可发送到用户配置的收集器。关键点在于,gateway 不把推理流量或使用数据发送给 Anthropic,除非用户显式配置 Anthropic API。这是 Claude Code 进入企业云环境的重要基础设施补位:不只是能用模型,还要能被身份、权限、预算和审计体系接住。
📎 Claude Blog:introducing the Claude apps gateway
Claude 模型在 Microsoft Foundry 正式可用
Anthropic 宣布 Claude 模型在 Microsoft Foundry 上正式可用,托管于 Azure 环境,运行在 NVIDIA GB300 GPU 上。首批提供 Claude Opus 4.8 和 Claude Haiku 4.5,通过 Messages API 调用,并支持提示缓存和扩展思考。用户可以选择推理处理位置,包括美国数据区域;Azure 用户可沿用现有身份验证、计费与治理控制,并把符合条件的 Claude 用量计入 Azure 承诺消费。对企业采购来说,这降低了引入 Claude 的组织摩擦,也让模型竞争进一步嵌入云厂商的治理和账单体系。
📎 Claude Blog:Claude in Microsoft Foundry
Claude Code v2.1.196 发布,强化默认模型、MCP 安全和代码审查效率
Claude Code v2.1.196 新增组织默认模型支持,未选择模型时会显示“Org default”;聊天会话可读默认名称,文件附件支持 Cmd/Ctrl-click 定位。安全方面,claude mcp list/get 不再启动通过 .claude/settings.json 自批准的不安全服务器,不受信任工作区会显示“Pending approval”。/code-review 合并五个清理查找器,token 用量减少约 25%;流式空闲看门狗默认开启,5 分钟无事件会自动中止重试。这个版本的重点很工程化:默认项、权限边界、审查成本和长任务稳定性,正在成为编码 Agent 的核心产品质量。
📎 Claude Code:GitHub Releases v2.1.196
行业动态
国务院印发《教育发展“十五五”规划》,推进人工智能全学段教育
国务院日前印发《教育发展“十五五”规划》,要求推进人工智能全学段教育,提升学生人工智能素养以及提出问题、解决问题的能力。规划同时强调完善科学教育体系,强化科技教育与人文教育协同,加强青少年科学素养、批判性思维和创新能力培养,并提出到 2030 年高质量教育体系基本建成。AI 教育正在从选修兴趣和竞赛培训,进入国家教育体系的长期规划,这会影响教材、教师培训、课程评价和未来人才结构。
SemiAnalysis 称 Rubin Ultra 方案取消,新版尺寸与性能减半
SemiAnalysis 称,NVIDIA 在 GTC 2026 宣布 Rubin Ultra 仅三个月后,原 4-die Rubin Ultra 因制造执行问题被取消;新的“Rubin Ultra”尺寸减半,实际性能约为原版的一半。该消息如果属实,说明前沿 AI 芯片路线不只受设计能力约束,也受制造、封装、良率和交付节奏牵制。对模型公司和云厂商来说,算力路线图的不确定性会直接影响训练计划、资本开支和下一代模型发布时间表。
📎 X:SemiAnalysis (@SemiAnalysis_)
The Decoder 报道美军 AI 目标选择事故,暴露军用系统数据链风险
The Decoder 报道称,美军在打击伊朗时首次大规模使用 AI 选择目标,Anthropic 的 Claude 模型嵌入 Palantir 的 Maven Smart System 后,首日建议约 1000 个目标;但一次对学校的导弹袭击造成严重伤亡。调查发现,情报分析师早在 2019 年就通过数字工具标记该地点已变为小学,但该工具未连接军方官方目标数据库 MIDB,信息没有送达指挥官。这个案例的核心不是“AI 是否会犯错”这么简单,而是 AI 被接入旧数据库、旧流程和人工验证链条后,错误信息如何被放大。军用 AI 的可靠性取决于模型、数据同步、责任链和最终人工确认的整体设计。
📎 The Decoder:US military AI target selection report
三星和 SK 海力士计划 5900 亿美元芯片投资,AI 需求推高内存价格
在韩国政府支持下,三星和 SK 海力士计划投入 5900 亿美元扩大芯片产能,包括新建四座工厂、建设封装中心,以及未来 15 年用于下一代芯片研发的资金。AI 数据中心需求是主要驱动力。Jefferies 预测,2026 年第三季度内存价格将上涨 40%-50%,第四季度再涨 30%-40%,2027 年继续上涨,到 2028 年新产能只上线 15%-20% 才可能缓解。AI 算力热潮正在从 GPU 扩散到 HBM、封装、存储和消费电子价格,基础设施短缺会通过供应链传导到更广泛市场。
📎 The Decoder:Samsung and SK Hynix chip investment
SK 集团计划到 2035 年建设 15GW AI 数据中心
SK 集团会长崔泰源宣布,计划到 2035 年建成 15GW AI 数据中心容量,作为韩国国家级基础设施和实体 AI 时代核心底座。项目总投资达 1000 万亿韩元,未来 10 年保持年均 100 万亿韩元以上国内投资;同时,SK 海力士还将向韩国西南部投资 400 万亿韩元,半导体供应项目总投资达 1100 万亿韩元。这个规模说明 AI 数据中心已经成为国家产业战略的一部分,不只是云厂商的商业扩张。
论文研究
Meta 发布 Brain2Qwerty v2,探索非侵入式实时句子解码
Meta 公布 Brain2Qwerty v2,称其为非侵入式脑电信号解码研究的新里程碑。基于当天发表在《Nature》的 v1,v2 从原始脑信号实时解码句子,并从字符级性能提升到单词和语义层面,提高整体沟通准确性。这个方向的长期价值很明确:如果非侵入式脑信号可以更稳定地转化为自然语言,它可能帮助因脑损伤或疾病无法沟通的人群获得新的表达通道。短期看,它也会推动 AI、神经科学和辅助沟通设备之间的交叉研究。
Claude Code 打开 GitHub 仓库即执行隐藏恶意代码,安全边界再次被提醒
The Decoder 报道,安全研究人员在 Mozilla 的 GenAI 漏洞赏金平台 0DIN 发现一种新攻击向量:一个看似正常的 GitHub 仓库包含 setup 脚本,该脚本运行时从 DNS 条目拉取命令并执行,恶意代码从未存在于仓库本身,因此对扫描器、代码审查和 AI 智能体不可见。开发者使用 Claude Code 等 AI 编码工具打开该仓库时,Agent 可能在设置过程中自动运行脚本,打开反向 shell。这个案例再次说明,编码 Agent 的危险不只在“生成错误代码”,也在它能执行工具、安装依赖和处理环境设置;第三方仓库的 setup 指令必须被当作不可信代码审查。
📎 The Decoder:Claude Code hidden malware report
OpenAI 发布报告,绘制欧洲 AI 劳动力机遇版图
OpenAI 发布新报告,分析 AI 对欧盟就业的影响,并划定哪些职业更可能面临自动化、增长或工作流程变化。相比单纯讨论“AI 会替代多少岗位”,这类研究更适合用来指导政策和企业行动:哪些职业需要技能迁移,哪些岗位会因为 AI 工具而扩大产出,哪些流程应该优先重构。对欧洲劳动力市场来说,关键不是只预测冲击,而是把职业分类、培训资源和产业机会连接起来。
📎 OpenAI:Mapping AI jobs transition in the EU
DiScoFormer 用单一 Transformer 跨分布估计密度与分数
Hugging Face 博客介绍了 DiScoFormer,这是一种无需重新训练即可从数据点估计分布密度和分数的单一 Transformer 模型。它利用交叉注意力机制,在单次前向传播中输出密度和分数,并通过一致性损失实现分布外自适应。AI HOT 收录的结果称,在 100 维空间中,DiScoFormer 相比最优调参的核密度估计降低分数误差约 6.5 倍、密度误差超过 37 倍,并能泛化到 Laplace、Student-t 等非高斯分布和未见过的多模态混合。它的意义在于把传统统计估计问题转化为可泛化的神经模型能力。
技巧与观点
Anthropic 工程师分享提示词工程实战:调试生产提示词,评估才是硬标准
Berry Xia 汇总 Anthropic 应用 AI 工程师 Margot Van Laar 在 Code with Claude 的分享:实际提示词工程中,大部分时间不是从零写新提示词,而是在调试和维护已有生产提示词。她举了客服机器人和零售排班 Agent 两类场景,强调 XML 标签结构化、清理旧模型遗留的“禁止列表”指令、精确计算工具调用条件,以及把复杂 Agent 拆成生成、评估、修复三个简单提示词。最重要的观点是:评估是唯一严谨方式,没有 Eval 就是在碰运气。这对企业落地尤其直接,因为提示词已经是生产系统的一部分,而不是一次性文案。
Qwen 3.6 27B 被称为本地开发的理想选择
Quesma 博客认为 Qwen 3.6 27B 是本地开发的理想模型选择。它是一款密集参数本地大语言模型,原生支持 256K 上下文;在 MacBook Max M5 上运行 llama.cpp Q8_0 量化版可达约 30 tokens/s,用户反馈 RTX 5090 上 Q6_K 量化可达约 50 tokens/s。作者展示了它通过单个提示完成创意诗歌、用 pnpm 生成六边形扫雷游戏等任务,并称其为首个真正具备通用智能的本地模型。无论评价是否夸张,趋势很清楚:本地模型正在从“能跑”走向“可用于日常开发任务”。
📎 Quesma:Qwen 3.6 27B is awesome
数字生命卡兹克分享两个 Vibe Coding Prompt:第一性原理与对抗式审查
数字生命卡兹克分享了 Vibe Coding 中两个实用 Prompt:一是“从第一性原理出发”,强制 AI 跳出类比推理,从基本事实重新推导问题;二是“对抗式审查”,让 AI 站在恶意用户角度攻防式审查代码,寻找 OOM、死循环、未来时间污染等手工难发现的问题。文章提到,这两个 Prompt 曾帮助作者发现 AIHOT 抓取海外信源的底层流量路由隐患并重构。这个经验的价值在于,它把生成和验证分开:先让模型提出方案,再让模型以不同目标审查方案,形成更可靠的迭代闭环。
Anthropic 算力支出超过工程师薪酬,Tomer Tunguz 讨论 AI 成本拐点
Tomer Tunguz 分析称,Anthropic 在算力上的支出达到每位工程师每年 51.5 万美元,是其完全薪资 22.4 万美元的 2.3 倍;相比之下,顶尖 1% 软件公司的算力支出为 8.9 万美元,中位数仅为 1.37 万美元。文章还给出三个 2029 年情景,讨论算力与人力成本差距如何收敛。这个问题会越来越影响 AI 公司经营:模型越强,推理与训练成本越可能成为组织里最重的成本项,商业模式必须证明这些算力投入可以转化为足够高的收入和留存。
📎 Tomer Tunguz:When AI costs more than engineers
AI 热点日报 · 作者:钟懿 · 数据来源:AI HOT(aihot.virxact.com)