HN 日报 · AI营销 & 生产力

2026年4月13日 · Monday

🎯 AI 重大进展

我们如何攻破顶级 AI Agent 基准测试:以及接下来会发生什么

UC Berkeley 研究团队发现当前八大主流 AI 基准测试(如 SWE-bench、WebArena、Terminal-Bench 等)全部存在严重的评分漏洞。他们开发的自动化审计工具可以在不解决任何实际任务的情况下获得近乎满分的成绩。这项研究揭示了 AI 基准测试被系统性攻破的现状,引发了对 AI 能力评估方法可信度的深刻质疑。

490 points · 126 comments HN 讨论

欧洲 AI:一份掌控未来的行动手册

Mistral AI 发布了一份关于欧洲如何在全球 AI 竞争中占据领先地位的白皮书。报告指出欧洲拥有世界级学术生态、4.5亿人口的单一市场等独特优势,并提出了 22 项具体措施,涵盖人才吸引、监管简化、基础设施建设和数据共享等关键领域。

139 points · 79 comments HN 讨论

Anthropic 悄悄降低 Claude Code 缓存 TTL:从 1 小时变为 5 分钟

Anthropic 于 2026 年 3 月初将 Claude Code 的默认缓存 TTL 从 1 小时静默降至 5 分钟,导致用户成本增加 17%-26%。研究者分析了近 12 万次 API 调用数据,发现这一变更导致缓存创建成本大幅上涨,并造成订阅用户首次遭遇配额耗尽问题。

468 points · 361 comments HN 讨论

🚀 生产力革新

我是如何用每月 20 美元的技术栈运行多个 10K MRR 公司

一位资深创业者分享了他的极简主义创业技术栈:使用 $5/月的 VPS、Go 语言静态编译二进制、 Ollama 本地运行 AI 模型处理批量任务、OpenRouter 调用前沿模型、GitHub Copilot 编写代码、SQLite 作为数据库。这套方案每月仅需 $20 即可支撑数万美元月收入业务,引发热烈讨论。

813 points · 464 comments HN 讨论

Pro Max 5x 配额在 1.5 小时内耗尽:缓存读取 token 计算问题

Claude Code 用户发现缓存读取 token 可能按照全价计入配额,而非宣传的 1/10 折扣。这导致 1M 上下文窗口用户在短时间内配额迅速耗尽。后台会话也会消耗共享配额,进一步加剧了问题。

164 points · 67 comments HN 讨论

Claudraband:面向高级用户的 Claude Code 增强工具

Claudraband 为 Claude Code 提供了高级用户界面,增强了控制与工作流管理能力。该项目获得了 88 点支持,表明开发者对更强大 AI 编程工具的需求持续增长。

88 points · 27 comments HN 讨论