D7 复盘 — 推翻"5/31 全网风控波"判断 + 挖到真 bug
复盘窗 5/20 → 6/7 (D-7 baseline + D1-D7 后修复期) · 2026-06-07 14:58 UTC 出
🔥 重磅发现 — 之前判断需要修正
- 推翻 "5/31 Telegram 全网风控波" — 错。CN/TW/KR/OM telegram 从 5/20 起就持续 0% 持续 13 天, 是长期不可用, 不是事件性
- 真 bug sms-bus
MAPPING_ERROR: 1241 个独立订单 被影响, CN/HK/OM/TW/KR/SY/GR/MD/CL/gopay 这些 ISO 标准国家码没在 sms-bus mapper 里。backend mapper 漏映射
- 好消息 isptelecom 自营池 win% 81.5% → 99.5% (+18pp), 全网最健康
- Pattern Sunday dip — 5/31 / 6/7 周日 comp% 都掉到 25-27% (vs 平日 30-32%), 不是 incident 是周期性
- 持续 PR #425+#458 累计 7 天 search no_result rate 17.0% (vs D-7 baseline 23.3%, -27%), 不再继续下降 (long tail 已挖到尽头)
1️⃣ 我之前错在哪 — telegram CN/TW/KR/OM 是长期 0%, 不是 5/31 突变
durianrcs · telegram · 受影响国家 · 完整时间线 (5/20 → 6/7):
| Country | 5/20 | 5/21 | 5/22 | 5/23 | 5/25 | 5/27 | 5/29 | 5/31 | 6/1 | 6/3 | 6/5 | 6/7 | 结论 |
| CN | 0% | 0% | - | 0% | 0% | 0% | 0% | 0% | 0% | 0% | 0% | 0% | 13 天持续 0% |
| TW | 0% | - | 0% | 0% | 0% | 0% | 13% | 0% | 0% | 0% | 0% | 0% | 长期 0% |
| KR | 0% | 10% | 0% | 0% | 0% | 0% | 0% | 0% | 0% | 0% | 0% | 0% | 长期 0% |
| OM | 7% | 21% | 5% | 0% | 0% | 0% | 12% | 0% | 0% | 0% | 0% | 0% | 5/23 起降级 |
| BY | - | - | - | - | - | - | - | 3% | 10% | - | - | - | 仅 5/30 后大量出现 |
修正: 5/31 整体 win% 64% 不是因为"Telegram 全网风控波"这事, 而是 5/31 流量结构变化 — 周日用户更多搜这些"长期 0%"国家 (CN/TW/KR/OM 是 Telegram 工作号常找的国家), 拉低均值。这些国家**一直都是 0%**, 只是平日基数少不显眼, 周日基数大就把整体 win% 拉下来。
OM 例外: 5/22 还有 5% / 5/29 还有 12%, 在 5/23 起明显降级, 是 OM 在 5/23 真有事件 — 但范围远比"全网风控波"小。
2️⃣ 真 bug — sms-bus MAPPING_ERROR 影响 1241 独立订单
6/1 → 6/7 sms-bus 失败错误码分布 top:
| Error Code | Error Message | N |
| 50002 | No number available (country_id=195, project_id=105) | 301 |
| MAPPING_ERROR | unknown country code: OM | 114 |
| MAPPING_ERROR | unknown country code: HK | 95 |
| MAPPING_ERROR | unknown country code: CN (telegram) | 84 |
| MAPPING_ERROR | unknown country code: SY (whatsapp) | 80 |
| MAPPING_ERROR | unknown country code: CN (redbook-xiaohongshu) | 76 |
| MAPPING_ERROR | unknown country code: TW | 74 |
| MAPPING_ERROR | unknown country code: KR | 58 |
| MAPPING_ERROR | unknown service code: gopay | 17 |
| MAPPING_ERROR | 更多 (CN/HK/MD/GR/CL 各 14-40) | ~500 |
影响范围
| 指标 | 值 |
| 受影响独立订单数 | 1241 |
| 浪费 attempts | 1241 (一比一, 一次性 fail) |
| 平均耗时 / attempt | 0.01s (本地 fail-fast, 时间损耗低) |
| 累计 7 天 | ~177 订单/天 |
真 bug 定位: backend/internal/supplier/sms-bus/mapper.go (或 internal/supplier/mapper/ 共享层) 缺这些 ISO 国家码到 sms-bus 私有 country_id 的映射: OM / HK / CN / TW / KR / SY / MD / GR / CL, 以及 service code gopay。
修复成本: ~30min 查表 + 加映射 + 写测试 + 1 PR
修复后预期: 部分映射后能挖回 sms-bus 在这些国家的库存; 即使 sms-bus 上游确实没库存, 也会变成 NO_NUMBERS (业务正常) 而不是 MAPPING_ERROR (代码 bug), 给 scheduler 更准的信号决定要不要 fallback。
额外可做: scheduler 加 "已知 supplier unsupported 该 (service,country) 就直接跳过, 不再尝试" 早 exit, 进一步省 cost。
3️⃣ Supplier 健康度大变迁 — 新格局
| Supplier | 5/25-5/30 baseline | 6/1-6/7 (D1-D7) | Δ | 解读 |
| isptelecom (自营池) | 81.5% | 99.5% | +18pp ✅ | 全网最健康! 一周内库存翻新 / 池子优化 |
| durianrcs | 80.0% | 82.7% | +2.7pp | 主力 8668 attempts, 稳 |
| 5sim.net | 35.2% | 42.8% | +7.6pp | 略改善 |
| sms-bus | 52.0% | 39.6% | -12.4pp ⬇ | 大降, MAPPING_ERROR 拖累 |
| grizzlysms | 47.7% | 48.5% | +0.8pp | 持平 |
⭐ isptelecom 自营池 99.5% 是这周最大的好消息 — 自营路径是我们的护城河, 投资回报率最高。
4️⃣ Sunday Dip Pattern — 不是 incident, 是周期性
| Day | Weekday | Orders | Comp % | Fail % |
| 05-26 | Tue | 2717 | 32.6 | 10.6 |
| 05-31 | Sun | 1584 | 24.9 | 20.3 |
| 06-02 | Tue | 2777 | 31.8 | 11.3 |
| 06-03 | Wed | 2306 | 27.5 | 15.0 |
| 06-05 | Fri | 1893 | 31.3 | 7.3 |
| 06-07 | Sun | 1155 | 26.6 | 17.1 |
两个 Sunday (5/31 / 6/7) 都明显 dip — comp% 25-27% (vs 平日 30-32%), fail% 17-20% (vs 平日 10-14%)。可能原因: ① 周日总订单量减半 (2700 → 1500), 失败的固定成本被放大; ② 周日用户结构变化 (个人用户多, 找的 service/country 更窄, 命中长期不可用国家概率高)。不是 incident, 不用单点告警, 但运营周报可以标注。
5️⃣ PR #425 + #458 长期效果 — search no_result 持续 -27%
| 阶段 | 平均 rate% | vs baseline |
| D-7 baseline (5/20-5/26) | 23.3 | — |
| PR #425 D1-D5 (5/27-5/31) | 16.4 | -6.9pp (-30%) |
| PR #425+458 D1-D7 (6/1-6/7) | 17.0 | -6.3pp (-27%) |
不再继续下降 — long tail 已挖到尽头 (google typo 收割完 + 全角已 0)。剩余 noise 是 catalog 真缺失 (`wps`/`豆瓣`/`2fa`) 和单字符碎片 (`啊`/`个`/`阅`), 需要不同杠杆点 (admin 启用 service / min-length 阈值)。
6️⃣ 修正后的行动项 (按 ROI)
| 优先 | 动作 | 预期收益 | 成本 |
| P0 | 修 sms-bus mapper 漏映射 — 加 OM/HK/CN/TW/KR/SY/MD/GR/CL country 映射 + gopay service 映射 | 救回 1241 订单 / 7d 中的可用部分; 给 scheduler 准信号 | ~30min + 1 PR |
| P1 | Scheduler 早 exit "supplier × country" 已知不支持组合 — DB 配置或动态学习 (近 24h win%=0 即跳过) | fallback cost 进一步降, e2e 时间缩短 | ~3h backend + 单测 |
| P1 | "长期 0%" service+country 用户预警 — CountryStep 给 CN/TW/KR/OM telegram 等组合标 "近期成功率较低, 推荐换 X/Y" hint | 避免用户反复尝试已知 0% 组合, UX + 退款减 | ~1-2 PR (前端 hint + backend availability) |
| P2 | 研究 isptelecom 99.5% 背后是怎么做到的 — 这是护城河, 复制经验到其他自营接入 | 长期战略 | ~1h 跟运营聊 |
| P3 | 周报标注 Sunday dip — 不告警, 数据展示标注 | 避免误判周日为 incident | ~10min 文档化 |