5/31 取号率异常深挖报告

主诉: durianrcs win% 80.9% → 64.3% (-16.6pp) · 调查窗 5/20 → 6/1 · 2026-06-01 出

🎯 一句话结论: 不是 durianrcs 单独抖动, 是 Telegram 在 5 个国家 (BY/KR/OM/TW/CN) 5/31 全网风控波, 4 家 supplier 同时 0% win%。

真因 Telegram 平台对特定国家上游号段批量风控, 跨 supplier 全员 0%, 不是 durianrcs 池问题
次因 durianrcs 池在 HK/KZ/CL/GB 质量明显劣于 grizzlysms/5sim, 是真池子问题
已恢复? durianrcs 6/1 整体 79.8% 回正, 但 telegram 黑名单国家 6/1 早晨仍 0% — 风控波仍持续
机制 Fallback 在工作, 但 170 订单试了 4 个 supplier 全炸只救回 1 个 (0.6%) — 浪费成本, 该早 exit

1️⃣ durianrcs 按天 win% — 5/31 单天异常, 6/1 已恢复

Day	Attempts	Won	Win %	SMS	SMS/Alloc %	状态
05-20	1394	1108	79.5	539	48.6	baseline
05-21	1224	963	78.7	464	48.2	baseline
05-22	1280	1063	83.0	587	55.2	baseline
05-23	1249	932	74.6	465	49.9	baseline
05-24	1169	959	82.0	437	45.6	baseline
05-25	1889	1642	86.9	810	49.3	baseline
05-26	1923	1540	80.1	777	50.5	baseline
05-27	1815	1390	76.6	676	48.6	normal
05-28	1444	1163	80.5	597	51.3	normal
05-29	1242	1062	85.5	490	46.1	normal
05-30	1358	1025	75.5	500	48.8	normal
05-31	1089	700	64.3	308	44.0	异常 🚨
06-01	550	439	79.8	207	47.2	回正

12d 均值 win% = 80.0% (excl 5/31) · 5/31 唯一异常 · 6/1 完全回归

2️⃣ 错误码拆解 — API 没挂, 是 NO_NUMBERS 库存空

Status / Error	5/31	Prior 6d 总	Prior avg/day	5/31 倍数	含义
allocated (none)	392	3972	662/d	0.59x ⬇	成功分号 -41%
sms_received (none)	308	3850	642/d	0.48x ⬇⬇	收到 SMS 腰斩
failed NO_NUMBERS	355	1572	262/d	1.35x ⬆	"number list is empty" — 上游号库空
failed INVALID_COUNTRY	20	133	22/d	~1x	稳, 不相关 (主要 CN)
failed 933	3	62	10/d	low	稳
failed NO_BALANCE	0	35	6/d	0x	余额没问题 ✅
failed (none)	7	31	5/d	~1x	稳

关键: 没有大量 TIMEOUT / API_ERROR — durianrcs API 是健康的, 失败全部来自 "上游号库空" 的真实业务返回。

3️⃣ 跨 Supplier 横向对比 — 真因浮出

5/31 telegram 在各国 win% (per supplier):

Country	5sim	durianrcs	grizzlysms	sms-bus	判断
BY 白俄	0/61 (0%)	2/64 (3%)	0/61 (0%)	0/61 (0%)	全员炸 Telegram 全网风控
KR 韩国	0/50 (0%)	0/50 (0%)	0/50 (0%)	0/50 (0%)	全员炸 Telegram 全网风控
OM 阿曼	0/21 (0%)	0/21 (0%)	0/21 (0%)	0/21 (0%)	全员炸 Telegram 全网风控
TW 台湾	0/17 (0%)	0/17 (0%)	0/17 (0%)	0/17 (0%)	全员炸 Telegram 全网风控
CN 中国	0/14 (0%)	0/14 (0%)	0/14 (0%)	0/14 (0%)	全员炸 (CN 历史就难)
HK 香港	38/39 (97%)	0/44 (0%)	5/5 (100%)	0/17 (0%)	池差异 durianrcs/sms-bus HK 池死了
KZ 哈萨克	0/9 (0%)	0/17 (0%)	1/5 (20%)	8/16 (50%)	池差异 durianrcs/5sim KZ 死
CL 智利	0/3 (0%)	0/15 (0%)	12/15 (80%)	0/3 (0%)	池差异只有 grizzlysms 能用
GB 英国	—	3/18 (17%)	15/15 (100%)	—	池差异 durianrcs GB 池差
CO/KE	—	100%	—	—	正常

结论分两层:
① 系统性 (Telegram 全网风控): BY/KR/OM/TW/CN — 4 家 supplier 全员 0%, 我们改不动, 只能等 Telegram 上游恢复 / 池子换血
② 局部 (durianrcs 池质量): HK/KZ/CL/GB — durianrcs 池在这几国明显劣于 grizzlysms/5sim, 是真池子问题, 调度策略可降权

4️⃣ 6/1 早晨验证 — 风控波仍持续

06-01 00:00 ~ 08:00 telegram 各国 win%:

Country	Status	总 attempts
BY / KR / OM / TW / CN / CL	仍 0% (跨 supplier)	120+
HK	5sim 33% / grizzlysms 100% / durianrcs+sms-bus 0%	34
GB	grizzlysms 100% / durianrcs 13.3%	28
CO / KE	durianrcs 100%	11

⚠️ 5/31 全网风控波到 6/1 早晨还没完全过去, durianrcs 整体 win% 79.8% 是被 openai (99%) / google / instagram (100%) 拉回来的, telegram 受灾国家仍 0%

5️⃣ Fallback 机制验证 — 工作但浪费

5/31 telegram 黑名单国家 (BY/KR/OM/TW/CN/HK/KZ/CL) 订单 fallback 表现:

Fallback breadth	订单数	最终拿到号	成功率	解读
1 supplier	3	2	66.7%	边缘小样本
2 suppliers	47	46	97.9%	✅ Fallback 正常救场
3 suppliers	22	17	77.3%	过渡区
4 suppliers (全试遍)	170	1	0.6%	❌ 全网炸场景, fallback 浪费

洞察: 170 个订单在 fallback 跑完 4 家 supplier 后只救回 1 个 (0.6%). 这是 fallback 机制最坏的场景 — 全网炸时 fallback 浪费 cost 不挽救转化。需要 circuit breaker: 检测到某 service+country 跨 supplier 5min 内 win% < 5%, 自动短期降权该 supplier+组合, 直接对用户提示 "该服务+国家组合短期不可用"。

6️⃣ 行动项 (按 ROI 排)

优先级	动作	预期收益	成本
P0	加 cross-supplier 0% win% 告警: 当某 service+country 跨 supplier 10min 内 win% < 5% 且 ≥20 attempts → 飞书告警运营群	系统性事件 10min 内介入而非用户投诉	~2h (SigNoz alert rule + worker 聚合)
P0	Dashboard 用户预警 banner: 检测到全网风控状态时, 该 service+country 选单前出 amber hint "该组合近 1h 取号成功率极低, 建议换 X/Y 国"	用户体验 + 退款单数减少	~1-2 PR (前端 + backend availability API)
P1	circuit breaker: service+country+supplier 维度滚动 10min win% < 5% 时, 该 (service,country,supplier) 临时降权 30min, 跳过 fallback 不浪费 cost	当 170 单全 fallback 跑完 cost / e2e 时间 -25-30%	~3-5h (scheduler 改动 + 单测)
P1	durianrcs HK/KZ/CL/GB 池质量调度降权: 这几国 durianrcs win% 长期劣于 grizzlysms/5sim, 永久降优先级	这些国家正常路径 win% +10-20pp	~30min admin 配置
P2	cancelled 订单分析: 5/31 e2e cancelled 547 / orders 1584 (35%) — 看用户因为啥取消	判断是否前置 UX 问题 (等太久 / 等不到 SMS)	~1h 数据分析
P3	Telegram 风控波长期趋势: 看历史是否 5/31 是孤立事件还是季节性	判断是否需要长期容灾	~1h 数据

2026-06-01 08:30 UTC · durianrcs 抖动深挖 · 数据源 Prod PG supplier_execution_attempts · 调查时长 ~10 SQL queries