P1.6 fallback PR 是非常成功的 win:取号率 +27%,端到端转化率 +57%,证据链完整。 Trade-off 是接码率轻微回落 1.4pp(fallback 多打了次优 supplier),P2 combo_health worker(5-09 17:30 已 deploy)应该慢慢自愈。
同时发现 4 个值得 escalate 的 SigNoz 异常 — 详见底部"建议优先级"。
数据源: supplier_execution_attempts + orders 表,时间窗 5-07 18:30 → 5-09 18:30+。
| 时间窗 | 单 supplier 试 | 2 suppliers fallback | 3+ suppliers fallback |
|---|---|---|---|
| before | 1798 单 / 44.6% 胜 | 260 单 / 24.6% 胜 | 0 |
| after | 2866 单 / 67.7% 胜 | 741 单 / 37.8% 胜 | 129 单 / 10.1% 胜 |
| Supplier | attempts | win % | sms / alloc % | 评价 |
|---|---|---|---|---|
| grizzlysms.com | 1023 | 74.5% | 36.1% | 黑马 — scorer 应该多倾斜 |
| durianrcs.com | 1589 | 58.5% | 22.7% | 主力 |
| sms-bus.com | 801 | 37.7% | 21.2% | 一般 |
| alisms.org | 1313 | 17.9% | 13.2% | 82% failure,质量塌陷 |
| 24sms7.com | 10 | 40.0% | 0.0% | 几乎弃用 |
日志 "严重告警:链上余额不足,可能被盗或数据库错误"。跟取号无关,但是独立告警系统炸了。
可能是 TronGrid 钱包被盗或 DB 数据不一致,需要财务 ASAP 排查。
TronGrid 充值地址轮询扫描失败。可能 API rate limit / network failure / 钱包地址池配置。 跟取号无关但跟充值流程直接相关。
1076/1313 attempts 失败。P2 combo_health worker(5-09 17:30 已 deploy)应该会自动 hide 这家的烂 combo。 monitor 7 天看是否自动衰减。如果没改善,运营手动 demote / disable alisms.org。
sms-bus.com 收到 country=HK 或 OM,本地 mapping 表没有 → 直接 fail。
影响:HK / OM 订单无法走 sms-bus.com fallback,降低取号率。
补法:admin「服务映射」补这两条 mapping。
5-09 18:00 才出现(PR #305 P2 combo_health 部署后),由 routing.go:310 的 manager.Get warning 暴露。
根因(已 prod DB 验证):
cfg.ISP.Enabled = false(production yaml)→ worker/api 不注册 isptelecom 到 supplier.Managersuppliers 表 isptelecom 行仍 status='enabled'ListEnabled() 拿到 isptelecom → manager.Get 失败 → continue + warn业务影响:0(continue 路径正常);只是日志噪音 + SigNoz 流量浪费。
修法(择其一):
-- 运营层(推荐): UPDATE suppliers SET status='disabled' WHERE slug='isptelecom'; -- 或代码层(更稳): routing 在 cross-fallback 候选列表预过滤 manager 没注册的 supplier
UPDATE suppliers SET status='disabled' WHERE slug='isptelecom';,或代码加 pre-filtersupplier_execution_attempts.status 列里所有失败都归 'failed',没看到
no_numbers / no_balance / timeout 等细分错误码。建议 audit error_code 字段写入路径
确保 supplier 返回的细分错误码正确传递,否则错误归因颗粒度不够。