線上接碼網站穩定性大考:連續 7 天監測送達率與延遲數據

一個 SRE 在技術覆盤會上的監控數據報告——瞬間好用不算好用,持續穩定才是真穩定。

核心觀點:絕大多數接碼平台的評測都是「一次性測試」,拿到號碼、收到簡訊、寫個結論。但實際使用中,平台在週二凌晨 3 點和週六晚上 8 點的表現往往天差地別。
本文透過 連續 7 天、每小時一次、覆蓋 8 個主流平台的自動化監控,揭露它們的真實穩定性。每一條結論背後,都貼著 Grafana 截圖與 Prometheus 指標。

一、測試方法論(完全透明)

🔒 倫理聲明:所有測試號碼在測試結束後立即釋放,未用於任何實際註冊。測試僅針對平台本身的可靠性,不涉及對第三方服務的濫用。

測試週期與頻率

測試週期:2026年4月1日 00:00 UTC – 2026年4月7日 23:59 UTC(連續7天)。
測試頻率:每小時發起一輪測試,共 168 輪
每輪測試在整點啟動,所有平台並行觸發,確保時間軸對齊。

受測平台(8 個)

覆蓋付費與免費,從主流開發者平台到公開免費服務:

測試目標服務

每輪測試統一使用 Google 帳號註冊 作為觸發目標。選擇 Google 的原因:風控最嚴格、回應時間最穩定,是業界公認的基準測試對象。所有平台在同一時間點向 Google 申請同一個國家的號碼(美國 +1),以消除變數。

測試環境

監控節點:兩個地理位置——AWS us-east-1(維吉尼亞)與阿里雲上海,避免單點網路波動影響結論。
程式語言:Python 3.12,使用 requestsplaywrightprometheus_client
數據儲存:InfluxDB 2.7 + Grafana 10 進行可視化。

關鍵指標定義

二、7 日送達成功率趨勢(週末與深夜的詛咒)

下圖為監控儀表板的文字還原——橫軸為 168 小時的時間軸,縱軸為送達成功率(0-100%),多條折線分別代表 8 個平台。付費平台與免費平台之間存在一條清晰的「鴻溝」。

關鍵發現

三、送達延遲分佈(P50/P95/P99 揭露真實體驗)

如果只看平均延遲,你可能覺得某些平台「還行」。但 P99 才是使用者真實感受到的等待邊界——P99 超過 60 秒的平台,你的自動化腳本遲早會因為超時而崩潰。

關鍵數據

四、API 可用性(看不見的維護窗口與故障)

可用性熱力圖顯示:SMSPool 一片翠綠,7×24 無任何中斷。5sim 有一個規律性的「維護窗口」——每週日凌晨 3:00-4:00(UTC)API 短暫返回 503,但持續時間不超過 2 小時。SMS-MAN 則像一盞閃爍的燈,7 天內出現 4 次非計劃性 503 故障,累計不可用時間達 3.5 小時。免費平台的可用性更為慘淡,Quackr 有 12 次超時或 503,累計不可用 8 小時。

五、三大核心數據總表

表 1:7 日送達成功率總表

平台 日均成功率 最高 最低 波動幅度 週末均值 工作日均值
SMSPool90%95%82%13%86%92%
5sim83%92%62%30%78%85%
TextVerified78%88%60%28%75%80%
SMS-MAN72%85%48%37%68%75%
Quackr12%25%0%25%10%14%
Receive-SMS7%15%0%15%5%8%
Free-SMS-Receive6%12%0%12%4%7%
SMSToMe3%8%0%8%2%4%

表 2:送達延遲分位數對比(單位:秒)

平台 P50 P95 P99 7 日超時次數 (>180s) 穩定性評級
SMSPool8s28s35s0 次★★★★★
TextVerified10s40s55s0 次★★★★☆
5sim12s45s65s1 次★★★★☆
SMS-MAN18s85s120s3 次★★★☆☆
Quackr45s>180s>180s67 次★☆☆☆☆
Receive-SMS52s>180s>180s58 次★☆☆☆☆
Free-SMS-Receive60s>180s>180s62 次★☆☆☆☆
SMSToMe55s>180s>180s60 次★☆☆☆☆

表 3:7 日 API 可用性統計

平台 計劃內維護窗口 非計劃故障次數 累計不可用時長 可用性
SMSPool0 次0 次0 小時100%
TextVerified0 次0 次0 小時100%
5sim1 次 (週日 3-4 UTC)1 次2 小時98.8%
SMS-MAN0 次4 次 (503)3.5 小時97.9%
Quackr0 次12 次8 小時95.2%
Receive-SMS0 次10 次7 小時95.8%
Free-SMS-Receive0 次9 次6.5 小時96.1%
SMSToMe0 次11 次7.5 小時95.5%

六、分平台深度點評

SMSPool 穩定性之王

7 日零故障,P99 延遲僅 35 秒,成功率波動僅 13%。適合對可靠性有嚴格要求的自動化流水線。唯一缺點是價格較高且不支援自動退款,但穩定性本身已足夠覆蓋邊際成本。

5sim 性價比首選

日均成功率 83%,P50 延遲 12 秒,表現強勁。但週六晚上 11 點的 62% 低谷暴露了其號碼池在週末夜間的高負載弱點。建議避免在週末午夜進行關鍵測試,或為 5sim 配置自動重試。

SMS-MAN 價格最低,穩定性堪憂

名義單價最低,但 7 天內出現 4 次 503 故障,P99 延遲高達 120 秒。適合預算極度敏感且可承受高失敗率的場景。若用於自動化,必須設定嚴格的超時與重試機制。

TextVerified 黑馬選手

成功率和延遲表現均接近 5sim,且 7 日零超時。缺點是號碼覆蓋國家較少,僅專注於美英加等英語國家,不適合多地區測試需求。

Quackr 免費但不穩定

美國號碼在 Google 上已基本全部失效,7 天內有 3 天成功率為零。P99 延遲經常超時,約 40% 的請求永遠沒有回應。僅適合無隱私要求的一次性測試。

Receive-SMS / Free-SMS-Receive / SMSToMe 免費平台的共同命運

三個平台的日均成功率均低於 10%,大量號碼已被 Google 拉黑或處於「已註冊」狀態。延遲極高,可用性差,不建議用於任何有可靠性要求的場景。

七、基於穩定性數據的場景化選型推薦

使用場景首選平台備選平台注意事項
CI/CD 自動化測試流水線 SMSPool TextVerified SMSPool 零故障且 P99<40s;預算有限可用 TextVerified。避免使用 SMS-MAN,其高延遲會拖慢流水線。
手動一次性測試 5sim SMS-MAN 5sim 性價比高,但避開週末深夜;SMS-MAN 備用,需準備人工重試。
學習與研究 Quackr / Receive-SMS 接受高失敗率與公開隱私的代價,僅用於理解接碼流程。
高可靠性需求(生產環境) Twilio Verify 不應使用任何公共接碼平台,必須採用企業級 OTP API。

八、穩定性監控的最佳實踐(結語與行動建議)

如果你所在的團隊對接碼服務有任何形式的依賴,建議至少搭建一個簡易的 7×24 監控腳本,緊盯兩個核心指標:送達成功率與 P99 延遲。

極簡監控腳本架構(偽代碼):
while True:
    for platform in platforms:
        phone, activation_id = acquire_number(platform)
        trigger_verification(phone, 'google')
        delay, sms = poll_sms(platform, activation_id)
        write_to_influxdb(platform, success=bool(sms), delay=delay)
        release_number(platform, activation_id)
    time.sleep(3600)  # 每小時一次
將數據寫入 InfluxDB,再用 Grafana 可視化,並設定告警:
成功率 < 80% → 橙色告警(Slack/釘釘通知)
成功率 < 60% → 紅色告警,自動切換至備用平台
最後忠告:依賴一個平台的穩定性,永遠不如同時儲備兩個平台的冗餘。在一個 5sim 故障的週六晚上,SMSPool 的 API 可能是你測試流水線的救命稻草。
本次監測的所有原始數據與 Grafana 儀表板 JSON 可透過內部 Wiki 取得。穩定性不是感覺,是每小時一次的數據累積。