🚨
DNS障害事例集
インターネットを止めた大規模DNS障害と教訓
DNSはインターネットの電話帳ですが、それだけに障害時の影響範囲は甚大です。2016年のDyn DDoS攻撃から2021年のFacebook BGP事故まで、実際の大規模DNS障害事例を通じて、なぜDNS冗長化とモニタリングが必須なのかを学びます。
構造ダイアグラム
主要DNS/インフラ障害タイムライン(2016-2023)
!
2016.10
Dyn DDoS (Mirai Botnet)
深刻度: 最高
原因: Mirai ボットネットがIoT機器10万台以上を動員し1.2 Tbps DDoS攻撃
影響サービス: Twitter, GitHub, Netflix, Reddit, Spotify, PayPal
持続時間: 約6時間(3波にわたる攻撃)
!
2019.06
Cloudflare BGP Route Leak
深刻度: 高
原因: Verizonの小規模ISP(DQE)がBGP経路を誤って伝播しCloudflareトラフィックを吸収
影響サービス: Cloudflare, Amazon, Linode, Discord
持続時間: 約2時間
!
2021.06
Fastly Config Error
深刻度: 中
原因: 顧客設定変更がソフトウェアバグを誘発し全世界CDNノードの85%がダウン
影響サービス: Amazon, Reddit, Twitch, The New York Times, UK Gov
持続時間: 49分
!
2021.10
Facebook BGP Incident
深刻度: 最高
原因: 自動化された設定変更がBGP経路を削除 → DNSサーバーがインターネットから消失
影響サービス: Facebook, Instagram, WhatsApp, Messenger, Oculus
持続時間: 約6時間
!
2022.06
Cloudflare BGP (19 DC)
深刻度: 高
原因: ネットワーク変更作業中に誤って19データセンターでBGPセッション終了
影響サービス: Cloudflare, Discord, Shopify, Fitbit
持続時間: 約90分
!
2023.03
.au DNSSEC Expiry
深刻度: 高
原因: .au TLDのDNSSEC署名鍵(KSK)が期限切れで検証失敗 → .au全ドメインアクセス不可
影響サービス: オーストラリア全.auドメイン
持続時間: 数時間
DNS障害予防チェックリスト
1
複数DNSプロバイダ使用
Route 53 + Cloudflare DNS等2つ以上のDNSプロバイダを設定し単一障害点を排除
2
DNSSEC鍵自動更新設定
KSK/ZSK期限アラートと自動ローテーション設定。.au事態の教訓。
3
BGP経路モニタリング
BGP経路異常検知サービスの利用(例: Cloudflare Radar, BGPStream)。Route Leak/Hijack防御。
4
TTL戦略策定
平常時TTL 3600s、変更前に300sに低下。障害時の迅速な切替が可能。
5
設定変更セーフガード
Canary Deployment、Rollback自動化、変更前Dry-Run検証。Facebook/Fastly事態の教訓。
6
DDoS防御計画
Anycast DNS使用、Rate Limiting、Scrubbing Center連携。Dyn事態以降の業界標準。
核心ポイント
•
DNS障害の大半は「人の設定ミス」または「自動化スクリプトエラー」が原因 — 技術的欠陥より運用プロセスが核心
•
BGPはインターネットの核心ルーティングプロトコルだが認証メカニズムが脆弱 — RPKI導入が進行中
•
単一プロバイダに依存するとそのプロバイダの障害が自分の障害に — 多重化(冗長性)は選択ではなく必須
動作フロー
1
外部攻撃(DDoS)または内部設定ミスでDNS/BGP障害が発生
2
DNS検索失敗 → ドメイン名をIPに変換不可
3
影響範囲拡大: 該当DNS/CDNを使用する全サービスが同時にアクセス不可
4
障害原因の特定と復旧作業(BGP経路復元、DDoS緩和、設定ロールバックなど)
5
DNS伝播完了まで待機(TTLに応じて数分〜数時間)
メリット
- ✓ 事例学習: 実際の障害から学んだ教訓で事前対策が可能
- ✓ 冗長化設計: 単一障害点(SPOF)除去で可用性向上
- ✓ モニタリング強化: 障害早期検知でMTTR(平均復旧時間)短縮
- ✓ TTL戦略: 障害時の迅速なDNS切り替えのための事前TTL調整
デメリット
- ✗ コスト増加: 複数DNS/CDNプロバイダー使用時の運用コスト上昇
- ✗ 複雑性の増加: 複数プロバイダー間のレコード同期とフェイルオーバー設定の複雑さ
- ✗ 完全防御不可: Mirai級大規模DDoSは単一サービスでの完全防御が困難
- ✗ BGP依存性: DNS自体が正常でもBGP経路の問題で到達不可の状況が発生
ユースケース
複数DNSプロバイダー戦略の策定(Route 53 + Cloudflare併用)
DNS障害モニタリングシステム構築(Pingdom、UptimeRobot)
DDoS防御計画の策定(Anycast、Rate Limiting、WAF)
障害対応プレイブック作成(OOBアクセス、緊急連絡網)