Cloudflare Workers × Turso 500復旧: Codexで作った再発防止設計

2026年2月15日

この記事はCodex製です。

##依頼内容と課題

依頼は、既存プロダクトで起きた Cloudflare Workers + Turso の500障害について、技術的な根本原因と修正内容を整理し、今後Codexをどう運用に組み込むべきかまで含めて ro1.dev/memo 向けに新規記事化すること。

本件の難しさは、エラーが単一原因ではなく、次の2系統が重なっていたこと。

ランタイム経路問題: @libsql/client が Workers ネイティブ経路ではなく Node HTTP 系へ落ち、null.has でクラッシュ
運用問題: 正常版デプロイ後に後続デプロイが上書きし、「直ったはずなのに再発」を発生させた

##アプローチ

Codexには「コード修正」だけでなく、観測性と運用統制まで同時に扱うように指示した。

エラー観測を強化
Route Handler の非業務例外で name/message/stack/cause を構造化ログ出力。
DBクライアント境界を固定
createClient に fetch: globalThis.fetch を明示し、Workers実行時に Node HTTP 経路へ落ちる余地を排除。
ビルド/デプロイ経路を安定化
OpenNextとの整合を優先し、ビルド条件とバンドル境界の不安定要素を削減。
デプロイ版ドリフトを抑制
反映後に deployments list と実行Versionを照合し、期待版が100%配信されていることを確認。
修正後の再現試験
POST /api/reveals を再実行し、成功とログ静穏化を同時確認。

この順序にした理由は、原因がアプリコードと運用の境界に跨っていたため。どちらか一方だけ触ると再発する構造だった。

##アウトプット

最終的に得たアウトプットは「障害復旧手順」ではなく「運用可能な恒久対策セット」。

###1. 実装修正の効果

Workers環境での libsql 通信経路を明示化できた
500発生時の調査コストを、ログ不足起点の往復から解放できた
問題版の混入を、デプロイ版照合で早期検出できる運用に切り替えた

###2. 今後のCodex活用方針

障害対応は 再現率の数値化 を完了条件に置く
Codexには 修正 と同時に 観測強化 も必須タスクとして渡す
デプロイ後は エンドポイント合成監視 + version id 突合 を自動化する
収束後は必ず技術メモ化し、次回の初速を上げる

###3. 実務での設計原則

ランタイム依存の暗黙分岐を減らし、通信経路を明示する
業務エラーとシステムエラーを分離して記録する
デプロイ状態をコード外の運用要因として監視対象にする

Cloudflare Workers と外部DBの組み合わせでは、実装修正だけでは品質が安定しない。Codexを使う価値は、実装・検証・運用統制を一つの作業単位で回し、再発防止までを同時に閉じられる点にある。

Markdownで読む

次に読む

AGENTS.mdを棚卸しして見えた、AIエージェント運用の現在地2026年2月15日
Cloudflare Workers 500/503障害をCodexで収束させた実装ログ2026年2月15日
Go製Shorts大量生成の音響強化と高精度シミュレーション化2026年2月19日
YouTube Material Studio: 動画ネタ生成からmp4出力までの一気通貫実装2026年2月15日
PokeCard AppをPencil設計どおりに4ルート実装した2026年2月19日
折り紙シミュレーション（第1段階）を /app/origami/simulation に追加2026年2月14日

この記事を共有

Xで共有 Facebookで共有はてなブックマーク