OpenAI「レート制限超過」(429) の修正方法 — RPM、TPM、リトライ
OpenAIのレート制限超過とHTTP 429エラーを修正します。RPM/TPM制限、指数バックオフ、マルチチャネルフォールバックを備えたLLMゲートウェイがアプリを稼働し続ける方法を理解します。
公開 2026-06-29
OpenAIのレート制限超過(HTTP 429 Too Many Requests)は、モデルがリクエストを完了する前にスループット上限(1分あたりのリクエスト数(RPM)、1分あたりのトークン数(TPM)、または1日あたりの支出制限)に達したことを意味します。このエラーには、多くの場合 Rate limit reached または rate_limit_exceeded が含まれます。
迅速な修正: 指数バックオフで速度を落とす、リクエストをバッチまたはキューに入れる、max_tokens を減らす、OpenAIのティアをアップグレードする、または代替アップストリームチャネルに自動的にフェイルオーバーするゲートウェイを経由する。APIMaster は複数のルートを集約するため、あるベンダーの429が本番トラフィックを停止させることはありません。
このエラーの意味
認証が成功した後、OpenAIはリクエストとトークンの消費速度を測定します。バケットを超えると、APIは429を返します:
{
"error": {
"message": "Rate limit reached for gpt-4o in organization org-xxx on requests per min (RPM): Limit 500, Used 500, Requested 1.",
"type": "tokens",
"code": "rate_limit_exceeded"
}
}
サードパーティのリレーは、同じ文字列または汎用的な 429 ラッパーを表示する場合があります。これは無効なAPIキー(401)やコンテンツブロック(400)とは異なります。キーは有効ですが、現在のクォータティアに対して速すぎるか、負荷が高すぎるだけです。
一般的な原因
- バーストトラフィック — 多数の並列ユーザーまたはエージェントが同じ秒にリクエストを送信する。
- 高い
max_tokens— 中程度のRPMでも、大きな完了はTPMをすぐに消費する。 - リトライストーム — アプリがバックオフなしで429を即座にリトライし、制限を悪化させる。
- 共有組織キー — 複数のサービスが1つのキーを再利用し、1つのRPM/TPMバケットを共有する。
- 無料/低ティアの制限 — 新しいOpenAIアカウントと安価なリレーはスループットを積極的に制限する。
- モデル固有の上限 — フロンティアモデルは、多くの場合
gpt-4o-miniよりもRPMが低い。 - ストリーミング + ツール — エージェントループがユーザーアクションごとに呼び出しを増やす。
修正方法
1. 429レスポンスヘッダーを読む
OpenAIは多くの場合、x-ratelimit-limit-requests、x-ratelimit-remaining-requests、および retry-after を送信します。リトライする前に、retry-after 秒が経過するまでスリープします。
2. ジッター付き指数バックオフを実装する
import time, random
from openai import OpenAI, RateLimitError
client = OpenAI()
for attempt in range(6):
try:
return client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role": "user", "content": "hello"}],
)
except RateLimitError:
time.sleep(min(60, (2 ** attempt) + random.random()))
429でタイトループを決して行わないでください。障害を長引かせることになります。
3. 負荷を減らす
- 可能な場合は
max_tokensを下げる。 - 同一のプロンプトをキャッシュする。
- 無制限のクライアント並列処理ではなく、サーバー側でリクエストをキューに入れる(ワーカー + Redis)。
- 分類やルーティングのステップには、より安価で小さいモデルを使用する。
4. 公式の制限を引き上げる
OpenAIで:支払いを追加する、ティアの増加をリクエストする、またはワークロードをプロジェクト/組織間で責任を持って分割する(それでもポリシーの対象となります)。
5. 自動フォールバック付きゲートウェイを使用する
本番アプリは単一のアップストリームRPMバケットに依存すべきではありません。LLMゲートウェイは以下を実行できます:
- あるアップストリームが429を返した場合、別のプロバイダーまたはチャネルにルーティングする
- 許可されている場合、キーまたはリージョン間でトラフィックを分散する
- エッジでキューイングを表面化し、アプリがハード障害をあまり見ないようにする
APIMaster は、マルチチャネルルーティングを備えたOpenAI互換のアグリゲーターです。1つのパスがスロットルされると、トラフィックは利用可能な代替手段に移動できます。$1からのチャージで、SDKを https://apimaster.ai/v1 に向け、すべてのベンダー制限を手動で調整することなく構築を続けられます。
APIMasterの利点
429が頻繁に発生しますか? APIMaster は3つの面で役立ちます:
| 利点 | 得られるもの |
|---|---|
| 割引 | マーケットプレイス価格 — 公式リストレートから最大約90% / 約85%オフ;同じ予算をさらに活用できます。 |
| 安定性 | 1つのアップストリームがRPM/TPM上限に達した場合の自動フォールバック — 単一ベンダーの429障害が減少します(アプリレベルのバックオフと組み合わせてください)。 |
| モデル忠実度 | フェイルオーバー後、モデルテスターを使用;キーテスターでキーを確認します。 |
https://apimaster.ai/v1 · $1からのチャージ、従量課金制。
関連するAPIエラー
- 無効なAPIキー — 401認証
- APIエラー400 コンテンツブロック — モデレーション400
- Claude / Anthropic 529 過負荷 — 容量不足、RPMクォータではない
- すべてのAPIエラー修正ガイド — 完全なインデックス
FAQ
OpenAIのレート制限超過とは何ですか? HTTP 429は、組織とモデルのRPM、TPM、または関連するクォータを超えたことを示します。バックオフして待ってからリトライするか、フォールバック付きのゲートウェイを経由してください。
429と529の違いは何ですか? 429は通常、あなたのクォータ/レート(OpenAI RPM/TPM)です。Anthropicの529はサーバーの過負荷 — サービスが一時的に容量不足です。修正パターンは異なります。529ガイドを参照してください。
OpenAIティアをアップグレードすればすべての429は修正されますか? 上限は上がりますが、バーストするエージェントトラフィックは依然として制限に達する可能性があります。本番環境では、ゲートウェイとキューイングが耐久性のある修正です。
APIMasterはレート制限を完全に削除しますか? フロンティアモデルの無制限スループットを提供するプラットフォームはありません。APIMasterは、1つのアップストリームがスロットルしたときにチャネル間でルーティングすることで可用性を向上させます — アプリ内でバックオフを実装する必要は依然としてあります。