APIMaster Blog

Cara Memperbaiki "Rate Limit Exceeded" OpenAI (429) — RPM, TPM & Retry

Perbaiki error rate limit exceeded dan HTTP 429 dari OpenAI. Pahami batasan RPM/TPM, exponential backoff, dan bagaimana gateway LLM dengan fallback multi-channel menjaga aplikasi Anda tetap berjalan.

API errorrate limitOpenAI API429 errorLLM gateway

Published 2026-06-29

Quick Answer

OpenAI rate limit exceeded (HTTP 429 Too Many Requests) berarti Anda mencapai batas throughput — permintaan per menit (RPM), token per menit (TPM), atau batas pengeluaran harian — sebelum model dapat menyelesaikan panggilan Anda. Error ini sering menyertakan Rate limit reached atau rate_limit_exceeded.

Perbaikan cepat: perlambat dengan exponential backoff, batch atau antrekan permintaan, kurangi max_tokens, tingkatkan tier OpenAI Anda, atau arahkan melalui gateway yang secara otomatis gagal beralih ke saluran upstream alternatif. APIMaster menggabungkan banyak rute sehingga 429 dari satu vendor tidak menghentikan lalu lintas produksi.

Apa Arti Error Ini

Setelah autentikasi berhasil, OpenAI mengukur seberapa cepat Anda mengonsumsi permintaan dan token. Jika melebihi batas, API mengembalikan 429:

{
  "error": {
    "message": "Rate limit reached for gpt-4o in organization org-xxx on requests per min (RPM): Limit 500, Used 500, Requested 1.",
    "type": "tokens",
    "code": "rate_limit_exceeded"
  }
}

Relay pihak ketiga mungkin menampilkan string yang sama atau pembungkus 429 generik. Ini berbeda dengan kunci API tidak valid (401) atau konten diblokir (400) — kunci Anda valid, Anda hanya terlalu cepat atau terlalu berat untuk tier kuota saat ini.

Penyebab Umum

Lalu lintas lonjakan — banyak pengguna atau agen paralel yang mengirim permintaan di detik yang sama.
max_tokens tinggi — penyelesaian besar menghabiskan TPM dengan cepat bahkan pada RPM sedang.
Badai retry — aplikasi Anda mencoba ulang 429 segera tanpa backoff, memperburuk batasan.
Kunci org bersama — banyak layanan menggunakan satu kunci dan berbagi satu bucket RPM/TPM.
Batas tier gratis / rendah — akun OpenAI baru dan relay murah membatasi throughput secara agresif.
Batas khusus model — model frontier sering memiliki RPM lebih rendah daripada gpt-4o-mini.
Streaming + alat — loop agen melipatgandakan panggilan per tindakan pengguna.

Cara Memperbaikinya

1. Baca header respons 429

OpenAI sering mengirim x-ratelimit-limit-requests, x-ratelimit-remaining-requests, dan retry-after. Tunggu hingga retry-after detik berlalu sebelum mencoba ulang.

2. Terapkan exponential backoff dengan jitter

import time, random
from openai import OpenAI, RateLimitError

client = OpenAI()
for attempt in range(6):
    try:
        return client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{"role": "user", "content": "hello"}],
        )
    except RateLimitError:
        time.sleep(min(60, (2 ** attempt) + random.random()))

Jangan pernah melakukan loop ketat pada 429 — Anda akan memperpanjang gangguan.

3. Kurangi beban

Turunkan max_tokens jika memungkinkan.
Cache prompt yang identik.
Antrekan permintaan di sisi server (worker + Redis) alih-alih paralelisme klien tanpa batas.
Gunakan model yang lebih murah/kecil untuk klasifikasi atau langkah routing.

4. Naikkan batas resmi

Di OpenAI: tambahkan penagihan, minta peningkatan tier, atau bagi beban kerja di seluruh proyek/org secara bertanggung jawab (masih tunduk pada kebijakan).

5. Gunakan gateway dengan fallback otomatis

Aplikasi produksi tidak boleh bergantung pada satu bucket RPM upstream. Gateway LLM dapat:

Mengarahkan ke penyedia atau saluran lain ketika satu mengembalikan 429
Menyebarkan lalu lintas di seluruh kunci atau wilayah jika diizinkan
Menyediakan antrean di tepi sehingga aplikasi Anda melihat lebih sedikit kegagalan keras

APIMaster adalah agregator yang kompatibel dengan OpenAI dengan routing multi-channel — ketika satu jalur dibatasi, lalu lintas dapat pindah ke alternatif yang tersedia. Top up dari $1, arahkan SDK ke https://apimaster.ai/v1, dan terus membangun tanpa menyesuaikan batas vendor secara manual.

Mulai dengan APIMaster →

Bagaimana APIMaster Membantu

Sering mengalami 429? APIMaster membantu di tiga sisi:

Keunggulan	Apa yang Anda dapatkan
Diskon	Harga Marketplace — hingga ~90% / ~85% dari tarif resmi; regangkan anggaran yang sama lebih jauh.
Stabilitas	Fallback otomatis ketika satu upstream mencapai batas RPM/TPM — lebih sedikit gangguan 429 dari satu vendor (pasangkan dengan backoff di tingkat aplikasi).
Kesetiaan model	Setelah failover, gunakan Model Tester; periksa kunci dengan Key Tester.

https://apimaster.ai/v1 · Dari top-up $1, bayar sesuai pemakaian.

Daftar di APIMaster →

Error API Terkait

Kunci API tidak valid — autentikasi 401
api error 400 content blocked — moderasi 400
Claude / Anthropic 529 overloaded — kapasitas, bukan kuota RPM
Semua panduan perbaikan error API — indeks lengkap

FAQ

Apa itu OpenAI rate limit exceeded? HTTP 429 yang menunjukkan Anda melebihi RPM, TPM, atau kuota terkait untuk organisasi dan model Anda. Tunggu dan coba ulang dengan backoff, atau arahkan melalui gateway dengan fallback.

429 vs 529 — apa perbedaannya? 429 biasanya kuota / kecepatan Anda (RPM/TPM OpenAI). 529 di Anthropic adalah kelebihan beban server — layanan untuk sementara pada kapasitas penuh. Pola perbaikan berbeda; lihat panduan 529.

Apakah meningkatkan tier OpenAI akan memperbaiki semua 429? Ini menaikkan batas tetapi lalu lintas agen yang melonjak masih bisa mencapai batas. Gateway plus antrean adalah perbaikan tahan lama untuk produksi.

Apakah APIMaster menghapus batas rate sepenuhnya? Tidak ada platform yang menawarkan throughput model frontier tanpa batas. APIMaster meningkatkan ketersediaan dengan merutekan di seluruh saluran ketika satu upstream membatasi — Anda tetap harus menerapkan backoff di aplikasi Anda.