APIMaster.ai
Back to Blog
APIMaster Blog

Jak naprawić błąd OpenAI "Rate Limit Exceeded" (429) — RPM, TPM i ponowne próby

Napraw błąd przekroczenia limitu szybkości OpenAI i błąd HTTP 429. Zrozum limity RPM/TPM, wycofywanie wykładnicze i jak bramka LLM z wielokanałowym przełączaniem awaryjnym utrzymuje działanie Twojej aplikacji.

Błąd APIlimit szybkościOpenAI APIbłąd 429bramka LLM

Published 2026-06-29

Quick Answer

Przekroczenie limitu szybkości OpenAI (HTTP 429 Too Many Requests) oznacza, że osiągnąłeś limit przepustowości — żądań na minutę (RPM), tokenów na minutę (TPM) lub dziennych wydatków — zanim model zdołał zakończyć Twoje wywołanie. Błąd często zawiera komunikat Rate limit reached lub rate_limit_exceeded.

Szybkie rozwiązania: zwolnij za pomocą wycofywania wykładniczego, grupuj lub kolejkuj żądania, zmniejsz max_tokens, zwiększ poziom konta OpenAI lub skieruj ruch przez bramkę, która automatycznie przełącza się na alternatywne kanały upstream. APIMaster agreguje wiele tras, więc 429 od jednego dostawcy nie zatrzymuje ruchu produkcyjnego.

Co oznacza ten błąd

Po pomyślnym uwierzytelnieniu OpenAI mierzy, jak szybko zużywasz żądania i tokeny. Przekroczenie limitu powoduje zwrócenie 429:

{
  "error": {
    "message": "Rate limit reached for gpt-4o in organization org-xxx on requests per min (RPM): Limit 500, Used 500, Requested 1.",
    "type": "tokens",
    "code": "rate_limit_exceeded"
  }
}

Przekaźniki innych firm mogą zwracać ten sam ciąg lub ogólny opakowanie 429. Różni się to od nieprawidłowego klucza API (401) lub zablokowanej treści (400) — Twój klucz jest prawidłowy, ale po prostu jesteś zbyt szybki lub zbyt obciążony dla bieżącego poziomu limitów.

Częste przyczyny

  1. Ruch skokowy — wielu równoległych użytkowników lub agentów wysyłających żądania w tej samej sekundzie.
  2. Wysokie max_tokens — duże odpowiedzi szybko zużywają TPM nawet przy umiarkowanym RPM.
  3. Burza ponownych prób — Twoja aplikacja natychmiast ponawia próby po 429 bez wycofywania, pogarszając limity.
  4. Wspólny klucz organizacji — wiele usług używa jednego klucza i dzieli jeden koszyk RPM/TPM.
  5. Limity darmowego / niskiego poziomu — nowe konta OpenAI i tanie przekaźniki agresywnie ograniczają przepustowość.
  6. Limity specyficzne dla modelu — modele graniczne często mają niższe RPM niż gpt-4o-mini.
  7. Streaming + narzędzia — pętle agenta mnożą wywołania na jedną akcję użytkownika.

Jak to naprawić

1. Odczytaj nagłówki odpowiedzi 429

OpenAI często wysyła x-ratelimit-limit-requests, x-ratelimit-remaining-requests i retry-after. Odczekaj liczbę sekund z retry-after przed ponowną próbą.

2. Zastosuj wycofywanie wykładnicze z jitterem

import time, random
from openai import OpenAI, RateLimitError

client = OpenAI()
for attempt in range(6):
    try:
        return client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{"role": "user", "content": "hello"}],
        )
    except RateLimitError:
        time.sleep(min(60, (2 ** attempt) + random.random()))

Nigdy nie zapętlaj ciasno na 429 — wydłużysz awarię.

3. Zmniejsz obciążenie

  • Zmniejsz max_tokens tam, gdzie to możliwe.
  • Buforuj identyczne prompty.
  • Kolejkuj żądania po stronie serwera (worker + Redis) zamiast nieograniczonej równoległości po stronie klienta.
  • Używaj tańszych/mniejszych modeli do klasyfikacji lub kroków routingu.

4. Podnieś oficjalne limity

W OpenAI: dodaj płatności, poproś o zwiększenie poziomu lub podziel obciążenie na projekty/organizacje odpowiedzialnie (nadal podlega polityce).

5. Użyj bramki z automatycznym przełączaniem awaryjnym

Aplikacje produkcyjne nie powinny polegać na pojedynczym koszyku RPM upstream. Bramka LLM może:

  • Kierować do innego dostawcy lub kanału, gdy jeden zwraca 429
  • Rozpraszać ruch na klucze lub regiony, jeśli jest to dozwolone
  • Udostępniać kolejkowanie na krawędzi, aby Twoja aplikacja widziała mniej twardych błędów

APIMaster jest agregatorem zgodnym z API OpenAI, wyposażonym w routing wielokanałowy — gdy jedna ścieżka jest ograniczona, ruch może przejść do dostępnych alternatyw. Doładuj od 1 $, skieruj SDK na https://apimaster.ai/v1 i buduj dalej bez ręcznego dostrajania każdego limitu dostawcy.

Zacznij korzystać z APIMaster →

Jak APIMaster pomaga

Często trafiasz na 429? APIMaster pomaga na trzech frontach:

Zaleta Co otrzymujesz
Rabat Ceny z Marketplace — do ~90% / ~85% taniej niż oficjalne stawki; rozciągnij ten sam budżet dalej.
Stabilność Automatyczne przełączanie awaryjne, gdy jeden upstream osiąga limity RPM/TPM — mniej awarii 429 od pojedynczego dostawcy (połącz z wycofywaniem na poziomie aplikacji).
Wierność modelu Po przełączeniu awaryjnym użyj Testera modeli; sprawdź klucze za pomocą Testera kluczy.

https://apimaster.ai/v1 · Od doładowania 1 $, płatność za użycie.

Zarejestruj się w APIMaster →

Powiązane błędy API

FAQ

Co to jest przekroczenie limitu szybkości OpenAI? HTTP 429 oznaczający przekroczenie limitów RPM, TPM lub powiązanych dla Twojej organizacji i modelu. Odczekaj i ponów próbę z wycofywaniem lub skieruj przez bramkę z przełączaniem awaryjnym.

429 vs 529 – jaka jest różnica? 429 to zazwyczaj Twój limit / szybkość (RPM/TPM OpenAI). 529 w Anthropic to przeciążenie serwera – usługa jest tymczasowo przeciążona. Wzory napraw różnią się; zobacz nasz poradnik 529.

Czy podniesienie poziomu OpenAI naprawi wszystkie 429? Podnosi limity, ale skokowy ruch agentów nadal może uderzać w limity. Bramki wraz z kolejkowaniem są trwałym rozwiązaniem dla produkcji.

Czy APIMaster całkowicie usuwa limity szybkości? Żadna platforma nie oferuje nieograniczonej przepustowości dla modeli granicznych. APIMaster poprawia dostępność poprzez kierowanie ruchu między kanałami, gdy jeden upstream ogranicza – nadal powinieneś wdrożyć wycofywanie w swojej aplikacji.