APIMaster Blog

Come risolvere l'errore "Rate Limit Exceeded" di OpenAI (429) — RPM, TPM e Retry

Risolvi gli errori di superamento del limite di velocità di OpenAI e HTTP 429. Comprendi i limiti RPM/TPM, il backoff esponenziale e come un gateway LLM con fallback multi-canale mantiene la tua app in esecuzione.

Errore APIlimite di velocitàAPI OpenAIerrore 429gateway LLM

Published 2026-06-29

Quick Answer

Superamento del limite di velocità di OpenAI (HTTP 429 Too Many Requests) significa che hai raggiunto un limite di throughput — richieste al minuto (RPM), token al minuto (TPM) o limiti di spesa giornaliera — prima che il modello potesse completare la tua chiamata. L'errore include spesso Rate limit reached o rate_limit_exceeded.

Soluzioni rapide: rallenta con backoff esponenziale, raggruppa o accoda le richieste, riduci max_tokens, aggiorna il tuo tier OpenAI o instrada il traffico attraverso un gateway che effettua automaticamente il failover verso canali upstream alternativi. APIMaster aggrega più rotte in modo che un 429 di un fornitore non blocchi il traffico di produzione.

Cosa significa questo errore

Dopo che l'autenticazione ha avuto successo, OpenAI misura la velocità con cui consumi richieste e token. Superi il bucket e l'API restituisce 429:

{
  "error": {
    "message": "Rate limit reached for gpt-4o in organization org-xxx on requests per min (RPM): Limit 500, Used 500, Requested 1.",
    "type": "tokens",
    "code": "rate_limit_exceeded"
  }
}

I relay di terze parti possono mostrare la stessa stringa o un wrapper generico 429. Questo è diverso da una chiave API non valida (401) o contenuto bloccato (400) — la tua chiave è valida, stai solo andando troppo veloce o sei troppo pesante per il tier di quota corrente.

Cause comuni

Traffico a raffica — molti utenti o agenti in parallelo che inviano richieste nello stesso secondo.
max_tokens elevato — completamenti grandi consumano velocemente TPM anche a RPM moderati.
Tempeste di retry — la tua app riprova i 429 immediatamente senza backoff, peggiorando i limiti.
Chiave organizzativa condivisa — più servizi riutilizzano una chiave e condividono un singolo bucket RPM/TPM.
Limiti del tier gratuito / basso — i nuovi account OpenAI e i relay economici limitano il throughput in modo aggressivo.
Limiti specifici per modello — i modelli di frontiera spesso hanno RPM inferiori rispetto a gpt-4o-mini.
Streaming + strumenti — i loop degli agenti moltiplicano le chiamate per azione utente.

Come risolverlo

1. Leggi le intestazioni della risposta 429

OpenAI invia spesso x-ratelimit-limit-requests, x-ratelimit-remaining-requests e retry-after. Aspetta che siano trascorsi i secondi di retry-after prima di riprovare.

2. Implementa il backoff esponenziale con jitter

import time, random
from openai import OpenAI, RateLimitError

client = OpenAI()
for attempt in range(6):
    try:
        return client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{"role": "user", "content": "hello"}],
        )
    except RateLimitError:
        time.sleep(min(60, (2 ** attempt) + random.random()))

Non eseguire mai un ciclo stretto su 429 — allungherai l'interruzione.

3. Riduci il carico

Abbassa max_tokens dove possibile.
Memorizza nella cache i prompt identici.
Accoda le richieste lato server (worker + Redis) invece di parallellismo illimitato del client.
Usa modelli più economici/piccoli per classificazione o passaggi di routing.

4. Aumenta i limiti ufficiali

Su OpenAI: aggiungi fatturazione, richiedi un aumento del tier o suddividi i carichi di lavoro tra progetti/org in modo responsabile (sempre soggetto alle policy).

5. Usa un gateway con fallback automatico

Le app di produzione non dovrebbero dipendere da un singolo bucket RPM upstream. Un gateway LLM può:

Instradare verso un altro fornitore o canale quando uno restituisce 429
Distribuire il traffico tra chiavi o regioni dove consentito
Mettere in coda all'edge in modo che la tua app veda meno errori gravi

APIMaster è un aggregatore compatibile con OpenAI con routing multi-canale — quando un percorso viene limitato, il traffico può spostarsi verso alternative disponibili. Ricarica da $1, punta gli SDK a https://apimaster.ai/v1 e continua a sviluppare senza ottimizzare manualmente ogni limite del fornitore.

Inizia con APIMaster →

In che modo APIMaster aiuta

Ricevi 429 troppo spesso? APIMaster ti aiuta su tre fronti:

Vantaggio	Cosa ottieni
Sconto	Prezzi del Marketplace — fino a ~90% / ~85% di sconto rispetto alle tariffe ufficiali; allunga lo stesso budget.
Stabilità	Fallback automatico quando un upstream raggiunge i limiti RPM/TPM — meno interruzioni da 429 di un singolo fornitore (abbinalo al backoff a livello di app).
Fedeltà del modello	Dopo il failover, usa il Model Tester; verifica le chiavi con il Key Tester.

https://apimaster.ai/v1 · Ricaricabile da $1, paghi per quello che usi.

Registrati su APIMaster →

Errori API correlati

Chiave API non valida — autenticazione 401
Errore API 400 contenuto bloccato — moderazione 400
Claude / Anthropic 529 sovraccarico — capacità, non quota RPM
Guida alla risoluzione di tutti gli errori API — indice completo

FAQ

Cos'è il superamento del limite di velocità di OpenAI? HTTP 429 che indica che hai superato RPM, TPM o quote correlate per la tua organizzazione e modello. Aspetta e riprova con backoff, oppure instrada attraverso un gateway con fallback.

429 vs 529 — qual è la differenza? 429 è di solito la tua quota / velocità (RPM/TPM di OpenAI). 529 su Anthropic è sovraccarico del server — il servizio è temporaneamente a capacità. I pattern di risoluzione differiscono; consulta la nostra guida al 529.

Aggiornare il tier OpenAI risolverà tutti i 429? Alza i limiti, ma il traffico a raffica degli agenti può ancora raggiungerli. Gateway più accodamento sono la soluzione duratura per la produzione.

APIMaster rimuove completamente i limiti di velocità? Nessuna piattaforma offre throughput illimitato per modelli di frontiera. APIMaster migliora la disponibilità instradando attraverso canali diversi quando un upstream limita — dovresti comunque implementare il backoff nella tua app.