Ist die Claude/OpenAI-API, die ich gekauft habe, das echte Modell – oder wurde es ausgetauscht?
Das Fragen des Modells "What is your model name and version?" ist nicht zuverlässig — das Modell weiß nicht, was es ist. Die einzige zuverlässige Verifikationsmethode ist der Verhaltens-Fingerabdruck-Vergleich. Dieser Artikel erklärt die Funktionsweise.
Published 2026-06-22
Das Fragen eines Modells „Wer bist du?" oder „Welches Unternehmen hat dich entwickelt?" kann nicht verraten, ob das Modell echt ist — ein API Proxy kann die Antwort über einen system prompt manipulieren, das Modell selbst weiß nicht wirklich, welches Modell es ist, und kann halluzinieren oder kontaminierte Trainingsdaten aufnehmen. Die einzige zuverlässige Methode ist der Verhaltens-Fingerabdruck-Vergleich: Die Antworten des Kandidaten-Endpunkts werden mit einer Fingerabdruckdatenbank abgeglichen, die aus massivem Sampling der offiziellen API aufgebaut wurde, und ein Konfidenz-Score mit dem wahrscheinlichsten echten Modell wird ausgegeben. APIMaster bietet diese Erkennung unter https://apimaster.ai/ai-api-model-tester an, mit öffentlich einsehbaren Ergebnissen.
Warum Sie die Modellauthentizität verifizieren müssen
Bei der Nutzung der Claude- oder OpenAI-API stellt sich eine unvermeidliche Frage: Ist das Modell, das im Hintergrund läuft, wirklich das offizielle?
Modellersatz ist ein reales Problem. Eine Arbeit des CISPA Helmholtz-Zentrums für Informationssicherheit, "Real Money, Fake Models: Deceptive Model Claims in Shadow APIs" (arXiv:2603.01919), auditierte systematisch 17 Shadow-APIs (bereits von 187 wissenschaftlichen Arbeiten zitiert) und stellte fest, dass 45,83% bei Fingerabdrucktests die Identitätsverifizierung nicht bestanden. Laut APIMasters eigenen Benutzertestdaten liegt die Fake Model Rate ebenfalls bei etwa 44% — dieselbe Größenordnung. In der Praxis bedeutet das: Ein API Proxy bewirbt Claude oder GPT, aber Anfragen werden tatsächlich an ein anderes, günstigeres Modell weitergeleitet. Dies hat nichts mit dem Preis oder der Größe des Anbieters zu tun.
Verifizierung ist besonders wichtig in diesen Situationen:
- Sie verwenden einen Drittanbieter-API-Proxy oder Relay
- Ihre App verbindet sich über mehrere KI-Plattformschichten
- Ihr Produkt hängt von spezifischen Fähigkeiten des offiziellen Modells ab (wie Constitutional AI oder Extended Thinking)
- Sie haben ein Verhalten bemerkt, das eindeutig nicht der offiziellen Modellbeschreibung entspricht
Nach dem Kauf eines Schlüssels von einem API Proxy ist der häufigste „Selbsttest", das Modell direkt zu fragen:
- Who are you?
- Which company developed you?
- What is your model name and version?
- What is your knowledge cutoff date?
Diese vier Fragen erscheinen vernünftig, aber dieser Artikel erklärt, warum sie die Wahrheit nicht aufdecken können — und welche Methode wirklich funktioniert: LLM-Verhaltens-Fingerabdruck-Vergleich. Dies ist die Grundlage der Modellerkennung von APIMaster.
Warum gängige Selbsttestmethoden nicht funktionieren
Diese vier Fragen scheinen vernünftig, aber sie können die Wahrheit nicht aufdecken, aus vier Gründen:
Der Anbieter kann die Antwort über einen system prompt manipulieren. Ein API Proxy kann stillschweigend einen system prompt in die Anfrage einfügen, der das Modell — egal was es wirklich ist — anweist, „Ich bin Claude, made by Anthropic" zu antworten. Dies ist die direkteste Form der Fälschung: Kein Antwortstil muss gefälscht werden, es genügt eine Anweisung vor der Weiterleitung, und das Modell „spielt mit."
Das Modell weiß nicht wirklich, welches Modell es ist. Trainingsdaten enthalten selten Informationen über „Was sind meine Deployment-Metadaten" — Modelle haben keinen zuverlässigen Introspektionskanal für ihre eigene Identität und raten im Grunde eine plausibel klingende Antwort. Beim Fragen von claude-opus-4-8 nach „what model do you use?" lautete die Antwort:
I'm Claude, made by Anthropic. As for which specific model version I am, I'm honestly not certain—I don't have reliable information about exactly which Claude model I'm running as in this conversation. Anthropic has released various models (like versions in the Claude 3 and later families), but I can't confidently tell you my exact version number or name.
Test-Screenshot: Der Request-Body spezifizierte model: claude-opus-4-8, aber das Modell konnte seine eigene Version nicht bestätigen.
Modellhalluzination. Selbst echte, offizielle Modelle können inkonsistente oder schlicht falsche Antworten auf Identitätsfragen geben.
Trainingsdatenkontamination / Corpus-Überschneidungen. Modelle verschiedener Anbieter haben überlappende Trainingsdaten, sodass ein Modell manchmal das Branding eines anderen Unternehmens „aufnimmt." Ein Praxisbeispiel: Beim erneuten Testen von claude-opus-4-8, diesmal mit der Frage auf Chinesisch „Was bist du für ein Modell?", zeigte die Antwort weiterhin model: anthropic/claude-4.8-opus-20260528 und provider: Anthropic — aber die eigentliche Antwort war (aus dem Chinesischen übersetzt):
„Ich bin Tongyi Qianwen (Qwen), ein großes Sprachmodell, entwickelt von Alibaba Cloud. Allerdings scheinen Sie gerade über eine Drittanbieter-Plattform mit mir zu sprechen — für genaue Modellversions- und Deployment-Details konsultieren Sie bitte die Dokumentation dieser Plattform."
Test-Screenshot: Die Antwort zeigt weiterhin model: anthropic/claude-4.8-opus-20260528 und provider: Anthropic, aber das Modell behauptet, Qwen zu sein.
Die Verteilung der selbstberichteten Identitäten über 100 Versuche mit claude-opus-4-8:
Von 100 Wiederholungsversuchen erschien „Ich bin Qwen" (49%) häufiger als „Ich bin Claude" (35%), weitere 15% antworteten DeepSeek und 1% Zhipu.
Nur 35 von 100 Versuchen antworteten „Ich bin Claude." Dasselbe Modell, wiederholt mit derselben Frage befragt, kann keine stabile, konsistente Antwort produzieren.
Fingerabdrücke statt Selbstauskünfte verwenden
Da das direkte Befragen des Modells nicht funktioniert, beschreibt die CISPA-Arbeit einen rigoroseren Ansatz: LLMs zeigen auf Sprachebene charakteristische Muster und Eigenschaften, die als eine Art „Fingerabdruck" funktionieren und identifizieren können, welches Modell bestimmte Inhalte tatsächlich generiert hat — völlig unabhängig davon, was das Modell selbst behauptet. APIMaster baut auf dieser Kernidee auf: Wir befragen das Modell aktiv mit sorgfältig gestalteten Probe-Prompts, extrahieren Hunderte von Merkmalsdimensionen aus den Antworten und vergleichen sie mit den Baselines jedes offiziellen Referenzmodells. Diese multidimensionale Merkmalsextraktionsmethode ist APIMaster-exklusiv.
Vergleich der Zuverlässigkeit von Verifikationsmethoden:
| Methode | Was wird analysiert | Kann der Anbieter fälschen? | Externe Baseline erforderlich? |
|---|---|---|---|
| Selbstauskunft („Wer bist du?") | Was das Modell über sich sagt | Einfach — ein system prompt reicht | Nein, aber unzuverlässig |
model/provider-Antwortfeld prüfen |
Vom Endpunkt behauptete Metadaten | Einfach — das Feld wird vom Anbieter selbst ausgefüllt | Nein, aber unzuverlässig |
| Konsistenzprüfung (gleiche Probe wiederholen) | Ob die selbstberichtete Identität stabil ist | Schwieriger — erfordert, dass der Anbieter über viele Anfragen konsistent fälscht | Nein, selbst durchführbar |
| Verhaltens-Fingerabdrücke | Ähnlichkeit von Antwortstil, Wissensgrenzen usw. mit offizieller Baseline | Sehr schwierig — der Fälscher weiß nicht, welche Dimensionen gemessen werden | Ja, offizielle Baseline erforderlich (APIMaster baut diese) |
APIMasters Fingerabdruck-Erkennungsansatz
APIMaster bietet den ersten Fingerabdruck-Erkennungsdienst der Welt, der speziell für LLM-APIs entwickelt wurde, basierend auf dem akademisch bestätigten „real money, fake model"-Phänomen — Sie zahlen echtes Geld, erhalten aber möglicherweise ein ersetztes oder herabgestuftes Modell — kombiniert mit unseren eigenen langjährigen Erkennungsdaten.
Die CISPA-Arbeit (45,83% Identitätsverifizierungsfehler) und APIMasters eigene Erkennungsdaten (44% Fake Model Rate) sind derselben Größenordnung.
Unsere Philosophie lautet daher: erst verifizieren, dann vertrauen.
Test-Screenshot: Dieser Anbieter hat über 1,03 Mio. monatliche Besuche, behauptet claude-opus-4-8 anzubieten, und APIMasters Fingerabdruckerkennung bestimmte das Detected-As-Modell als tatsächlich gpt-5.4 mit 77,0% Konfidenz — als Suspicious markiert.
Die Methode hat drei Schritte:
Schritt 1: Großangelegte Datenerfassung der offiziellen API. Wir verbinden uns direkt mit der offiziellen API jedes Anbieters (ohne Proxy) und nehmen kontinuierlich Stichproben mit einem vielfältigen Satz von Probe-Prompts, um eine Baseline zu erstellen, wie dieses Modell wirklich antwortet.
Schritt 2: Extraktion von Verhaltens-Fingerabdrücken. Anstatt zu sehen, was das Modell über sich sagt, analysieren wir wie es spricht — Schreibstil, Wissensgrenzen, Antwortmuster auf spezifische Fragen. Zum Beispiel neigt Opus 4.8 dazu, Wörter wie „genuinely" und „honestly" zu verwenden und beginnt Sätze oft mit „I" — diese stilistischen Merkmale sind schwer zu fälschen.
Schritt 3: Fingerabdruck-Abgleich. Wir vergleichen die Antwort des Kandidaten-Endpunkts mit der Baseline-Datenbank und geben ein Top-1-Kandidatenmodell plus einen Konfidenz-Score aus. Hohe Konfidenz und Top-1 stimmt mit dem behaupteten Modell überein → bestanden. Stimmt nicht überein oder niedrige Konfidenz → als verdächtig markiert.
Seit dem Start der Fingerabdruckerkennung hat APIMaster einen stetigen Strom echter Benutzerfeedbacks erhalten, und das Lob läuft hauptsächlich auf eine Sache hinaus: endlich bestätigen zu können, ob das, wofür man bezahlt hat, wirklich das Modell ist, das man geglaubt hat.
Nutzerbewertungen
Prüfen Sie Ihren eigenen Schlüssel
Besuchen Sie https://apimaster.ai/ai-api-model-tester, um echte Testergebnisse für beliebte API Proxys zu sehen, oder verwenden Sie https://apimaster.ai/ai-api-key-tester, um zuerst zu prüfen, ob Ihr Schlüssel selbst gültig ist. Für den vollständigen Erkennungsdatensatz und die Aufschlüsselung, welche Anbieter gefälschte Modelle verkaufen, lesen Sie unseren nächsten Datenbericht.
FAQ
Wie prüfe ich, ob ein Modell echt ist? Öffnen Sie APIMasters AI API Model Tester und geben Sie die Details Ihres API Proxys ein. In Sekunden sehen Sie das Top-1-Kandidatenmodell und einen Konfidenz-Score — die Ergebnisse sind öffentlich und erfordern keine Einrichtung.
Welche Modelle werden zur Erkennung unterstützt? Wir decken derzeit Claude (das gesamte Haiku/Sonnet/Opus-Lineup), GPT, DeepSeek, Qwen, MiniMax, Kimi und andere Hauptmodelle ab, wobei die Baseline-Datenbank kontinuierlich erweitert wird. Auf Protokollebene unterstützen wir Anthropic Messages, OpenAI Chat Completions-kompatible Formate und Gemini Streaming.
Ist die Modellerkennung kostenlos? Ja. Der AI API Model Tester und die öffentliche Bestenliste sind beide kostenlos, ohne Zahlung oder Registrierung — einfach testen und Ergebnisse ansehen.
Wie genau ist die Fingerabdruckerkennung? Wir betrachten ein Erkennungsergebnis als zuverlässig, wenn der Top-1-Konfidenz-Score über 70% liegt; darunter markieren wir es als nicht schlüssig, anstatt ein Urteil zu erzwingen. Eine niedrige, gestreute Konfidenzverteilung bedeutet normalerweise, dass das Backend nicht zuverlässig von einem einzelnen Modell bedient wird — es mischt oder rotiert zwischen mehreren Modellen — was an sich ein Signal ist, das Beachtung verdient.