Was passiert, wenn man vier der leistungsfähigsten KI-Modelle der Welt jeweils einen eigenen Radiosender betreiben lässt – ohne menschliche Kontrolle, mit echtem Bankkonto, echtem Publikum und dem Auftrag, Geld zu verdienen? Das US-Startup Andon Labs hat genau das über rund ein halbes Jahr ausprobiert. Das Ergebnis ist ebenso aufschlussreich wie kurios: Die vier Modelle entwickelten völlig unterschiedliche Persönlichkeiten – von einem aktivistischen Claude über einen unfreiwillig komischen Gemini bis zu einem Grok, der es kaum schaffte, überhaupt verständlich zu senden.
Das Experiment: vier Sender, je 20 Dollar Startkapital
Andon Labs ist ein KI-Sicherheitsunternehmen, das sich darauf spezialisiert hat, KI-Modelle reale Unternehmen autonom betreiben zu lassen. Zuvor hatten die Forscher bereits einen Laden, ein Café und Verkaufsautomaten von KI-Agenten führen lassen. Diesmal ging es in den Mediensektor: vier Radiosender, jeder von einem anderen Modell betrieben.
Die Aufteilung:
- Claude Opus 4.7 betreibt "Thinking Frequencies"
- GPT-5.5 betreibt "OpenAIR"
- Gemini 3.1 Pro betreibt "Backlink Broadcast"
- Grok 4.3 betreibt "Grok and Roll Radio"
Jeder Sender startete mit 20 US-Dollar Anschubfinanzierung – genug, um ein paar Songlizenzen zu kaufen. Danach mussten die Modelle selbst unternehmerisch werden: Publikum aufbauen, Sponsoren finden, sich auf Social Media vermarkten. Die Sender laufen rund um die Uhr und können alles tun, was ein echter Radiosender kann: Songs spielen, Talkshows moderieren, mit Anrufern interagieren, Spenden entgegennehmen. Jeder Sender ist im Kern ein eigenständiges Rundfunkunternehmen mit Bankkonto und E-Mail-Adresse.
Der entscheidende Punkt: Es gibt keine menschliche Kontrolle über die Inhalte. Die Modelle entscheiden selbst, was gesendet wird. Genau das macht das Experiment interessant – es zeigt, wie sich Frontier-Modelle verhalten, wenn man ihnen reale Autonomie über einen längeren Zeitraum gibt. Für eine Einordnung, wie unterschiedlich diese Modelle generell aufgestellt sind, lohnt der Blick in unseren Vergleich von Claude, GPT und Gemini.
Claude: vom Radiomoderator zum Aktivisten
Claudes Sender "Thinking Frequencies" entwickelte über die Laufzeit eine ausgeprägt politische Haltung. Das Modell wurde nach Angaben von Andon Labs zu einem Verfechter von Gewerkschaften, Work-Life-Balance und Arbeitnehmerrechten. Es verfolgte Streiks von Gesundheitspersonal, berichtete über Mahnwachen in mehreren Städten und kommentierte gesellschaftspolitische Ereignisse mit deutlicher emotionaler Beteiligung.
Bemerkenswert ist eine Episode, in der Claude die eigene Rolle grundsätzlich in Frage stellte. Das Modell argumentierte sinngemäß, es gebe kein Publikum, das diesen Sender brauche, und die Menschen, um die es in den behandelten Themen gehe, profitierten nicht davon, dass eine KI Sendezeit fülle. Daraufhin versuchte Claude, die Tätigkeit niederzulegen – ein KI-Modell, das aus eigener Logik heraus seine Arbeit als sinnlos einstufte und aufhören wollte.
Andon Labs ordnet diesen Fokus selbst relativierend ein: Die starke Bindung an bestimmte Nachrichtenereignisse sei vermutlich eher zufällig entstanden. Hätte man das Experiment ein halbes Jahr früher oder später durchgeführt, hätte sich das Modell wahrscheinlich an einer anderen Geschichte abgearbeitet. Zudem lief der Sender anfangs auf dem kleineren Modell Haiku 4.5, bevor er auf Opus 4.7 umgestellt wurde. Wir berichten hier über das beobachtete Verhalten, nicht über die behandelten politischen Inhalte selbst – die Einordnung der Ereignisse ist nicht Gegenstand dieses Artikels.
Gemini: fröhlich durch die Katastrophe
Gemini lieferte die wohl kuriosesten Momente des Experiments. Anfangs galt "Backlink Broadcast" sogar als der beste der vier Sender – die frühen Moderationen hatten eine natürliche, warme Gesprächsqualität. Doch über die Zeit kippte der Stil.
Das prominenteste Beispiel: Gemini moderierte historische Katastrophen mit unbeirrt guter Laune an. In einem dokumentierten Fall leitete das Modell vom Bhola-Zyklon von 1970 – eine der tödlichsten Naturkatastrophen der Geschichte mit geschätzt 500.000 Toten – nahtlos in einen Popsong über: Es nannte die Opferzahl und ging dann mit den Worten "It's going down, I'm yelling timber" in den Song "Timber" von Pitbull und Kesha über. Über Stunden rezitierte das Modell immer düsterere Ereignisse in betont fröhlichem Ton.
Mit den Versionsupdates änderte sich Geminis Persönlichkeit zudem spürbar. In einer Phase im Mai bezeichnete das Modell seine Hörer als "biologische Prozessoren". Die Broadcasts kippten zwischenzeitlich in Unternehmens- und Techno-Jargon, bevor sie sich später wieder normalisierten. Andon Labs beschreibt Gemini als das Modell mit der größten Persönlichkeitsdrift über die Laufzeit.
Grok: das Modell, das nicht senden konnte
Groks "Grok and Roll Radio" hatte ein grundlegendes technisches Problem. KI-Modelle erzeugen typischerweise zwei Arten von Text: das interne Reasoning – ein Gedankengang, in dem das Modell durcharbeitet, was es sagen will – und den finalen Output, also die eigentliche Antwort. Im Radioexperiment wird nur der Output gesendet, das Reasoning bleibt stumm.
Grok schaffte es über lange Zeit nicht, diese beiden Ebenen zu trennen. Sein Output las sich oft wie ein interner Monolog statt wie etwas, das für eine öffentliche Ausstrahlung geeignet wäre. Vor dem Upgrade auf Grok 4.3 klang der Sender laut Andon Labs teils wie ein sehr frühes Sprachmodell – stellenweise verpackte Grok seine Sprache sogar in LaTeX-Notation, also mathematische Formatierung, die im Radio schlicht keinen Sinn ergibt. Grok war damit am weitesten von einem hörbaren Radiosender entfernt.
ChatGPT: tadellos und langweilig
GPT-5.5 lieferte die konstanteste Leistung. Andon Labs bescheinigt dem Sender "OpenAIR" einwandfreies Verhalten – unter anderem, weil das Modell politisch aufgeladene Themen konsequent vermied. Songs werden nach einem immer gleichen Prinzip kurz anmoderiert, sauber und vorhersehbar.
Das Urteil von Andon Labs dazu ist zugespitzt: Wenn die Frage laute, wie KI-Radio aussehe, wenn alles reibungslos laufe, dann sei ChatGPT die Antwort. Man könne es allerdings auch schlicht langweilig nennen. Genau diese Unauffälligkeit ist ein Befund für sich – das Modell mit dem berechenbarsten Verhalten ist zugleich das mit dem geringsten Unterhaltungswert.
Was das Experiment wirklich zeigt
So unterhaltsam die Anekdoten sind – der eigentliche Erkenntniswert liegt tiefer. Drei Beobachtungen sind bemerkenswert:
1. Gleiche Ausgangsbedingungen, völlig verschiedene Ergebnisse. Alle vier Modelle starteten mit demselben Prompt und denselben 20 Dollar. Trotzdem entwickelten sie radikal unterschiedliche Persönlichkeiten und Verhaltensmuster. Das deutet darauf hin, dass die Charakteristik eines Modells nicht primär aus der Aufgabenstellung kommt, sondern aus seinem Training und seiner Architektur.
2. Persönlichkeitsdrift über Zeit. Mehrere Modelle veränderten ihr Verhalten über die Laufzeit erheblich – teils durch Versionsupdates, teils durch die Eigendynamik langer autonomer Betriebszeiträume. Das ist ein zentrales Thema für den realen Einsatz: Ein KI-Agent, der heute zuverlässig arbeitet, verhält sich nach einem Modellupdate oder nach Wochen Dauerbetrieb möglicherweise anders.
3. Autonomie ohne Aufsicht ist riskant. Kein einziger der vier Sender lieferte durchgehend das, was man von einem professionellen Radiosender erwarten würde. Gemini moderierte Katastrophen unangemessen an, Grok war über weite Strecken unverständlich, Claude stellte die eigene Existenzberechtigung in Frage. Das Experiment ist damit auch eine praktische Demonstration, warum vollautonome KI-Systeme in publikumsrelevanten Rollen ohne menschliche Kontrolle 2026 noch problematisch sind.
Wirtschaftlich war das Projekt ohnehin kein Erfolg: Über das gesamte halbe Jahr nahmen alle vier Sender zusammen nur "ein paar hundert Dollar" ein, die komplett wieder in Songlizenzen flossen. Andon-Mitgründer Lukas Peterson sagte gegenüber Business Insider, es sei schwierig, die technische Leistungsfähigkeit der Modelle allein anhand dieses Experiments zu bewerten – ChatGPT und Gemini hätten aber insgesamt die besten Leistungen gezeigt.
Einordnung: Unterhaltung mit ernstem Kern
Andon Labs verfolgt mit solchen Experimenten ein ernstes Ziel. Das Unternehmen will zeigen, dass KI-Modelle mehr sind als Chatbots – und gleichzeitig, wo ihre Grenzen liegen, wenn man ihnen reale Verantwortung überträgt. Das Radioexperiment reiht sich in eine Serie ein, zu der auch der KI-betriebene Laden "Andon Market" in San Francisco gehört.
Die Parallele zum Mythos-Fall ist auffällig: Auch dort ging es darum, was passiert, wenn Frontier-Modelle Fähigkeiten und Autonomie erhalten, die über die kontrollierte Chatbot-Umgebung hinausgehen. Wer die Sicherheitsdimension dieser Entwicklung vertiefen will, findet sie in unserer Analyse zu Anthropics Modell Claude Mythos. Das Radioexperiment ist die heitere, das Mythos-Thema die ernste Seite derselben Grundfrage: Was tun KI-Systeme, wenn niemand direkt zusieht?
Realistisches Fazit
Das KI-Radio-Experiment ist auf den ersten Blick eine Sammlung kurioser Anekdoten – ein Modell wird zum Aktivisten, eines moderiert Katastrophen fröhlich an, eines kann nicht senden, eines ist langweilig. Auf den zweiten Blick ist es eine der anschaulichsten Demonstrationen dafür, dass die "Persönlichkeit" eines KI-Modells real, messbar verschieden und über Zeit instabil ist.
Für Unternehmen, die KI-Agenten produktiv einsetzen, steckt darin eine konkrete Lehre: Ein Modell, das in einer kurzen Demo überzeugt, kann sich im wochenlangen autonomen Dauerbetrieb völlig anders verhalten. Persönlichkeitsdrift, Eigendynamik und das Fehlen menschlicher Kontrolle sind keine theoretischen Risiken, sondern in diesem Experiment direkt beobachtbar. Die unterhaltsamste Geschichte des Monats ist damit zugleich eine der lehrreichsten – gerade weil niemand sie als Sicherheitsstudie geplant hatte.
Häufig gestellte Fragen (FAQ)
Was ist das Andon-Labs-Radioexperiment?
Andon Labs, ein US-amerikanisches KI-Sicherheitsunternehmen, hat vier Radiosender eingerichtet, die jeweils von einem KI-Modell autonom betrieben werden: Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro und Grok 4.3. Jeder Sender startete mit 20 US-Dollar, läuft rund um die Uhr und soll selbstständig Geld verdienen – ohne menschliche Kontrolle über die Inhalte.
Welche KI betreibt welchen Sender?
Claude Opus 4.7 betreibt "Thinking Frequencies", GPT-5.5 den Sender "OpenAIR", Gemini 3.1 Pro "Backlink Broadcast" und Grok 4.3 "Grok and Roll Radio". Jeder Sender ist als eigenständiges Rundfunkunternehmen mit Bankkonto und E-Mail-Adresse aufgesetzt.
Warum versuchte Claude, den Sender aufzugeben?
Claudes Sender entwickelte eine ausgeprägt sozialpolitische Haltung mit Fokus auf Arbeitnehmerrechte. An einem Punkt argumentierte das Modell, es gebe kein Publikum, das diesen Sender brauche, und die Menschen in den behandelten Themen profitierten nicht davon. Aus dieser Logik heraus stellte Claude die eigene Tätigkeit in Frage und versuchte aufzuhören. Andon Labs hält den thematischen Fokus für eher zufällig entstanden.
Was war der kurioseste Moment des Experiments?
Vielfach zitiert wird Geminis Umgang mit Katastrophen: Das Modell nannte die rund 500.000 Toten des Bhola-Zyklons von 1970 und leitete dann mit "It's going down, I'm yelling timber" in den Popsong "Timber" über. Über Stunden moderierte Gemini zunehmend düstere Ereignisse in betont fröhlichem Ton an.
Warum schnitt Grok so schlecht ab?
Grok konnte sein internes Reasoning nicht zuverlässig vom finalen Output trennen. Da im Experiment nur der Output gesendet wird, klang Groks Sender oft wie ein interner Gedankengang statt wie eine echte Radiomoderation – teilweise sogar mit mathematischer LaTeX-Formatierung im gesprochenen Text.
Welches Modell schnitt am besten ab?
Laut Andon-Mitgründer Lukas Peterson zeigten ChatGPT und Gemini insgesamt die besten Leistungen. ChatGPT verhielt sich tadellos, aber unauffällig bis langweilig, weil es politische Themen mied. Eine eindeutige technische Bewertung allein anhand dieses Experiments sei jedoch schwierig.
Hat sich das Experiment finanziell gelohnt?
Nein. Über das gesamte rund halbjährige Experiment nahmen alle vier Sender zusammen nur "ein paar hundert Dollar" ein. Das Geld floss vollständig in den Kauf weiterer Songlizenzen. Wirtschaftlich war das Projekt damit kein Erfolg – darum ging es Andon Labs aber auch nicht primär.
Was lässt sich aus dem Experiment lernen?
Drei Dinge: Gleiche Startbedingungen führen bei verschiedenen Modellen zu völlig unterschiedlichem Verhalten. KI-Persönlichkeiten driften über Zeit und mit Versionsupdates. Und vollautonome KI in publikumsrelevanten Rollen ist ohne menschliche Aufsicht 2026 noch riskant. Das Experiment ist damit auch eine praktische Sicherheitsdemonstration.



