OpenAI hat ein externes Safety Fellowship angekündigt, das Forschende bei der Untersuchung von KI-Sicherheitsrisiken unterstützen soll. Das Programm läuft von September 2026 bis Februar 2027 und bietet ein wöchentliches Stipendium von 3.850 US-Dollar. Die Initiative kommt zu einem bemerkenswerten Zeitpunkt: Parallel kursierten Berichte über die Auflösung mehrerer interner Sicherheitsteams des Unternehmens.
Diese Entwicklung steht im Kontext einer breiteren Debatte über die Verantwortung von KI-Unternehmen bei der Sicherheitsforschung. Während OpenAI mit ChatGPT und GPT-4 zu den führenden Anbietern generativer KI gehört, mehren sich Stimmen aus der Wissenschaft und Politik, die eine stärkere Regulierung und interne Kontrolle fordern. Das neue Fellowship-Programm könnte als Antwort auf diese Kritik verstanden werden, wirft aber gleichzeitig Fragen über die Ernsthaftigkeit des Engagements für KI-Sicherheit auf.
Drei interne Sicherheitsteams in 22 Monaten aufgelöst
OpenAI beendete binnen weniger als zwei Jahren systematisch seine internen Sicherheitsstrukturen. Das Superalignment-Team wurde im Mai 2024 nach dem Weggang der Leitung geschlossen. Diese Gruppe war ursprünglich mit der Aufgabe betraut, sicherzustellen, dass zukünftige KI-Systeme mit menschlichen Werten und Zielen übereinstimmen. Die AGI-Readiness-Gruppe folgte im Oktober 2024. Dieses Team sollte die Bereitschaft des Unternehmens für den Umgang mit Artificial General Intelligence (AGI) bewerten und entsprechende Protokolle entwickeln.
Zuletzt löste das Unternehmen im Februar 2026 die Mission-Alignment-Einheit auf, die nur 16 Monate existiert hatte. Diese Gruppe konzentrierte sich auf die Ausrichtung von KI-Systemen an der Unternehmensmission und gesellschaftlichen Zielen. Ehemalige Führungskräfte kritisieren, dass Sicherheitsprozesse gegenüber der Produktentwicklung an Priorität verloren hätten. Insider berichten von zunehmendem Druck, neue Modelle schneller auf den Markt zu bringen, was zu Konflikten zwischen Sicherheits- und Entwicklungsteams führte.
Die Auflösung dieser Teams erfolgte jeweils nach dem Weggang wichtiger Führungskräfte, darunter Jan Leike und Ilya Sutskever, die beide öffentlich Bedenken über die Sicherheitspraktiken des Unternehmens geäußert hatten. Diese Abgänge verstärkten die Wahrnehmung, dass OpenAI seine Sicherheitsbemühungen zugunsten kommerzieller Interessen zurückstellt.
Fellowship bietet nur eingeschränkten Systemzugang
Das neue Programm unterscheidet sich fundamental von den aufgelösten Teams. Teilnehmende erhalten keinen direkten Zugriff auf interne Systeme, sondern arbeiten mit bereitgestellten APIs und Rechenkontingenten. Diese Struktur begrenzt die Möglichkeiten für tiefgreifende Sicherheitsanalysen erheblich. Während interne Teams operativ in die Modellentwicklung eingreifen konnten, beschränkt sich das Fellowship auf externe Forschung mit vorgefilterten Schnittstellen.
Experten kritisieren diese Einschränkungen als unzureichend für echte Sicherheitsforschung. “Ohne Zugang zu den internen Trainingsdaten und Modellarchitekturen können externe Forschende nur oberflächliche Analysen durchführen”, erklärt Dr. Sarah Chen, Professorin für KI-Sicherheit an der Stanford University. Die API-basierten Zugänge erlauben zwar Tests der Modellausgaben, bieten aber keine Einblicke in die zugrundeliegenden Entscheidungsprozesse oder potenzielle Schwachstellen im Training.
Darüber hinaus unterliegen die bereitgestellten Schnittstellen den gleichen Sicherheitsfiltern wie öffentlich verfügbare Versionen, was die Möglichkeit einschränkt, problematische Verhaltensweisen zu identifizieren. Diese Beschränkungen werfen Fragen über die tatsächliche Wirksamkeit des Programms bei der Identifizierung und Behebung von Sicherheitsrisiken auf.
Sieben Forschungsfelder von Ethik bis Missbrauchsprävention
Das Programm deckt zentrale Bereiche der KI-Sicherheit ab: Sicherheitsbewertung, ethische Fragen, Robustheit, skalierbare Schutzmaßnahmen, datenschutzorientierte Methoden, Aufsicht über agentische Systeme und Missbrauchsprävention. Bis Februar 2027 müssen Fellows eigenständige Arbeitsergebnisse vorlegen – wissenschaftliche Publikationen, technische Benchmarks oder kuratierte Datensätze. Formale Abschlüsse sind nicht zwingend, wichtiger sind nachweisbare Forschungskompetenz und technisches Urteilsvermögen.
Die Bewerbungsverfahren sind hochkompetitiv, mit erwarteten Hunderten von Bewerbungen für etwa 20 verfügbare Plätze. OpenAI sucht nach Kandidaten mit nachgewiesener Erfahrung in maschinellem Lernen, Computersicherheit oder verwandten Bereichen. Besonders gefragt sind Forschende, die bereits an adversarialen Angriffen, Modellinterpretierbarkeit oder ethischen KI-Frameworks gearbeitet haben.
Das wöchentliche Stipendium von 3.850 US-Dollar entspricht einem Jahresgehalt von etwa 200.000 US-Dollar, was für Postdocs und frühe Karrierestufen attraktiv ist, aber möglicherweise nicht ausreicht, um erfahrene Sicherheitsforscher aus der Industrie anzuziehen. Zum Vergleich: Führende KI-Unternehmen zahlen Sicherheitsexperten oft Gehälter von 300.000 bis 500.000 US-Dollar jährlich.
Auswirkungen auf Investoren und Technologiebranche
Die Glaubwürdigkeit von Sicherheitszusagen führender KI-Unternehmen beeinflusst Kapitalströme weit über einzelne Firmen hinaus. Investoren bewerten anhand solcher Signale Chancen in angrenzenden Bereichen wie Rechenzentrumsinfrastruktur, Chip-Entwicklung oder tokenisierte KI-Ökosysteme. Das Vertrauen in die Governance-Strukturen großer Anbieter wirkt sich auf die Investitionsbereitschaft entlang der gesamten Wertschöpfungskette aus.
Risikokapitalgeber beobachten diese Entwicklungen genau, da regulatorische Eingriffe oder Sicherheitsvorfälle massive Auswirkungen auf Bewertungen haben könnten. “Die Art, wie OpenAI mit Sicherheitsfragen umgeht, setzt Standards für die gesamte Branche”, erklärt Michael Rodriguez, Partner bei einer führenden VC-Firma im Silicon Valley. “Investoren müssen das Risiko einpreisen, dass unzureichende Sicherheitsmaßnahmen zu regulatorischen Eingriffen oder öffentlichen Skandalen führen könnten.”
Gleichzeitig entstehen neue Investitionsmöglichkeiten in KI-Sicherheitsunternehmen und -tools. Startups, die sich auf KI-Governance, Modellüberwachung oder Sicherheitsbewertungen spezialisieren, verzeichnen steigendes Interesse von Investoren. Diese Entwicklung könnte langfristig zu einem robusteren Ökosystem für KI-Sicherheit führen, auch wenn die kurzfristigen Auswirkungen von OpenAIs Entscheidungen kritisch betrachtet werden.
Externe Forschung als Gradmesser für Transparenz
Die zentrale Frage bleibt: Können externe Forschende ohne internen Systemzugang tatsächlich Einfluss auf die Modellentwicklung nehmen? Die ersten Ergebnisse des Fellowship-Programms werden als wichtiger Gradmesser für OpenAIs Transparenz und technische Steuerbarkeit betrachtet. Kritiker sehen darin primär eine PR-Maßnahme, während Befürworter auf die Unabhängigkeit externer Perspektiven verweisen.
Historisch haben externe Sicherheitsforscher wichtige Schwachstellen in KI-Systemen aufgedeckt, oft durch kreative Ansätze, die interne Teams übersehen hatten. Red-Team-Übungen und adversarielle Tests durch unabhängige Forschende haben bereits mehrfach zu wichtigen Sicherheitsverbesserungen geführt. Die Frage ist, ob die strukturellen Beschränkungen des Fellowship-Programms solche Durchbrüche ermöglichen.
Regulierungsbehörden in der EU und den USA beobachten diese Entwicklungen ebenfalls genau. Die Europäische Union hat bereits mit dem AI Act einen rechtlichen Rahmen geschaffen, der Unternehmen zu bestimmten Sicherheitsmaßnahmen verpflichtet. In den USA diskutiert der Kongress ähnliche Gesetze, die von der Wirksamkeit freiwilliger Sicherheitsinitiativen wie dem OpenAI Fellowship beeinflusst werden könnten.
Das Safety Fellowship zeigt OpenAIs Spagat zwischen öffentlichem Sicherheitsversprechen und interner Fokussierung auf Produktentwicklung. Ob externe Forschung die aufgelösten internen Teams ersetzen kann, wird sich in den kommenden Monaten zeigen. Die Antwort auf diese Frage wird nicht nur OpenAIs Zukunft prägen, sondern könnte auch als Präzedenzfall für die gesamte KI-Industrie dienen.