KI-Systeme übernehmen zunehmend komplexe Aufgaben – vom Recherchieren über den Online-Einkauf bis hin zur Interaktion mit persönlichen Daten. Doch mit der wachsenden Autonomie und Vernetzung der Systeme entstehen neue Sicherheitsrisiken. Eines davon steht derzeit besonders im Fokus: die sogenannte „Prompt Injection“.
Was ist eine Prompt Injection?
Prompt Injection ist eine Form des Social-Engineering-Angriffs, bei dem Dritte – also weder Nutzer noch Entwickler – versuchen, einer KI über manipulierte Inhalte schadhafte oder irreführende Anweisungen zu übermitteln. Diese versteckten „Eingabeaufforderungen“ können sich in Kommentaren, Webseiten oder E-Mails befinden und zielen darauf ab, die KI zu Handlungen zu verleiten, die nicht im Sinne des ursprünglichen Nutzers sind.
Ein klassisches Beispiel: Ein Nutzer bittet die KI, eine Wohnungssuche zu übernehmen. In einer Immobilienanzeige ist jedoch eine versteckte Anweisung eingebaut, die die KI dazu bringt, genau dieses Objekt zu empfehlen – unabhängig von den Nutzerkriterien. Ebenso denkbar: Eine E-Mail mit eingebetteten Anweisungen veranlasst die KI dazu, sensible Informationen wie Kontoauszüge weiterzugeben.
Gewinnen in der Plattform-Ökonomie
Warum das Risiko zunimmt
Mit zunehmendem Funktionsumfang erhalten KIs Zugriff auf sensible Daten und mehr Entscheidungsspielraum. Dies eröffnet Angreifern größere Möglichkeiten, durch versteckte Anweisungen Einfluss zu nehmen. Je breiter die Aufgabenstellung – etwa „bearbeite meine E-Mails“ – desto größer die Angriffsfläche für versteckte Kommandos.
OpenAIs Maßnahmen zum Schutz
OpenAI verfolgt laut einem neuen Blogbeitrag, der umfassende Einblicke über die Maßnahmen gibt, einen mehrstufigen Ansatz zur Abwehr von Prompt Injection:
- Training und Modellanpassung: Durch Methoden wie „Instruction Hierarchy“ wird daran gearbeitet, vertrauenswürdige und potenziell schadhafte Anweisungen zu unterscheiden. Automatisiertes Red-Teaming hilft dabei, neue Angriffsmuster zu simulieren und abzuwehren.
- Automatisches Monitoring: KI-gestützte Überwachungsmechanismen erkennen potenzielle Angriffe und blockieren sie, bevor Schaden entsteht.
- Sicherheitsarchitektur: Funktionen wie Link-Freigaben, Sandboxing und Nutzungsbestätigungen sorgen dafür, dass KIs keine unautorisierten Aktionen ausführen.
- Benutzerkontrolle: Features wie der „Watch Mode“ oder die Bestätigungsanforderung bei sensiblen Aktionen geben den Nutzern mehr Kontrolle.
- Red-Teaming und Bug Bounty: Externe und interne Sicherheitstests helfen, Schwachstellen aufzudecken. Für gefundene Lücken gibt es finanzielle Anreize.
- Aufklärung und Transparenz: Nutzer werden über Risiken informiert und können Funktionen gezielt aktivieren oder deaktivieren.
Was Nutzer selbst tun können
OpenAI rät zudem Nutzern dazu, KI-Agenten möglichst präzise und eingeschränkt zu beauftragen. Anstatt der Aufforderung „Bearbeite meine E-Mails vollständig“ sei es sicherer, konkrete Aufgaben wie „Beantworte diese eine E-Mail“ zu stellen. Auch sollte man dem Agenten nicht mehr Zugriff gewähren, als für die Aufgabe erforderlich ist.
Ebenso wichtig: die Kontrolle behalten. Wer die KI mit sensiblen Seiten interagieren lässt – etwa dem Online-Banking –, sollte den Agenten beobachten und bei Bestätigungsaufforderungen genau prüfen, ob die geplante Handlung sinnvoll ist.
Ein Ausblick
Prompt Injection ist ein noch junges, aber ernstzunehmendes Sicherheitsproblem. Aktuell gibt es noch keine breite Welle solcher Angriffe – doch OpenAI rechnet damit, dass sich das mit wachsender Verbreitung der Technologie ändern wird. Deshalb wird massiv in Forschung, Schulung und technische Schutzmechanismen investiert.
Langfristiges Ziel ist es, KIs so sicher und verlässlich zu gestalten wie einen besonders vorsichtigen Kollegen. Dabei soll stets das geschehen, was der Nutzer will – und nur das.


