Blog

PII-Anonymisierung für LLM-APIs: Technischer Leitfaden

·10 Min. Lesezeit

Die technische Umsetzung von PII-Anonymisierung für LLM-APIs folgt einem klar definierten Pipeline-Ansatz. Der Prozess besteht aus vier Phasen: Erkennung, Anonymisierung, Übermittlung und Re-Substitution.

Phase 1 — Erkennung: Named Entity Recognition (NER) identifiziert personenbezogene Entitäten im Text. Moderne NER-Modelle wie spaCy mit dem deutschen Modell "de_core_news_lg" erkennen Personen (PER), Orte (LOC), Organisationen (ORG) und verschiedene andere Kategorien. Für spezifische PII-Typen wie IBANs, Steuer-IDs, Telefonnummern und E-Mail-Adressen kommen regelbasierte Recognizer mit regulären Ausdrücken zum Einsatz.

Phase 2 — Pseudonymisierung: Erkannte Entitäten werden durch HMAC-SHA256-gesicherte Platzhalter ersetzt. Der HMAC-Schlüssel ist tenant-spezifisch und session-bezogen. Damit ist sichergestellt, dass derselbe Klartext in verschiedenen Sessions unterschiedliche Platzhalter erzeugt — eine Re-Identifikation durch Dritte ist technisch ausgeschlossen.

Phase 3 — LLM-Übermittlung: Der anonymisierte Text wird an den LLM-Provider gesendet. Das Modell arbeitet mit den Platzhaltern, gibt aber konsistente Antworten zurück, da identische Entitäten innerhalb einer Session denselben Platzhalter erhalten.

Phase 4 — Re-Substitution: Die LLM-Antwort wird nach dem Empfang de-anonymisiert. Ein Mapping-Store (Redis mit TTL) hält die Platzhalter-Klartext-Zuordnung für die Dauer der Session.

Bereit für DSGVO-konforme KI-Nutzung?

Anoniq anonymisiert alle personenbezogenen Daten automatisch bevor sie an LLM-Provider gesendet werden. OpenAI-kompatible API, keine Code-Änderungen nötig.