Navigation und Service

Imitation sowie Identifikation von Personen durch Analyse von Text mithilfe verschiedener KI-Sprachmodelle

Hintergrund:

Seit einigen Jahren werden immer größere und mächtigere Sprachmodelle von verschiedensten Unternehmen und Ländern entwickelt. Diese Sprachmodelle basieren auf speziellen Algorithmen aus dem Gebiet der Künstlichen Intelligenz. Sie können genutzt werden um Texte zu generieren, Fragen zu beantworten oder sogar Programmcode zu entwickeln. Viele dieser Sprachmodelle werden bereits nach kurzer Zeit der Öffentlichkeit zugänglich gemacht. Im Referat D 11 beschäftigen wir uns unter anderem mit dem sprachlichen Identitätsmerkmal eines Menschen (SIM) mithilfe dessen eine Person identifiziert bzw. authentisiert werden kann. Dies umfasst den Sprachstil wie z.B. die Wortwahl, Länge und Aufbau der Sätze sowie den sprachlichen Inhalt, der für eine Person charakteristisch ist. Mögliche Bedrohungen und Gefahren in Hinblick auf SIM, die im Bereich Natural Language Processing (NLP) existieren oder entstehen, liegen daher im Fokus unserer Arbeit. Daraus ergeben sich verschiedenste offene Fragestellungen die im Rahmen von studentischen Arbeiten untersucht werden können.

Mögliche Aufgabenfelder:

  • Beiträge zu Angriffen auf automatisierte und nicht automatisierte SIM Erkennung: Machbarkeitsanalyse der Imitation von Personen in der Text-Domäne (z.B. durch Imitation von Schreibstilen) mittels moderner Sprachmodelle oder ggf. anderer Techniken
  • Beiträge zur Entwicklung einer SIM-basierten Biometrie: Zuordnung von Texten zu den entsprechenden Autoren (Authorship Attribution) z.B. durch Stilanalyse oder andere Techniken aus der Linguistik oder der Künstlichen Intelligenz
  • Beiträge zu Gegenmaßnahmen gegen Angriffe auf SIM Erkennung: Detektion von künstlich generierten Texten die versuchen die „Textuelle Identität“ von Personen zu imitieren
  • Beiträge zur Verstehbarkeit/Interpretierbarkeit: Analyse der Algorithmen im Hinblick auf spezifische Merkmale, die letztendlich zu einer Identifikation bzw. Fälschung einer „textuellen Identität“ geführt haben

Art der Arbeit:
Praktikum; Bachelorarbeit; Masterarbeit
Nützliche Vorkenntnisse:
abhängig von der Aufgabenstellung: Python, Pytorch oder Tensorflow, Scikit-learn sowie theoretisches Hintergrundwissen über Künstliche Intelligenz (insbesondere Deep Learning) und/oder Linguistik
Studienrichtung:
Informatik, Technische Informatik, Physik, Mathematik, Linguistik
Ansprechpartner/-in:
Britta Sennewald, Rainer Plaga, Prof. Markus Ullmann
Referat D 11: Bewertungsverfahren für Anwendungen von eID-Technologien