KI-Trainingsdaten

Trainingsdaten für KI-Systeme bestehen aus enormen Mengen von Bildern und Texten, zusammengesucht von Millionen von Webseiten. Datenjournalst:innen des BRs haben sich nun erstmalig den LAION-Datensatz angeschaut, der auch für das Training des KI-Bildgenerators „Stable Diffusion“ verwendet wird. Die Analyse der 5,8 Milliarden Bilder zeigt eindrücklich, dass die Trainingsdaten häufig sensible oder private Daten enthalten. Das Problem ist, dass die Betroffenen selten Bescheid wissen und wenig Chancen haben sich dagegen zu wehren.

Vorschaubild KI-Trainingsdaten
  • Storytelling
  • Design, Entwicklung
  • Bayerischer Rundfunk
  • Juli 2023

Links zum Projekt

Vorschaubild KI-Trainingsdaten