Licht auf versteckte Daten: Transparenzlücken beim Training von Sprachmodellen beseitigen

Lesezeit: 2 Minuten
Durch Johannes Müller
- in
KI-Datensatz mit Lupe und Scheinwerfer.

BerlinUm große Sprachmodelle zu trainieren, benötigen wir riesige Datensätze. Diese Datensätze stammen in der Regel aus verschiedenen Webquellen und werden zu großen Sammlungen kombiniert. Allerdings gehen dabei oft wichtige Informationen über die Herkunft der Daten und eventuelle Nutzungsbeschränkungen verloren. Diese Unklarheit ist ein großes Problem, da sie zu rechtlichen und ethischen Problemen führen und die Leistung des KI-Modells mindern kann. Zum Beispiel kann das Modell bei falscher Etikettierung für bestimmte Aufgaben schlecht funktionieren. Außerdem können Daten aus unbekannten Quellen Vorurteile mitbringen, was zu unfairen Vorhersagen führt.

Eine Forschergruppe von MIT und anderen Universitäten hat kürzlich eine gründliche Untersuchung durchgeführt und herausgefunden, dass:

  • Über 70% der 1.800 Textdatensätze fehlten teilweise Angaben zur Lizenzierung.
  • Bei rund 50% gab es Fehler in den Lizenzinformationen.
  • Die meisten Datenersteller stammen aus dem globalen Norden.
  • Die Einschränkungen für Datensätze haben in den letzten Jahren deutlich zugenommen.

Die Forscher haben ein Tool namens Data Provenance Explorer entwickelt. Dieses Tool erstellt automatisch einfache Zusammenfassungen darüber, wer einen Datensatz erstellt hat, woher er stammt, welche Lizenzen er besitzt und wie er genutzt werden kann.

Wenn Datensätze unklar oder unvollständig sind, können große Probleme entstehen. Zum Beispiel könnte ein Modell zur Beurteilung von Kreditanträgen voreingenommen sein, wenn die Daten nicht alle Personen genau repräsentieren. Dies könnte zu unfairen Kreditvergaben führen. Außerdem müssen Modelle möglicherweise entfernt werden, wenn sie private Informationen enthalten, was zu Zeit- und Arbeitsverlusten führen kann.

Das Transparenzproblem ist mehr als nur ein Ärgernis. Es können rechtliche Schwierigkeiten auftreten, wenn Datensätze mit missverstandenen oder ignorierten Lizenzbedingungen verwendet werden. Für die Glaubwürdigkeit und Wirksamkeit von KI-Modellen ist es entscheidend, dass Entwickler und Benutzer ihre Trainingsdaten nachvollziehen und bestätigen können.

Ein Team des MIT entdeckte, dass Datensätze, die hauptsächlich von Personen aus den USA oder China erstellt werden, oft wichtige kulturelle Details für andere Länder wie Türkei oder Brasilien übersehen. Dadurch wird es schwierig, diese KI-Modelle weltweit effektiv einzusetzen.

Die Forscher sind der Ansicht, dass Werkzeuge wie der Data Provenance Explorer Transparenzprobleme verringern können. Solche Werkzeuge liefern klare Informationen über Datensätze, was KI-Entwicklern ermöglicht, Entscheidungen zu treffen, die ethischen Standards und gesetzlichen Vorgaben entsprechen. Dies führt zu verantwortungsvolleren KI-Technologien, die fair, effizient und ihrem beabsichtigten Zweck entsprechend sind.

Die Bedeutung von Datenherkunft und Transparenz in der KI-Entwicklung wächst stetig. Im Zuge der wachsenden Anwendungsgebiete von KI ist es unverzichtbar, sicherzustellen, dass die Trainingsdaten gut dokumentiert und ethisch einwandfrei beschafft werden.

Die Studie wird hier veröffentlicht:

http://dx.doi.org/10.1038/s42256-024-00878-8

und seine offizielle Zitation - einschließlich Autoren und Zeitschrift - lautet

Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-8
Wissenschaft: Neueste Nachrichten
Weiterlesen:

Diesen Artikel teilen

Kommentare (0)

Kommentar veröffentlichen
NewsWorld

NewsWorld.app ist der kostenlose Premium-Nachrichtenseite in Deutschland. Wir bieten unabhängige und hochwertige Nachrichten, ohne pro Artikel zu berechnen und ohne ein Abonnementmodell. NewsWorld ist der Ansicht, dass allgemeine, geschäftliche, wirtschaftliche, technische und Unterhaltungsnachrichten auf hohem Niveau kostenlos zugänglich sein sollten. Darüber hinaus ist NewsWorld unglaublich schnell und verwendet fortschrittliche Technologie, um Nachrichtenartikel in einem äußerst lesbaren und attraktiven Format für den Verbraucher zu präsentieren.


© 2024 NewsWorld™. Alle Rechte vorbehalten.