Chatbots wie ChatGPT nutzen Medieninhalte, um Antworten zu generieren. Vor allem rechte Medien lassen das zu – mit gravierenden Folgen.
Frankfurt – Mehr als jeder zweite Deutsche nutzt Sprachassistenten, jedes sechste deutsche Unternehmen plant, KI-Anwendungen zur Textgenerierung einzusetzen, und die Hälfte der deutschen Schülerinnen und Schüler haben schon einmal ChatGPT benutzt. Das sind Zahlen aus dem Jahr 2023 – es besteht also die hohe Wahrscheinlichkeit, dass diese Anteile noch gewachsen sind.
Klar ist: Künstliche Intelligenz findet großen Anklang im täglichen Gebrauch. Doch schützen sich inzwischen zunehmend Medienunternehmen davor, als Quelle für Trainingsdaten von KI-Chatbots herzuhalten. Das gilt vor allem für liberal einzustufende Nachrichtenseiten – ihre rechtsgerichteten Pendants lassen KI-Crawler hingegen in den meisten Fällen noch zu. Was kann das für Auswirkungen auf die Ergebnisse von viel benutzten KI-Chatbots haben?
Aus Urheberrechtsgründen: Medienhäuser verbieten KI-Crawlern das Trainieren mit ihren Daten
Große Sprachmodelle wie OpenAIs ChatGPT oder Googles Gemini werden anhand von einer schier unermesslichen Anzahl von Daten trainiert, die sogenannte Crawler von Internetseiten extrahieren. Die Websites können sich allerdings dazu entscheiden, die Crawler zu blockieren, sodass diese keinen Zugang mehr zu ihren Daten haben. Diesen Schritt sind seit August 2023 – nachdem OpenAI und kurz darauf auch Google für ihr KI-Modell Bard (inzwischen „Gemini“) Anweisungen gaben, wie man ihre Webcrawler blockiert – sehr viele Medienunternehmen auf der ganzen Welt gegangen.
Der Grund dafür ist simpel: Nachrichtenverleger argumentieren, dass KI-Chatbots gegen das Urheberrecht verstoßen, wenn sie Artikel ohne Erlaubnis oder finanzielle Kompensation für ihr Training nutzen und diese Artikel unter Umständen in ihren Ergebnissen reproduzieren. Die amerikanische Handelsgruppe News Media Alliance, die neben der New York Times über 2200 andere Verlage vertritt, machte das Problem anhand einer Studie deutlich. Demzufolge verwenden KI-Entwickler Nachrichteninhalte überproportional im Vergleich zu generischen Online-Inhalten, um ihre Chatbots zu trainieren. Aus dem Grund hat auch die New York Times bereits eine Klage gegen OpenAI und Microsoft eingereicht.
New York Times und The Guardian blockieren KI: Wie beeinflussen die Medien KI-Chatbots?
Viele Medienunternehmen haben aus dieser Entwicklung also ihre Konsequenz gezogen: Wie eine Studie des KI-Startups „Originality AI“ Anfang dieses Jahres ergeben hat, blockieren über 88 Prozent der 44 führenden Nachrichtenseiten in den USA Webcrawler von KI-Unternehmen. Dazu gehören New York Times, Washington Post und Guardian. Ein bestimmter Sektor in der Medienwelt glänzt auf dieser Liste allerdings mit Abwesenheit: die eher rechten Medien. Keiner der neun untersuchten führenden rechten Nachrichtenseiten, zu denen in den USA Fox News, Daily Caller und Breitbart gehören, blockierte zum Zeitpunkt der Erhebung laut der Computerzeitschrift Wired KI-Webcrawler. Zufall? Oder wollen rechte Medien die KI-Chatbots bewusst mit ihren Inhalten beeinflussen?
Könnten KI-Modelle, die hauptsächlich von rechtsgerichteten Medienplattformen trainiert werden, überhaupt eine einseitige oder verzerrte Informationsquelle darstellen? „Ja“, antwortet Dr. Oliver Eberle, Wissenschaftler am Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin, auf Anfrage von IPPEN.MEDIA. „Was KI-Modelle lernen, hängt direkt damit zusammen, welche Daten als Trainingsmaterial zur Verfügung stehen.“
KI und Medien: Eine Frage der politischen Ausrichtung?
Es gebe ihm zufolge momentan auch keine Garantien dafür, sicherzustellen, dass KI-Werkzeuge politisch neutrale Antworten liefern. Aber: „Mittels speziellen Datensätzen kann jedoch die politische Prägung eines KI-Modells evaluiert werden. Gleichzeitig ist bekannt, dass beispielsweise die Antworten von KI-Bots durch gezieltes Anpassen der benutzten Prompts stark beeinflussbar sind“, erklärt Dr. Eberle.
Auch wenn sich die Trainingsdaten also von Userinnen und Usern nicht ändern lassen, so können Nutzende von KI-Chatbots ihre Antworten anhand der genauen Beschreibung ihrer Befehle (Prompts) an die KI selber steuern. Außerdem gibt Jeremy Baum, ein KI-Ethikforscher an der Universität UCLA, gegenüber Wired zu Bedenken, ob rechte Seiten, die KI-Crawler nicht blockieren, überhaupt einen messbaren Effekt auf die Ergebnisse fertiger KI-Systeme wie Chatbots haben würden. Dagegen spreche unter anderem die schiere Menge an älterem Material, das KI-Unternehmen bereits von Mainstream-Nachrichtenagenturen vor dem Blocken der KI-Crawler gesammelt hätten.
Welche Medien blockieren KI-Crawler in Deutschland?
In Deutschland blockierten laut einer Studie vom Reuters Institute bis Ende 2023 etwa 60 Prozent der 15 meistgenutzten Nachrichtenseiten die KI-Crawler von OpenAI und Google. Der Datenjournalist Ben Welsh führt darüber hinaus eine ständig aktualisierte Liste mit Nachrichten-Websites, die KI-Crawler von OpenAI, Google und den sogenannten Common Crawl blockieren. Von den deutschen Nachrichtenseiten unterbinden demnach aktuell Bild, Spiegel, Stern sowie Die Zeit alle drei KI-Crawler, die Süddeutsche Zeitung blockiert OpenAI und Google AI, während die Deutsche Welle sowie der MDR Sachsen-Anhalt alle drei Crawler auf ihren Seiten zulassen.
In Deutschland scheint es statt einem politischen Zusammenhang also eher eine Korrelation zwischen dem Blockieren von KI-Crawlern und der Finanzierung der Medienhäuser zu geben, da die untersuchten öffentlich-rechtlichen Medien die Crawler alle nicht aufhalten – privat finanzierte Zeitungen und Zeitschriften allerdings schon.