Praktischer Ansatz zu den Urheberrechten bei generativer KI

2024-05-06

Die generative künstliche Intelligenz als Teilgebiet des maschinellen Lernens hat in den letzten Jahren mit den Systemen wie ChatGPT und Dall-E starke Popularität erreicht. Ob diese Systeme denken können oder nicht, ist dabei unerheblich. Durch ihre Fähigkeit, über eine Texteingabe (Prompt) in natürlicher Sprache mit den Menschen in einen Dialog zu treten, simulieren sie die menschliche Kommunikation ziemlich gut und produzieren dabei Texte und Bilder, die zwar eher konform als originell sind, die immer wieder wegen fehlendem realen Kontext seltsame Fehler produzieren, aber für den Alltagsgebrauch «gut genug» sind und sich deshalb für viele Anwendungen durchsetzen und viele menschlich produzierten Texte und Bilder verdrängen werden, weil sie aufgrund ihrer Rechenkapazität viel schneller und günstiger sind.

Im Gegensatz zu klassischen, regelbasierten Programmen haben diese Systeme keine problemspezifische, sondern nur eine generalistische Logik. Anders gesagt, wenn klassische Programme aus Regeln und Fragen Antworten produzieren, dann produziert maschinelles Lernen aus Daten und Antworten neue Regeln. Für die Maschinen selber ist dies kein prinzipieller Unterschied, da alle Computer letztlich aus elektronischen Schaltungen bestehen, die Wahrheitstabellen umsetzen. Für die Menschen sind aber die Wahrheitstabellen, die aus dem maschinellen Lernen entstehen, so komplex, dass sie nicht mehr nachvollzogen werden können. Dies führt dazu, dass wir diese Systeme manchmal als intelligent wahrnehmen. Wir werden einmal an den Punkt kommen, wo Psychologie und Ethnologie das Verhalten dieser Systeme besser beschreiben können als Informatik.

Eine unabdingbare Voraussetzung für diese Systeme ist jedoch ein Kanon von Quelltexten und Bildern (Input), die von Menschen hergestellt wurden. Anders können diese Systeme gar keine Texte und Bilder produzieren, die menschenähnlich sind. Wenn diese Systeme nicht nur für eine Kategorie von Werken (Sportresultate) ausgelegt sind, sondern als Generalisten jede Texteingabe beantworten müssen können (Aufsatz, Gedicht, Kochrezept, Stellenbewerbung), dann brauchen sie eine massive Anzahl von Quelltexten. Die aktuellen Systeme haben sich dabei der digitalisierten Weltkultur bedient, die auf dem Internet verfügbar ist. Zum Teil haben sie auf eigene Werke zurückgegriffen, zum Teil haben sie rechtefreie Werke benutzt (Projekt Gutenberg, Regulatorien der EU), zum Teil haben sie mit der Änderung der Geschäftsbedingungen sozialer Netzwerke die Nutzung aufgezwungen, zum Teil haben sie die Texte einfach geklaut.

Nebenbei erwähnt wäre das maschinelle Lernen nicht möglich ohne die Hilfe der Tausenden von Arbeiter:innen, die mehrheitlich in südlichen Staaten den Maschinen Klick für Klick beibringen, wie die Bilder den Texten zuzuordnen sind.

Die Kulturschaffenden wehren sich zu Recht gegen diese Nutzung, die von ihnen nicht autorisiert wurde. An dieser Stelle muss doch erwähnt werden, dass sich nicht alle Akteure einig sind, ob es eine Autorisierung braucht. Die japanische Gesetzgebung hat das maschinelle Lernen explizit erlaubt. Unklar ist, ob Data Mining nach europäischen Recht auch für maschinelles Lernen anwendbar ist. In der Schweiz wäre Data Mining wohl nicht für diesen Zweck erlaubt. Ebenfalls muss angemerkt, dass die Suchmaschinen wie Google seit 20 Jahren Werke auf dem Internet indexieren. Es gibt eine technische Massnahme, um sich davon auszunehmen (Opt -Out mit der robots.txt Datei), aber eine finanzielle Entschädigung des Inputs stand nicht zur Diskussion. Das EJPD arbeitet aber heute an einer Vergütung beim Output in Form eines Leistungsschutzrechts für die Zeitungsverlage.

Ebenfalls befinden sich die Kulturschaffenden auf beiden Seiten, da sie nicht nur Geschädigte, sondern auch Nutzende der generativen KI sind. Eine Regulierung sollte deshalb beim ökonomischen Transfer im grossen Stil ansetzen, aber eine einzelne Nutzung nicht ausschliessen.

Für die Politik ist bei der KI das Urheberrecht nur ein Nebenschauplatz. Dies hat durchaus eine Berechtigung, da Privatsphäre, Gouvernanz automatischer Entscheidungssysteme und Diskriminierungsschutz einen viel dringenderen Regulierungsbedarf haben. Das KI-Gesetz der EU widmet deshalb dem Urheberrecht nur zwei Artikel, die Transparenz beim Input und beim Output einfordern.

Die Kulturschaffenden haben sich deshalb auf einen einfachen Forderungskatalog geeinigt, der sich schlüssig mit dem Wort ART zusammenfassen lässt. A steht für Autorisierung, R für Remuneration und T für Transparenz.

  1. Autorisierung: Die Kulturschaffenden müssen die Möglichkeit haben, einer Indexierung zu widersprechen. Es muss ein Opt-In oder Opt-Out-Verfahren geben, dass technisch einfach umsetzbar ist.
  2. Remuneration: Die Verwendung der Werke muss abgegolten werden. Dies ist in der Masse nur über eine Kollektivverwertung umsetzbar.
  1. Transparenz: Werke, die mit AI hergestellt wurden, müssen als solche gekennzeichnet werden, und sie müssen auch die Quellen offenlegen.

Der letzte Punkt ist mit dem KI-Gesetz der EU für die Kennzeichnung erfüllt, für die Offenlegung der Quellen jedoch nur teilweise. Die KI-Systeme müssen nur offenlegen, welche Kategorien von Quellen sie benutzen, aber nicht die einzelnen Quelltexte.

Bei der Remuneration stellen sich zwei Fragen: Welches ist die Höhe der Entschädigung und wie wird sie verteilt?

Für die Höhe der Entschädigung gibt es in der Schweiz aus der Kollektivverwertung Erfahrungen wie bei der Leerträgerabgabe mit einem fixen Betrag, der auf das Volumen der Daten ansetzt, oder bei den Nebenrechten mit einem einstelligen Prozentsatz der Umsätze. Diese Teilfrage ist relativ einfach lösbar und hängt lediglich von den Kräfteverhältnissen im Parlament ab. Der ökonomische Bezug zwischen den Quelltexten und den Umsätzen der Systeme ist jedoch nachvollziehbar, und es lässt sich politisch vermitteln, dass dies eine Nutzung ist, die entschädigt werden muss.

Bei der Verteilung kann beim Input oder beim Output angesetzt werden. Setzt man beim Input an, wäre dies eine einmalige Entschädigung in dem Moment, wenn der Quelltext aufgezeichnet und indexiert wird. Diese Methode hat zwei Nachteile: Sie bezieht ein wahrscheinliches Wachstum der Umsätze dieser Systeme nicht ein und der Wert eines einzelnen Quelltextes lässt sich nicht beziffern. Die Länge eines Quelltextes sagt nichts darüber aus, ob dieser Text auch wirklich relevant ist.

Setzt man beim Output an, wäre das Prinzip, dass jedes Mal, wenn das System einen neuen Text (oder ein neues Bild, eine neue Musik) produziert, die Urheberschaft derjenigen Quelltexte entschädigt, die in die Produktion des Textes hineingeflossen sind. Dies erfüllt das Kriterium der Relevanz und erfüllt gleichzeitig die andere Forderung der Kulturschaffenden nach Transparenz, setzt aber voraus, dass diese Quelltexte identifiziert werden können.

Bei der Technik, die bei generativer KI eingesetzt wird, ist eine direkte Identifikation jedoch nicht möglich. Die generative KI greift nicht bei jeder Textgeneration auf die Quelltexte selber zurück, dies wäre von der Berechnung von der Anzahl der Fälle her viel zu komplex und würde Jahre dauern. Um die Komplexität zu reduzieren, werden neurale Netze eingesetzt. Diese haben als Input die Menge der möglichen Texteingaben, als Output die Menge der möglichen Textproduktionen und dazwischen eine sehr grosse Matrize von Zahlen und non-linearen Funktionen, welche in einem iterativen Lernprozess unter Beizug der Quelltexte optimiert werden, bis sie die gewünschten Textproduktionen liefern. Die Quelltexte beeinflussen das neutrale Netz, sind aber im Modell am Schluss nicht enthalten.

Ein klassischer Plagiatsnachweis wird nicht deshalb möglich sein, und wenn ein Dritter diese doch finden würde, wäre es für die Betreiber der Systeme möglich, Hunderte anderer Quelltexte zu finden, die auch in die Textproduktion eingeflossen sind. Wenn aber der Quelltext nicht eindeutig bestimmt werden kann, dann ist die Kausalität nicht mehr gegeben.

Die Kausalität muss deshalb hier aufgegeben werden und durch die Wahrscheinlichkeit ersetzt werden. Das Problem der Wahrscheinlichkeit ist viel einfacher lösbar.

Ein System kann nicht identifizieren, welcher Quelltext in eine Textproduktion eingeflossen ist (das wären alle Quelltexte, vereinfacht gesagt), aber es kann identifizieren, welche Quelltexte der Textproduktion am ähnlichsten sind. Das Postulat wäre, dass die ähnlichsten Texte wahrscheinlich den grössten Einfluss auf die Textproduktion gehabt haben und deshalb deren Urheberschaft einen Anspruch auf eine Vergütung haben sollten.

Die Identifikation der ähnlichsten Texte ist relativ einfach und technisch viel weniger komplex als die Textproduktion selber. Man vergleicht die Textproduktion mit der Menge aller Quelltexte mit einem Algorithmus der Textähnlichkeit und wählt die Texte, welche die besten Werte erreichen. Die Informatik kennt ein paar Dutzend Algorithmen, die Ähnlichkeit messen können (Levenshtein-Distanz,Jaccard-Index…), von denen einige (wie Kosinus-Ähnlichkeit) ziemlich effizient sind.

Ein praktischer Ansatz der Vergütung wäre damit ein Folgender

  1. Generative KI-Systeme müssen so ausgestaltet sein, dass sie die Quelltexte aufzeichnen und die Urheberschaft der Quelltexte identifizieren.
  2. Die Identifizierung erfolgt zusammen mit den Verwertungsgesellschaften und weist jedem Quelltext eine ID zu.
  3. Nach jeder Ausgabe vergleicht das KI-System die Textproduktion mit den Quelltexten und identifiziert 30 Texte, die der Textproduktion am ähnlichsten sind.
  4. Möglicherweise, zu diskutieren, gibt das System mit der Textproduktion auch Hinweise auf die 30 Texte mit. Eine Reproduktion der Quelltexte selber wäre hingegen wiederum eine urheberrechtlich relevante Nutzung.
  5. Die ID der 30 Texte werden in einem Log aufgezeichnet und den Verwertungsgesellschaften zur Auswertung übermittelt.
  6. ID von rechtefreien Quelltexten werden bei der Berechnung weggelassen.
  7. Für die Berechnung Remuneration sind weder Texteingabe noch Textproduktion relevant, und es kann im Sinne der Datensparsamkeit auf diese verzichtet werden.

Ein solcher Ansatz würde das Verteilungsproblem lösen, in dem es auf die für die Textproduktion relevanten Quelltexte ansetzt und deshalb eine Verteilungsgerechtigkeit erreicht. Es produziert jedoch, wie auch die Umsetzung des Leistungsschutzrechtes, relativ viele Daten, wenn jede einzelne Textproduktion einen Logeintrag kreiert. Datenschutzrechtlich wäre dies problematisch. Tooltester schätzt den Umsatz von ChatGPT auf 1 Milliarde USD für 20 Billionen Textproduktionen, womit der Umsatz etwa 5 Rappen pro Textproduktion beträgt. Wenn die Vergütung 10% beträgt und auf 30 Quelltexte verteilt wird, wären die 0.016 Rappen pro Textproduktion. Im Sinne der Datensparsamkeit würde es reichen, nur 1 von 60 000 Textproduktionen zu erfassen, um eine Verteilgenauigkeit von einem Franken zu erreichen.

Zusammengefasst würde das vorgeschlagene Modell, das in einem Tarif konkretisiert werden müssen, für die Kulturschaffenden eine angemessene Vergütung erreichen, die mit einem absehbaren Aufwand gerecht verteilt werden kann.