Data Mining für AI-Training

Künstliche Intelligenz basiert auf statistischen Modellen, die durch Training entwickelt und angepasst werden. Für das Training und die Validierung werden große Mengen an hochwertigen Daten benötigt - insbesondere für generative KI-Systeme. Frei zugängliche Inhalte aus dem Internet werden häufig für das KI-Training genutzt. Für das massenhafte Sammeln von Trainingsdaten stehen so genannte "Scraper" oder "Crawler" zur Verfügung. Sie durchsuchen das Internet nach Inhalten und kopieren den Quellcode der entsprechenden Websites und alle Metadaten. Diese Inhalte werden dann in einem weiteren Schritt analysiert, strukturiert und für das KI-Training aufbereitet.

Das bedeutet, dass die Inhalte, die Sie in Ihrem Dienst veröffentlichen wollen, potenziell für das KI-Training verwendet werden könnten.

Bitte nehmen Sie sich die Zeit, für Ihren Dienst zu entscheiden, ob es im Interesse von Bayer ist, dass ein KI-Modell auf diese Weise trainiert wird oder nicht. Für den Fall, dass Sie entscheiden, dass ein KI-Modell nicht mit den Inhalten trainiert werden soll, die Sie zu veröffentlichen beabsichtigen, können Sie Folgendes tun, um die Inhalte zu schützen:

Fügen Sie den in der Vorlage für die Nutzungsbedingungen verfügbaren Textblock in die Nutzungsbedingungen Ihres Dienstes ein
Es ist ratsam, auch eine wirklich maschinenlesbare Form des Haftungsausschlusses auf der Website zu veröffentlichen, indem Sie Web-Scrapern mitteilen, dass sie auf Ihrer Website nicht erwünscht sind. Es gibt verschiedene technische Lösungen, von denen Sie einige in Ihren Dienst integrieren können:
- Der Robots Exclusion Standard, der sich seit 1999 etabliert hat. Wichtig ist jedoch, dass Sie keine (eigentlich erwünschten) Scraper von Suchmaschinen (z.B. den Googlebot) von Ihrer eigenen Website ausschließen. Denn wenn man mit der robots.txt über das Ziel hinausschießt (was schnell passiert), kann dies zu einem dramatischen Einbruch im Suchmaschinenranking führen;
- Das neue "TDM Reservation Protocol". Die Implementierung ist sehr einfach, standardisiert und granular im HTML-Quellcode der Website und hat nicht die potenziell negativen Auswirkungen auf Suchmaschinen-Scraper wie die Lösung über robots.txt;
- Das von der Coalition for Content Provenance and Authenticity (C2PA) entwickelte Rechteprotokoll. Das Projekt wird u.a. von Adobe, Arm, Intel, Microsoft und Truepic unterstützt. Ziel ist es, die Verbreitung von irreführenden Informationen zu verhindern. Das Protokoll sieht das Anhängen von Metadaten, dem "Manifest", an Mediendateien vor, die mit einem kryptografischen Schlüssel signiert werden. Änderungen an den Daten können so nachverfolgt werden. Insbesondere kann festgelegt werden, ob Data Mining oder das Training von KI-Systemen mit diesen Daten erlaubt sein soll oder nicht;
- Der RightsML-Standard der IPTC. RightsML bietet ein Datenmodell in einer maschinenlesbaren Sprache, das auf dem ODLR-Standard des W3C basiert und an die Anforderungen der Medienbranche angepasst wurde.
Die wirksamste Maßnahme, um Crawler und Scraper daran zu hindern, die Inhalte Ihres Dienstes zu sammeln (und Ihren oben geäußerten Wunsch, sich von Ihrem Dienst fernzuhalten, zu ignorieren), besteht jedoch darin, die Inhalte hinter einer Bezahlschranke oder zumindest hinter einer Anmeldung oder einem Click-Through-Zugang zu Ihrer Website zu haben, bei der die Nutzer die Nutzungsbedingungen anerkennen müssen, die die Nutzung der Materialien auf der Website verbieten.

Contact

In case of questions and further guidance please type in go/asklpc on the browser window and reach out to the LPC experts.

English

Data Mining for AI Training