Textgenerator – urheber- und medienrechtliche Fragen
Rechtsanwalt Dr. Jonas Kahl und der Jurist Hans-Christian Gräfe haben im Rahmen der Digitalen Herbstakademie 2020 der DSRI (Deutsche Stiftung für Recht und Informatik) zum Thema „Textgenerator - Medien- und urheberrechtliche Fragestellungen“ referiert. Ihr Vortrag ist nachfolgend als Video abrufbar als auch hier nachlesbar.
Video: Textgenerator – urheber- und medienrechtliche Fragen
Text: Textgenerator – urheber- und medienrechtliche Fragen
Dr. Jonas Kahl: Wer sind wir? Ich möchte uns kurz vorstellen: Mein Kollege Hans-Christian Gräfe ist wissenschaftlicher Mitarbeiter am Weizenbaum-Institut für die vernetzte Gesellschaft. Dort ist er Teil der Forschungsgruppe “Verantwortung und die Interkonnektivität der Dinge”. Er engagiert sich seit Jahren für den Rechtsblog “Telemedicus” und an der HU Berlin schließt er gerade ein Masterstudiengang im Medien- und Immaterialgüterrecht ab.
Hans-Christian Gräfe: Ich möchte meinen Co-Referenten Dr. Jonas Kahl auch gerne vorstellen. Jonas ist Rechtsanwalt in der Kanzlei Spirit Legal in Leipzig. Er ist Fachanwalt für Urheber- und Medienrecht und beschäftigt sich tagtäglich mit den unterschiedlichsten Aspekten digitaler Geschäftsmodelle. Promoviert hat er vor einigen Jahren zu elektronischer Presse und Bürgerjournalismus.
Gerade bei Online-Angeboten sind automatische Hilfsmittel kaum mehr wegzudenken. Das betrifft insbesondere Online-Medieninhalte. KI-Tools helfen bei der Produktion, bei der Ausspielung und der Sortierung der Inhalte. Zum Teil agieren sie weitgehend autonom, insofern hat Automatisierung auch in den klassisch-journalistischen Bereich Einzug gehalten. Aber automatische Textverarbeitung und -erstellung kann in vielen anderen Bereichen eingesetzt werden. Die Ergebnisse können teilweise nicht mehr von menschlichen unterschieden werden. Wir schauen uns deshalb an, wie die Textgeneratoren und ihre Ergebnisse urheber- und medienrechtlich bewertet werden können.
Dafür müssen wir aber zunächst einige Begrifflichkeiten klären: Was ist gemeint, wenn von Roboterjournalismus gesprochen wird? Was meinen wir, wenn wir von Textgeneratoren reden? Schließlich kommt keines der Systeme ohne Daten aus und in diesem Zusammenhang spielt Web Scraping eine Rolle.
Der Begriff „Roboterjournalismus“ ist erst einmal sehr eingängig aber auch verwirrend, denn vollautomatische Journalismus-Roboter gibt es nicht. Das bedeutet, dass es nicht die eine KI gibt, die die kompletten Aufgaben eines Journalisten von der Themenfindung, über die Recherche bis hin zu der Redaktionsarbeit übernehmen könnte. Deshalb definiert Habel in seiner gleichnamigen Dissertation „Roboterjournalismus“ auch sehr eng als “einen von Journalisten betriebenen, weitgehend autonomen Journalismus-Bot”. Im Englischen werden all die technischen Hilfsmittel im Journalismus eher unter „computational or automated journalism” zusammengefasst.
Uns geht es vor allem um Computerprogramme, die automatisch generierte Texte verfassen – das können journalistische sein, müssen sie aber nicht. Um eine stärkere Schärfe zu erreichen, sprechen wir deshalb einfach von „Textgeneratoren“. Der Begriff bezieht sich also auf die technischen Werkzeuge unabhängig von ihrem Einsatz.
Die Formen von Textgeneratoren variieren recht weit: Von einfachen, rudimentären Verfahren bis hin zu den beiden aktuellen Verfahren NLG und NLP.
Bei NLG werden grundlegende, zum Kontext passende Textbausteine bereitgehalten. Diese Bausteine müssen festgelegt und variiert werden. Sie interagieren dann mit weiteren KI Tools sowie den Eingabedaten. Auf dieser Grundlage werden aus den Daten, wie Sportergebnissen oder Wetterdaten, neue Texte generiert. Man könnte untechnisch von einem mittleren Automatisierungsgrad sprechen.
NLP gehört zum „Database Machine Learning“. Das bedeutet, künstliche neuronale Netze werden mit großen Mengen von Texten trainiert oder besser auf große Mengen von Texten losgelassen. Sie erkennen dann reale oder vermeintliche Muster und können aus kurzen Eingaben einen beliebig langen Text generieren.
Wir betrachten im Folgenden NLP und NLG zum Teil als Gegenpole, was Aufbau aber auch Einsatz und Automatisierungsgrad angeht.
NLP Beispiel: Mithilfe von OpenAI GPT-3 kann ein Algorithmus zum Schreiben von Emails entwickelt werden
Aber warum sollten zwei Juristen die Technik erklären, also noch mehr zur Unschärfe beitragen, wenn wir durch das Videoformat auf Experten zurückgreifen können. Um beides genauer einzuordnen, sprechen wir zunächst mit Saim Alkan.
Hans-Christian Gräfe: Hallo Saim, du bist Wirtschaftsingenieur und CEO von AX Semantics. Was macht ihr bei AX Semantics und vor allem wie funktioniert euer System?
Saim Alkan: Im Kern ist AX Semantics eine SAAS-Plattform zur Textautomatisierung, die im Wesentlichen auf drei Komponenten setzt: das eine ist ein neuronales Netz für Grammatik aus 110 Sprachen. Das heißt, wir können in 110 Sprachen mit Machine-Learning und Künstlicher Intelligenz Texte mit korrekter Grammatik generieren. Die zweite wesentliche Komponente ist eine Auswahl aus strukturierten Daten, um diese Texte zu formulieren. Das können Wetterdaten sein, Fußballdaten oder auch Produktdaten. In der Mitte ist sozusagen die Dritte Komponente, ein Editor, der durch menschliches Training die Daten so umsetzt, dass ein bestimmter Text entsteht.
Also wann ist zum Beispiel ein Mantel extravagant oder exklusiv? Wenn er eine Seiden-Beimischung hat. Das heißt, ich habe eine Wenn-Dann-Regel: Wenn Seide im Mantel ist, dann sag bitte ein extravaganter oder ein exklusiver Mantel. Diese Daten kommen vom Menschen und werden auch vom Menschen im System trainiert. Das hat den wesentlichen Vorteil, dass der Text nachher so klingt, wie der Mensch ihn sich vorstellt und nicht wie die KI glaubt, dass der Text für einen exklusiven Mantel klingen muss.
Dr. Jonas Kahl: Wie verbreitet ist eure Software in Deutschland? Was sind die Anwendungsgebiete für sie?
Saim Alkan: Der größte Teil unserer Kunden kommt zurzeit aus dem Online-Handel. Da werden häufig aus strukturierten Produktdaten Produktbeschreibungen oder Kategorieseiten formuliert. Das kann zum Beispiel so funktionieren:
Wenn ich bei Google suche “Damenmantel schwarz”, dann kann ich bei bestimmten Modeherstellern, mit einer Seite gesehen werden, auf der ich meine schwarzen Damenmäntel präsentiere. Diese Seiten generiere ich aus dem aktuellen Warenfundus und -bestand, den ich verkaufe. Wenn ich dann auf den einzelnen Mantel klicke, steht dort ein Text, der aus der Materialität des Produkts – Knopf oder Reißverschluss; Bündchen, ja oder nein – einen Text generiert ist: „In der modernen A-Form geschnitten, mit Bündchen als Windschutz bei besonders kaltem Wetter, mit Reißverschluss und der abdeckenden Knopfleiste nochmal zusätzlicher Windfang – so wird dieser Mohair-Mantel besonders warm.“ Das ist so die Hauptanwendung, aus der wir kommen. Wir erweitern gerade in zwei ganz neue Richtungen: einmal Finance & Health. Das ist deswegen so spannend, weil ja beide Märkte sehr stark reguliert sind und weil im Augenblick mehrere Anwender daran arbeiten, mit unserem System die Regulatorik abzubilden. Also die Erfordernisse beispielsweise aus Sicht der BaFin für das Finanzreporting entsprechend einzubinden. Das gleiche gilt für den Bereich Gesundheit und insbesondere Pharma. Auch da gibt es eine starke Regulatorik und auch diese versuchen gerade einige Kunden im System abzubilden und sicher zu gehen, dass, was an Output generiert wird, der Regulatorik entspricht.
Der dritte Bereich, sehr öffentlichkeitswirksame, aber ehrlicherweise vom Business-Impact her kleinste Bereich, sind Zeitungsverlage und Medienhäuser im Allgemeinen. Da gibt es einige. Die Stuttgarter Zeitung schreibt beispielsweise Feinstaub-Berichte damit und hat dafür bereits auch Preise gewonnen. Die österreichische Nachrichtenagentur APA machte beispielsweise Wahlberichterstattung damit. Das ist so die Bandbreite der Anwendungen mit AX Semantics.
Hans-Christian Gräfe: Was uns vor allem noch interessiert, ist, woher die Anwender und Anwenderinnen ihre Daten nehmen, um die Texte zu generieren?
Saim Alkan: Da klassifizieren wir in drei wesentliche Bereiche: Der erste Bereich ist paid data. Das heißt, ich gehe zu einem Anbieter von Daten, wie zum Beispiel dem DFB, der alle Fußballdaten aller Fußballspiele in Deutschland hat und auch die Rechte daran, und kaufe die Rechte zur Nutzung dieser Daten, um Texte zu generieren. Der zweite Bereich ist user generated data, das heißt, ich habe Menschen, die Daten irgendwo freiwillig erfassen. Das gibt es übrigens auch im Fußball Umfeld beim Gegner des DFB, der FUPA. Da erfassen Fans die Fußballdaten, die dann wiederum für Texte zur Verfügung gestellt werden. Der dritte Bereich ist owned data, das heißt, ich generiere selbst Daten. Das sind dann meine Produktdaten, meine Anwenderdaten im weitesten Sinne.
Das sind aktuell die drei Töpfe, aus denen unsere Kunden aktuell ihre Daten beziehen, zumindest aus so einer Meta-Sicht. Technisch sind es Datenbanken, Tabellen, Produktdatenfeeds. Die technische Form ist dann ganz vielfältig.
Dr. Jonas Kahl: Gibt es auch Anwendungsfälle, in denen eine solche Software komplett auf einer Künstlichen Intelligenz basiert; wo die Vorgaben des Menschen weniger eine Rolle spielen?
Saim Alkan: Ja, absolut. Open AI ist so ein Anbieter, der, wie ich finde, eine großartige PR macht. An der Stelle ziehe ich den Hut vor den Kollegen. Open AI ist aber ein System, das aus unserer Vertriebssicht ein großes Problem hat:
Die Kunden, die wir betreuen, wollen die Kontrolle über die Textausgabe. Ich will wissen: Ist der Mantel exklusiv? Ist der Mantel wärmend? Ist der Mantel wasserdicht? Ich möchte in der Hand haben, was da formuliert wird. Wir kommen bei ganz vielen Anfragen unserer Kunden mit Begriffen, wie Produkthaftung, Retourenquote etc. in Berührung.
Bei einer KI, die selbständig Texte generiert, stellt es aber ein großes Problem dar, dass ich nicht weiß, wie der generierte Text aussehen wird. Es gibt einen interessanten Fachaufsatz von Ehud [Reiter], dem Gründer von Arria NLG und eigentlich dem Urvater der Computerlinguistik und der Textgenerierung. Ehud hat in dem Artikel neulich über Open AI geschrieben und ganz konkrete Anwendungsbeispiele gezeigt. Ich fand, es ganz bezeichnend und typisch dafür, wie Markov-Ketten arbeiten. Das ist die Technik, die da zum Teil dahintersteckt, an der man das Problem aber sehr gut erklären kann: Wir haben einen Satz, der die Wörter „weißer Mann” beinhaltet und die KI machte daraus relativ häufig „der Präsident”. Also „Präsident Trump, der weiße Mann“.
Hans-Christian Gräfe: Warum funktioniert das mit den Markov-Ketten so? Warum macht das System daraus „weißer Mann“ „Präsident“?
Saim Alkan: Weil die Maschine mit Texten gefüttert wird. Die liest zum Beispiel jeden Tag Nachrichten. Wenn dort sehr häufig ein schwarzer Mann als Dealer oder Mörder dargestellt wird, lernt die Maschine „Aha! Schwarze Männer sind im Normalfall Dealer oder eben Mörder”, während der weiße Mann in der Zeitung eher mal als Präsident, Unternehmensführer oder Konzernchef dargestellt wird. Das sorgt dafür, dass die Maschine selbständig lernt, was auf „weißer Mann” folgt oder in welchem Kontext der Begriff „weißer Mann” steht. Da steht dann eben mal „Konzernchef” oder „Präsident Trump“ und mal steht er eben mit „Dealer” oder „Mörder“, wenn es das Wort „schwarzer Mann“ ist. Das ist tatsächlich nicht an den Haaren herbeigezogen. Da gibt es wissenschaftliche Untersuchungen, die das belegen: so wie ich die Maschine trainiere, so wird sie sich später verhalten.
Anm. d. Red.: Natürlich erstellt die KI keine Texte aus einer idealen Welt, sondern gibt veröffentlichte und existierende Vorurteile von weißen Menschen gegenüber Menschen mit anderer Hautfarbe wieder. Das kann keine KI selbständig korrigieren, das liegt letztlich in der Verantwortung der Menschen, die sie zum Einsatz bringen.
Hans-Christian Gräfe: Stellen wir beide Systeme vergleichend gegenüber, so benötigt ein NLG- System gut strukturierte Eingabedaten, angepasste Textbausteine, KI-Grammatik und einen finalen Editor, produziert dann aber individuell redigierte Texte. NLP kann komplett autonom Texte schreiben und benötigt nur kurze Eingabesätze. Das Ergebnis steht aber nicht mehr unter menschlichem Einfluss und kann inhaltlich falsch sein.
Beide Textgeneratoren sind verschiedene Arten von in Programmiersprache geschriebenen Befehlen. Sie können also als Computerprogramme im Sinne des § 69a UrhG geschützt sein. Sie interagieren aber nicht mit Hardware und sind daher keine computerimplementierten Erfindungen. Somit ist patentrechtlicher Schutz für sie aktuell nicht möglich.
Die den Textgeneratoren zugrunde liegenden Datenbanken könnten Datensammlungen sein und daher gemäß § 4 Abs. 1 UrhG als urheberrechtliches Werk geschützt sein. Dafür ist nach Absatz 2 die Voraussetzung, dass die Daten systematisch oder methodisch angeordnet und einzeln mit Hilfe elektronischer Mittel oder auf andere Weise zugänglich sind.
Dr. Jonas Kahl: „Systematisch“ bedeutet dabei, dass sich die Datensammlung an einem System oder an einer Klassifizierung oder einer Art Ordnungsschema orientiert. „Methodisch“ hingegen bedeutet, dass die Sammlung einer bestimmten ordnenden Handlungsweise oder einem bestimmten Plan folgt. Gerade bei NLP Systemen werden diese Kriterien aber nicht erreicht.
Hans-Christian Gräfe: Fraglich ist dann noch, wer nach § 87a Urheberrechtsgesetz Datenbankhersteller ist. Das ist derjenige, der das organisatorische und wirtschaftliche Risiko für den Aufbau und den Betrieb der Datenbank trägt. Wie Saim uns gerade erklärt hat, hängt das sehr davon ab, woher die Daten stammen oder ob der Anwender des NLG-Systems die Datenbank selber erstellt, redigiert und bearbeitet hat, die dem Generator zugrunde liegt.
Dr. Jonas Kahl: Kommen wir zum Web Scraping. Wir haben uns heute einen Experten eingeladen, um uns von ihm erklären zu lassen, was darunter unter technischen Gesichtspunkten überhaupt zu verstehen ist. Dieser Experte ist Dr. Stefan Ullrich. Er ist Informatiker, Philosoph und Leiter der Forschungsgruppe RIoT am Weizenbaum-Institut.
Hans-Christian Gräfe: Vielen Dank, dass du uns jetzt zugeschaltet bist.
Dr. Jonas Kahl: Wir haben eine Frage für dich: Was ist Web Scraping eigentlich genau und für was braucht man das?
Dr. Stefan Ullrich: Web Scraping braucht man in jedem Fall, in dem man strukturierte Daten haben möchte, die aber nicht durch einen Dienst bereitgestellt werden. Bei einem Open-Data-Portal beispielsweise werden Daten schön strukturiert bereitgestellt und die haben auch eine Programmierschnittstelle, die man anfragen kann, um die Daten zu bekommen. Viele Websites bieten das aber nicht an, Nachrichten-Websites zum Beispiel.
Um an diese Informationen zu gelangen und sie später zu strukturieren, braucht man Web Scraping. Das ist im Prinzip automatisiertes Surfen, vergleichbar mit dem Zugriff durch einen Internetbrowser, nur eben ohne Benutzerinteraktion. Das macht das Programm für einen und die kann man dann programmieren.
Dr. Jonas Kahl: Welche Vorgaben macht man beim Web Scraping für den automatisierten Abruf? Legt man Kategorien fest oder wie werden die Inhalte, die „gescraped“ werden, sortiert?
Dr. Stefan Ullrich: Also man muss minimal wissen, wie die Webseite aufgebaut ist. Das heißt, man übergibt die Adresszeile, die URL. Dann muss man sagen, die relevanten Inhalte befinden sich in dem und dem Container und am besten muss man den Namen von dem Container im Quelltext wissen. Meistens heißt der dort „Content“. Vielleicht interessieren aber auch die Menü-Inhalte oder die Kommentarspalten. Dann gibt man „Gib mir alles was unter ‚comments‘ steht” ein.
Man übergibt also ein paar Parameter und bekommt im Prinzip eine Textwüste, die noch ungeordnet ist. Anschließend muss man sich selbst Kategorien überlegen und diese anlegen. Das ist eben der Unterschied zu den bereits vorhandenen, strukturierten Daten.
Hans-Christian Gräfe: Lassen sich auch geschützte Daten oder sagen wir, nicht visuell einsehbare Daten herauslesen, von denen der Website-Betreiber nicht möchte, dass sie ausgelesen werden? Oder ist das nicht möglich?
Dr. Stefan Ullrich: Ja, das ist möglich und deshalb ist das in vielen Fällen per Policy untersagt. Viele Dienste verbieten so ein Scraping, beispielsweise Twitter. Sie verweisen darauf, dass sie eine Schnittstelle haben, die nur unter gewissen Umständen genutzt werden darf. Man darf hingegen kein Scraping auf den ganzen Dienst loslassen.
Es geht zwar, es ist möglich und man kann auch Daten herausziehen, die nicht angezeigt werden. Aber das wird ganz oft untersagt und verstößt gegen die Nutzungsbedingungen des Services. Wenn es rauskommt, kann man gesperrt werden. Das ist vielleicht mit der Frage verbunden „Wie kommt das raus?”. Naja, eine automatisierte Anfrage schickt 200 Anfragen pro Sekunde. Das kann kein menschlicher Surfer und daran wird das meistens unterschieden. Aber es gibt auch clevere Wege sich herum zu schmuggeln.
Dr. Jonas Kahl: Weil dieses Web Scraping so praktisch ist, kommt es auch bei Textgeneratoren zum Einsatz. Denn auch bei diesen ist den Betreibern daran gelegen, auf Basis von Inhalten zu arbeiten, die möglichst schnell und einfach gesammelt werden können. Da mit den Betreibern von „gescrapeten“ Seiten meistens keine vertraglichen Grundlagen bestehen und auch deren Nutzungsbedingungen meistens nicht zur Anwendung kommen, dürfte man beim Web Scraping jedenfalls vertragsrechtlich selten eingeschränkt werden. Problematischer könnten da schon die technischen Schutzvorkehrungen sein.
Dr. Jonas Kahl: Unter juristischen Gesichtspunkten diskutabel sind in erster Linie urheberrechtliche Aspekte. Denn ausgelesene Daten, wie bspw. Zeitungsartikel, sind oft Werke im Sinne des § 2 Abs. 2 Urheberrechtsgesetz, sodass bei der Datengewinnung, Vervielfältigungen im Sinne des § 16 Urheberrechtsgesetz entstehen. Ein klassischer Rechteerwerb ist wegen der Menge an Daten oft unpraktikabel. Als urheberrechtliche Schranke könnte hier aber § 44a des Urheberrechtsgesetzes weiterhelfen, weil die Speicherung in vielen Fällen nur flüchtig erfolgt. Weil die Speicherung nur Teil eines umfassenden Analyseverfahrens ist, dürfte sie in den meisten Fällen auch keinen wirtschaftlichen Vorteil im Sinne des § 44a Urheberrechtsgesetz darstellen, sodass sich viele Werknutzungen tatsächlich über die Schranke der vorrübergehenden Vervielfältigungshandlung rechtfertigen lassen sollten.
Ebenso könnte das Leistungsschutzrecht des Datenbankherstellers betroffen sein. Ein solcher Datenbankhersteller hat zunächst als einziger das Recht, einen nach Art und Umfang wesentlichen Teil der Datenbank zu vervielfältigen, zu verbreiten und öffentlich wiederzugeben. Dieses Recht könnte durch Web Scraping verletzt sein, denn auch bereits ein flüchtiges Speichern ist eine Entnahme im Sinne dieser Regelung. Unproblematisch wäre diese Entnahme allerdings dann, wenn es sich dabei lediglich um einen unwesentlichen Teil der Datenbank handeln würde.
Wäre stattdessen ein wesentlicher Teil betroffen, ließe sich das Web Scraping damit rechtfertigen, dass es sich um eine normale Auswertung handelt, welche so vorgesehen ist, weil die betroffenen Datenbanken beispielsweise ohnehin kostenlos einsehbar sind oder für jedermann zugänglich sind. Zudem könnte eine „normale” Auswertung im Sinne des § 87b Abs. 1 S. 2 UrhG auch deshalb vorliegen, weil die Daten genauso übernommen und genutzt werden, wie sie in der Datenbank veröffentlicht wurden.
Dr. Jonas Kahl: Zudem muss man den Dateninput noch im Lichte des Datenschutzrechts und im Lichte der DSGVO betrachten. Bei einer Datengewinnung kann es zur automatisierten Verarbeitung von personenbezogenen Daten kommen. Dafür ist eine Rechtsgrundlage erforderlich. Als solche kann man zuvörderst Art. 6 Abs. 1 lit. f DSGVO diskutieren: Der Betreiber des Web Scrapings wird ein wirtschaftliches Interesse daran haben und die Datenverarbeitung wird im Rahmen seiner Presse- und bzw. oder Berufsfreiheit erfolgen. Außerdem dürfte es sich bei vielen Datenverarbeitungen nur um eine mit geringer Eingriffsintensität handeln, da die Daten oftmals nur sehr kurz gespeichert werden, bevor sich herausstellt, dass sie eigentlich gar nicht benötigt werden und deshalb nicht weiter kategorisiert werden müssen.
Werden persönliche Daten hingegen tatsächlich benötigt, sollte man in die Interessenabwägung mit einstellen, dass die betroffenen Personen dann oft auch mit einer Berichterstattung über sich selbst rechnen müssen. Und damit kommen wir auch schon zu der zweiten Rechtsgrundlage, welche in Art. 85 DSGVO bestehen kann: Nach dem dort verankerten datenschutzrechtlichen Medienprivileg, können Daten automatisiert verarbeitet werden, wenn dies journalistisch-redaktionellen Zwecken dient. Das bedeutet also, dass jedenfalls diejenigen von der Presse, die Web Scraping betreiben, sich für ihre Datengewinnung, die die Grundlage für ihre generierten Texte ist, auf das datenschutzrechtliche Medienprivileg berufen können.
Hans-Christian Gräfe: Die generierten Texte könnten Sprachwerke im Sinne § 2 Abs. 1 UrhG sein und so auch geschützt werden. Die Voraussetzung dafür ist jedoch menschliches Schaffen. Für die Schutzfähigkeit der Ergebnisse ist also der Grad der Autonomie der Textgeneratoren entscheidend. Komplett autonom erschaffene Texte wie bei NLP sind deshalb nicht urheberrechtlich schutzfähig. Ein bloßer Eingabesatz ist keine Entscheidung über die weitere Gestaltung des Textes. Vergleichbar mit der urheberrechtlichen Schutzfähigkeit ist auch die Eröffnung des Schutzbereichs der Pressefreiheit. Dieser weite Schutzbereich ist ebenfalls nur eröffnet, wenn der Textgenerator als Hilfsmittel oder als Werkzeug genutzt wird.
Dr. Jonas Kahl: Ja und schließlich muss man darüber diskutieren, wer eigentlich für generierte Texte haftet? Es spricht viel dafür, dass derjenige, der die Texte verbreitet, der Verantwortliche ist. Das gilt selbst dann, wenn die Texte vollautomatisiert erstellt wurden, denn der Verbreiter hat sie schließlich veröffentlicht.
Eng verbunden mit der Frage der Verantwortlichkeit ist auch das Thema Kennzeichnungspflichten. Braucht es vielleicht für automatisch generierte Texte eine Art Kennzeichnungspflicht und eine Pflichtangabe? Man könnte das beispielsweise aus dem Wettbewerbsrecht, dem UWG, herleiten oder genauso auch aus dem Presserecht.
Hans-Christian Gräfe: Ja, genau. Es ist aber immer die Frage, ob eine Erforderlichkeit schon für eine Rechtspflichten reicht. Man könnte sagen, für eine Kennzeichnungspflicht spricht, dass von Menschen geschriebene Texte vertrauenswürdiger wirken. So könnte man an den Pressekodex herangehen, aber ob ein solches Vertrauen reicht, um eine Rechtspflicht zur Kennzeichnung herzuleiten, ist vielleicht fraglich. Gleichzeitig gibt es das Trennungs- und Kennzeichnungsprinzip für Inhalt und Werbung – daran könnte man denken. Dagegen spricht dann aber auch wieder, dass die Irreführung bei einem automatisiert geschriebenen Text, nicht mit der eines verdeckt-werblichen Textes vergleichbar ist. Der Hintergrundgedanke ist immer die die Auffassung der Verkehrskreise.
Für eine Kennzeichnungspflicht spricht allerdings, dass automatisierte Kommunikation generell zunimmt und wir hier nicht nur von einer Kennzeichnungspflicht sprechen, die nur auf den Journalismus begrenzt ist, sondern die allgemeiner regeln könnte. Da wäre dann die Frage, ob man Teilregelungen wieder auf das große Ganze schließen lassen, da in Einzelbereichen Kennzeichnungspflichten automatisierter Kommunikation ja schon geregelt sind. Man vergleiche nur die Social-Bot-Regelung im aufkommenden Medienstaatsvertrag.
Dr. Jonas Kahl: Wir sehen also, dass uns die Rechtsfragen rund um Textgeneratoren noch lange beschäftigen und noch einige Diskussionen mit sich bringen werden. Wir haben versucht, Ihnen heute einen kleinen Einblick zu geben und hoffen, ihr Interesse geweckt zu haben.