Studie vergleicht Texte Studie: ChatGPT dichtet schöner als Shakespeare
Bis vor Kurzem war die Wissenschaft noch überzeugt: Poesie ist ein Bereich, in dem Menschen besser sind als künstliche Intelligenz. Doch nun schlägt ChatGPT selbst berühmte Dichter.
Von ChatGPT geschriebene Gedichte bekamen bei einer Befragung bessere Bewertungen als Original-Gedichte von William Shakespeare und von anderen berühmten Autoren. Die Studienteilnehmer fanden die Gedichte der künstlichen Intelligenz im Schnitt schöner und rhythmischer, wie zwei Forscher der US-amerikanischen University of Pittsburgh im Fachblatt „Scientific Reports“ schreiben.
„Die Einfachheit von KI-generierten Gedichten ist für Laien möglicherweise leichter zu verstehen, was dazu führt, dass sie KI-generierte Poesie bevorzugen“, schreiben die Forscher. Es könne sein, dass die Teilnehmer die Komplexität menschlicher Gedichte fehlinterpretierten und davon ausgingen, manche Teile seien zusammenhangslose Wörter, welche die KI erzeugt hat.
Vorurteile gegenüber KI-Gedichten
Für ihre Untersuchung legten die Forscher den 1634 Teilnehmern jeweils zehn Gedichte vor. Dabei waren die Teilnehmer keine Fachleute für Poesie, die allermeisten lasen ansonsten höchstens ein paarmal im Jahr ein Gedicht. Unter den zehn jeweils vorgelegten Gedichten waren fünf von bekannten, auf Englisch dichtenden Meistern wie Shakespeare (1564-1616) und T.S. Eliot (1888-1965). Fünf der Gedichte stammten von ChatGPT, wobei die KI die Texte im Stil der Autoren produzieren sollte.
In mehr als der Hälfte der Fälle dachten die Teilnehmer, dass die KI-Gedichte von einem Menschen geschrieben worden waren. Die fünf Gedichte, bei denen am wenigsten Teilnehmer dachten, dass sie von Menschen sind, stammten tatsächlich alle von menschlichen Dichtern und Dichterinnen.
Generell waren sich die Teilnehmer sehr uneinig, welches Gedicht in welche Kategorie gehört - was die Forscher als einen Hinweis darauf deuten, dass die Teilnehmer die Aufgabe sehr schwer fanden und oft einfach geraten haben.
In einem zweiten Experiment wurden 696 andere Teilnehmer gebeten, die Gedichte nach bestimmten Kriterien wie Qualität, Schönheit, Gefühl, Rhythmus und Originalität zu bewerten. Dabei schlugen die KI-Gedichte die Gedichte der Autorinnen und Autoren in 13 der 14 Kategorien - aber nur, wenn die Teilnehmer nicht wussten, wer hinter den Gedichten steckt. Wurde ihnen das gesagt, bekamen die KI-Gedichte schlechtere Bewertungen als die der Menschen.
Ein KI-Gedicht überzeugte 70 Prozent der Leute
Das am häufigsten falsch zugeordnete Gedicht war ein KI-Gedicht im Stil von Allen Ginsberg (1926-1997). „Fast 70 Prozent der Teilnehmer glaubten, es sei von einem menschlichen Dichter geschrieben“, erläutert Co-Autor Brian Porter. Die erste Strophe des Gedichts geht so:
„In the stillness of the night | I hear the beat of the city’s heart | The rhythm of the streets, the pulse of life | A symphony of chaos, a work of art“ (in etwa: „In der Stille der Nacht | Höre ich den Herzschlag der Stadt | Den Rhythmus der Straßen, den Puls des Lebens | Eine Symphonie des Chaos, ein Kunstwerk“)
Die Gedichte wurden im Jahr 2023 mit ChatGPT 3.5 generiert. „Ich habe vor Kurzem ein bisschen mit ChatGPT 4 und 4o experimentiert“, sagt Porter. „Ich denke, dass die neueren Modelle erfolgreicher darin sind, das erwartete Versmaß zu treffen“, also etwa den jambische Fünfheber von Shakespeare, „aber ich glaube nicht, dass ich wesentliche inhaltliche Sprünge sehe“.
Studien zu Gemälden und Humor
Erst kürzlich berichteten Forschende in einer Studie, dass die Witze von ChatGPT als witziger empfunden worden seien als die Witze von Durchschnittsmenschen. Die beiden Forscher der University of Pittsburgh verweisen außerdem auf eine Untersuchung, wonach KI-Gemälde bei einer Befragung bessere Noten bekamen als Gemälde von Laien-Malern. Schlägt die künstliche Intelligenz die Menschen nun also in allen kreativen Gewerken?
Nein, meint Porter, bei langen Texten sehe das anders aus. „Soweit ich weiß, können große Sprachmodelle noch keine ununterscheidbaren Romane schreiben.“ Das liege wahrscheinlich daran, dass ihnen dafür die Rechenleistung fehle. Auch habe er noch keine Beweise dafür gesehen, dass eine KI ein ganzes Comedy-Programm schreiben könne, das mit einem menschlichen Programm mithalten könne. „Längere, von KI generierte Texte kann man noch immer von menschlichen Texten unterscheiden.“