banner
Heim / Blog / Das unheimliche Versagen der KI
Blog

Das unheimliche Versagen der KI

Jul 07, 2023Jul 07, 2023

Von Kyle Chayka

Es handelt sich um eine klassische Übung im Kunstunterricht in der Oberstufe: Eine Schülerin sitzt an ihrem Schreibtisch, hält einen Kohlestift in der einen Hand und hält sie über einem Blatt Papier, während die andere Hand ausgestreckt vor ihr liegt, die Handfläche nach oben, die Finger so entspannt sie krümmen sich nach innen. Dann zeichnet sie mit einer Hand die andere. Es ist eine Aufgabe für Anfänger, aber die Aufgabe, Hände überzeugend darzustellen, ist eine der berüchtigtsten Herausforderungen in der figurativen Kunst. Ich erinnere mich, dass es unglaublich frustrierend war – die Winkel und Proportionen jedes Fingers richtig hinzubekommen, zu bestimmen, wie der Daumen mit der Handfläche verbunden ist, und zu zeigen, wie ein Finger den anderen genau überlappt. Allzu oft hatte ich einen bizarr langen kleinen Finger oder einen Daumen, der wie ein gebrochener Knochen in einem unmöglichen Winkel herausragte. „So fangen Schüler an, das Zeichnen zu lernen: Sie lernen, genau hinzusehen“, erzählte mir Kristi Soucie, meine Kunstlehrerin an der High School in Connecticut, als ich sie kürzlich anrief. „Jeder geht davon aus, dass er weiß, wie eine Hand aussieht, aber solange man sie nicht wirklich betrachtet, versteht man es nicht.“

Künstliche Intelligenz steht vor einem ähnlichen Problem. Neu zugängliche Tools wie Midjourney, Stable Diffusion und DALL-E sind in der Lage, eine fotorealistische Landschaft zu rendern, das Gesicht einer Berühmtheit zu kopieren, ein Bild im Stil eines beliebigen Künstlers neu zu mischen und Bildhintergründe nahtlos zu ersetzen. Im vergangenen September gewann ein KI-generiertes Bild auf der Colorado State Fair den ersten Preis für digitale Kunst. Doch als man mit der Aufforderung konfrontiert wurde, Hände zu zeichnen, spuckten die Werkzeuge eine Reihe albtraumhafter Anhängsel aus: Hände mit einem Dutzend Fingern, Hände mit zwei Daumen, Hände mit weiteren Händen, die wie ein botanischer Mutant daraus hervorsprossen. Die Finger haben entweder zu viele oder gar keine Gelenke. Sie sehen aus wie Diagramme in einem medizinischen Lehrbuch aus einer fremden Welt. Die Unfähigkeit der Maschinen bei dieser speziellen Aufgabe ist zu einem Witz über die Unzulänglichkeiten der KI geworden. Wie eine Person es auf Twitter ausdrückte: „Fragen Sie niemals eine Frau in ihrem Alter oder ein KI-Model, warum sie ihre Hände verstecken.“

Wie andere berichtet haben, hängt das Handproblem teilweise mit der Fähigkeit der Generatoren zusammen, Informationen aus den riesigen Bilddatensätzen zu extrapolieren, mit denen sie trainiert wurden. Wenn ein Benutzer eine Textaufforderung in einen Generator eingibt, greift dieser auf unzählige verwandte Bilder zurück und repliziert die gelernten Muster. Aber wie ein Archäologe, der versucht, ägyptische Hieroglyphen aus dem Rosetta-Stein zu übersetzen, kann die Maschine nur aus ihrem gegebenen Material Schlussfolgerungen ziehen, und es gibt Wissenslücken, insbesondere wenn es darum geht, komplexe organische Formen ganzheitlich zu verstehen. Fehlerhafte oder unvollständige Datensätze führen zu fehlerhaften Ergebnissen. Wie der Linguist Noam Chomsky und seine Co-Autoren kürzlich in einem aktuellen Times-Kommentar argumentierten, lernen Maschinen und Menschen unterschiedlich. „Der menschliche Geist ist nicht wie ChatGPT und seinesgleichen eine schwerfällige statistische Maschine für den Mustervergleich, die sich mit Hunderten von Terabytes an Daten verschlingt“, schrieben sie. Stattdessen „operiert es mit kleinen Informationsmengen; Es geht nicht darum, grobe Korrelationen zwischen Datenpunkten abzuleiten, sondern darum, Erklärungen zu schaffen.“

Ein Generator kann berechnen, dass Hände Finger haben, aber es ist schwieriger, ihm beizubringen, dass es nur fünf sein sollten oder dass die Ziffern im Verhältnis zueinander mehr oder weniger festgelegte Längen haben. Schließlich sehen Hände aus verschiedenen Blickwinkeln sehr unterschiedlich aus. Während ich auf mein eigenes Paar schaue, während ich dies auf der Tastatur meines Laptops tippe, sind meine Finger perspektivisch verkürzt und halb von meinen Handflächen verdeckt; Ein Beobachter wäre aus einem statischen Bild nicht in der Lage, ihre genaue Röntgenstruktur zu bestimmen. Peter Bentley, Professor für Informatik am University College London, sagte mir, dass KI-Tools „gelernt haben, dass Hände Elemente wie Finger, Nägel und Handflächen haben.“ Aber sie haben kein Verständnis dafür, was eine Hand wirklich ist.“ Das gleiche Problem tritt manchmal auf, wenn KI versucht, kleinere Merkmale wie Ohren darzustellen, die wie fleischige Strudel ohne die komplizierte Knorpelstruktur erscheinen; oder Zähne, die falsch im Mund sitzen; oder Pupillen, die sich als Ziegenkleckse entpuppen. KI kann visuelle Muster erfassen, nicht jedoch die zugrunde liegende biologische Logik.

Ein Teil des Problems besteht darin, dass die meisten Bilder von Menschen ihre Hände nicht in den Mittelpunkt stellen. Wir sind nicht so begeistert von Nahaufnahmen von Fingern wie von Bildern von Gesichtern. „Wenn der Datensatz zu 100 Prozent aus Händen bestünde, würde er meiner Meinung nach viel besser abschneiden, da das Modell einen größeren Teil seiner Kapazität den Händen zuweisen würde“, sagt Alex Champandard, Mitbegründer eines Unternehmens namens Creative.ai, das sich um die Entwicklung von Daten kümmert Werkzeuge für die Kreativbranche, sagte ich. Eine Lösung könnte darin bestehen, KI-Programme anhand spezieller monografischer Datensätze zu trainieren. (In seiner Firma baut Champandard derzeit Trainingssets, die vollständig aus Asphalt- oder Ziegelsteinbildern bestehen, damit Filmemacher oder Videospielentwickler schnell Oberflächentexturen hinzufügen können.) Eine andere Möglichkeit könnte darin bestehen, KI-Datensätzen dreidimensionale Renderings hinzuzufügen, sagte Bentley Mich. Derzeit gibt es kein 3D-Äquivalent eines gut getaggten Getty Images-Archivs, mit dem ein KI-Tool trainiert werden kann, aber im vergangenen Dezember veröffentlichte das von Microsoft unterstützte Startup OpenAI einen Artikel, in dem es um ein Tool geht, das dreidimensionale Modelle erstellt, was hilfreich sein könnte Geben Sie Bildgeneratoren mehr räumliches Bewusstsein – ein Wissen über die Skelettstruktur unter der zweidimensionalen Haut.

Beim Schreiben von Eingabeaufforderungen für KI-Generatoren sind Benutzer oft nicht sehr genau. Sie geben möglicherweise das Wort „Hand“ ein, ohne anzugeben, was die Hand tun oder wie sie positioniert werden soll. Jim Nightingale, ein ehemaliger Texter, der in Neuseeland lebt und inzwischen KI-Berater ist, sagte mir, dass er den Leuten rät, „sich vorzustellen, wie die Schulungsbilder beschriftet worden sein könnten, und von dort aus Ihre Eingabeaufforderung zurückzuentwickeln.“ Nightingale schlug vor, „erkennbare Gesten“ wie eine geballte Faust und Merkmale wie haarige Knöchel zu benennen, um Generatoren dabei zu helfen, spezifischere oder detailliertere Quellbilder zu isolieren. Allerdings funktionieren solche Tricks nicht immer. Ein Kunde von Nightingale war ein Autor, der ein digitales Buchcover benötigte. Die KI erzeugte eine überzeugende menschliche Figur, hatte aber Schwierigkeiten, eine bestimmte Handbewegung umzusetzen, die der Autor im Sinn hatte, also engagierte Nightingale einen freiberuflichen menschlichen Künstler, um sie manuell in das KI-Bild zu malen.

Zumindest bisher im Leben der generativen KI neigen Benutzer dazu, Bilder zu suchen, die der Realität möglichst nahe kommen. Wir beurteilen KI danach, wie genau sie das wiedergibt, was wir bereits gesehen haben. Wenn wir knorrige KI-Hände betrachten, fallen wir in das unheimliche Tal und verspüren ein viszerales Gefühl des Ekels. Die Hände sind beide echt – strukturiert, faltig, fleckig, mit mehr Details, als die meisten menschlichen Künstler erreichen könnten – und völlig im Widerspruch zu der Art und Weise, wie Hände sein sollten. Der Ausfall der Maschine ist in gewisser Weise tröstlich. Hände sind ein Symbol der Menschlichkeit, „eine direkte Entsprechung zwischen Vorstellungskraft und Ausführung“, wie Patti Smith kürzlich schrieb. Solange wir die Einzigen sind, die sie verstehen, werden uns unsere Computer vielleicht nicht ganz verdrängen. Die seltsamen Verrenkungen von KI-Händen wecken in mir ein Gefühl erwartungsvoller Nostalgie, einer Zukunft, in der sich die Technologie unweigerlich verbessert und wir auf Fehler wie ein kitschiges Relikt der „frühen KI“-Ära zurückblicken, nämlich die Art und Weise, wie körnige Digitalkamerafotos wirken erinnern an die Zweitausender.

Mit der Zeit werden wir weniger Hinweise darauf haben, welche Bilder von KI erzeugt und welche von Menschenhand erstellt wurden. Wie Champandard mir über die zunehmende Verbreitung von unregelmäßigen Fingern und unvollständigen Krallen sagte: „Ich denke, das ist ein vorübergehendes Problem.“ Soucie, meine Kunstlehrerin, hat ein ähnliches Anfängerproblem in den KI-Bildern und in den Zeichnungen ihrer Schüler festgestellt. „Ein Schüler der achten oder neunten Klasse konzentriert sich beim Zeichnen seiner Hand immer auf die Kontur“, sagte sie. Ein junger Künstler, der die schlängelnde Linie faltiger Haut verfolgt, wird vom Nachdenken über die Gesamtform der Hand und ihre dreidimensionale Qualität abgelenkt. Wie jeder Kunststudent, der Schwierigkeiten hat, werden KI-Tools von mehr Training profitieren. „Es gibt einen Punkt, an dem Struktur und Kontur für einen Schüler zusammenpassen“, sagte Soucie. „Das ist normalerweise das zweite Studienjahr.“ ♦