Wie man unscharfe, verzerrte oder deformierte Gesichter in KI-generierter Kunst repariert
KI-Bildgeneratoren erstellen schöne Kompositionen, ruinieren aber oft Gesichter in Gruppenszenen. Hier ist, wie man sie repariert, ohne die Komposition zu verlieren, an der man stundenlang gearbeitet hat.
Vor drei Wochen habe ich das meiner Meinung nach beste Bild erstellt, das ich hatte jemals gemacht. Eine Fantasie-Wirtshausszene. Warmer Feuerschein, detailliertes Holz Balken, eine Gruppe Reisender an einem Ecktisch. Die Komposition war perfekt. Die Beleuchtung war genau das, was ich wollte. Ich war bereit zu posten es überall.
Dann habe ich hineingezoomt.
Bei einem der Reisenden schwebte das linke Auge etwa einen Zentimeter darüber wo es sein sollte. Ein anderer hatte einen Mund, der so aussah seitlich schmelzen. Der Dritte, der hinten, hatte keine Nase alle. Nur ein glatter Hautfleck dort, wo eine Nase sein sollte.
Ich habe versucht, erneut zu rollen. Ich habe die gleiche Komposition, vielleicht eine von jeder Fünfzehn Generationen lang, und jedes Mal wurden die Gesichter eingebrochen verschiedene Wege. Manchmal waren die Augen in Ordnung, aber der Mund war falsch. Manchmal waren die Proportionen in Ordnung, aber alles war verschwommen. Ich habe ausgegeben Ich habe zwei Abende versucht, eine saubere Generation zu bekommen, bevor mir klar wurde, dass ich es war das falsche Problem lösen.
Warum Gruppenszenen immer Gesichter zerreißen
Die meisten KI-Bildgeneratoren erstellen Bilder mit einer Basisauflösung von ca 1024x1024 Pixel. Das hört sich nach viel an, bis man darüber nachdenkt, was passiert in einer Gruppenszene. Wenn auf Ihrem Bild jeweils vier Personen zu sehen sind Für das Gesicht ist möglicherweise nur ein 40x40-Pixel-Patch verfügbar. Je weiter a Je mehr Gesicht von der Kamera stammt, desto weniger Pixel erhält es.
Bei 40x40 Pixeln hat das KI-Modell einfach nicht genug Leinwand dafür Zeichne zwei symmetrische Augen, eine richtig proportionierte Nase und eine gleichmäßige Nase geformter Mund. Es ist nicht so, dass das Model schlecht in Gesichtern ist. Das bist du bitten ihn, ein Porträt auf einer Briefmarke zu malen. Das Pixelbudget ist zu klein.
Dies ist kein Midjourney-Problem oder ein Problem der stabilen Diffusion. Es ist ein Auflösungsproblem, das jeden aktuellen KI-Bildgenerator betrifft. Bis die Basisauflösungen deutlich größer werden, Gruppenszenen und Entfernte Figuren werden immer Gesichtsprobleme haben.
Das erneute Rollen ist eine Falle
Ich habe wahrscheinlich 40 GPU-Stunden damit verbracht, diese Taverne zu erstellen Szene mit sauberen Gesichtern. Jedes Mal bekam ich gute Gesichter, die Komposition geändert. Jedes Mal, wenn ich die Komposition beibehielt, zerbrachen die Gesichter. Die Mathematik ist hier gegen dich. Die Anzahl der Variablen, die ausgerichtet werden müssen perfekte Gesichter und eine perfekte Komposition in derselben Generation sind astronomisch.
Der klügere Ansatz besteht darin, die beiden Probleme zu trennen. Holen Sie sich das Wählen Sie zunächst die gewünschte Komposition aus. Machen Sie sich überhaupt keine Sorgen um die Gesichter. Einmal Wenn Sie eine Komposition haben, die funktioniert, korrigieren Sie die Gesichter separat. Das ist schneller, billiger und deutlich weniger frustrierend.
So funktioniert die gezielte Gesichtsrestaurierung
Allgemeine Upscaler schärfen alles gleichermaßen. Sie wissen es nicht Unterschied zwischen einer Fläche und einem Holzbalken. Modelle zur Gesichtsrestaurierung wie GFPGAN wurden speziell auf menschliche Gesichter trainiert. Millionen von sie. Sie verstehen die Gesichtsanatomie. Wo die Augen relativ sitzen sollten zueinander. Wie eine Nase mit einem Mund übereinstimmt. Was für eine natürliche Haut Textur sieht aus wie im Vergleich zu künstlicher Glättung.
Wenn Sie eine Gesichtsrestaurierung durchführen, durchlaufen Sie zunächst Ihr Bild und das Modell Erkennt alle Gesichtsbereiche und verbessert dann nur diese Bereiche. Die Hintergrund, die Beleuchtung, die Farben, die Kleidung. Nichts davon Änderungen. Nur die Gesichter werden berührt. Und das Modell ist konservativ mit Absicht. Es wertet das Vorhandene auf, anstatt es komplett zu erfinden neue Gesichtszüge.
Die Kosten betragen 4 Credits pro Bild auf ClarifyPix. Die Bearbeitung dauert drei bis sechs Sekunden, unabhängig davon, wie viele Gesichter sich in der Szene befinden. Diese Taverne Das Bild mit vier Reisenden hat mich 4 Credits und sechs Sekunden gekostet. Das Gleiche Es hat mich zwei Abende gekostet, das Bild noch einmal durchzublättern, bis ich es herausgefunden habe.
Wenn eine Gesichtswiederherstellung nicht hilft
Es gibt Grenzen. Wenn ein Gesicht kleiner als etwa 24 x 24 Pixel ist, dann dort Selbst für ein spezialisiertes Modell reichen die Strukturinformationen nicht aus mit arbeiten. Das Modell benötigt zur Verbesserung mindestens eine grundlegende Gesichtsform. Ein Auge, ein Nasenumriss, eine Mundposition. Wenn alles, was es sehen kann, ein ist Wenn es sich um einen fleischfarbenen Klecks handelt, sieht das Ergebnis immer noch wie ein Klecks aus. Vielleicht ein etwas detaillierterer Blob, aber ein Blob.
Für diese Fälle habe ich eine Problemumgehung gefunden. Generieren Sie die gleiche Eingabeaufforderung mehrmals öfter. Wählen Sie die Generation aus, der dieses bestimmte Gesicht passiert ist komm am besten raus. Schneiden Sie es aus und fügen Sie es in Ihr Hauptbild ein. Die Beleuchtung und Farben passen normalerweise gut genug zusammen, und ein schnelles Abgleichen ist möglich Die Anpassung besiegelt den Deal. Führen Sie dann einen einzelnen Gesichtsrestaurierungsdurchgang durch des Verbundwerkstoffs, um eventuelle kleinere Inkonsistenzen zu beseitigen.
Ist das mehr Arbeit als nur das Neurollen? Ja, kurzfristig. Aber Du machst es einmal und du bist fertig. Kein Beten mehr zu den RNG-Göttern eine Generation, in der alles stimmt. Sie übernehmen die Kontrolle über die Ausgabe anstatt zu hoffen, dass die KI Glück hat.
Dies behebt auch echte Fotos
Ich sollte das erwähnen, weil es vielen Menschen nicht bewusst ist. Die Das gleiche Gesichtswiederherstellungsmodell, das KI-generierte Gesichter repariert, funktioniert auch auf echten Fotos. Alte Familienfotos, auf denen Gesichter weich oder verschwommen sind. Smartphone-Gruppenaufnahmen, bei denen einige Personen unscharf waren. Niedrig Auflösung von Digitalkamerabildern aus dem Jahr 2005. Dem Modell ist das egal woher das Bild kam. Es sieht nur ein Gesicht und versucht, es zu erkennen klarer.
Ich habe dies an einem verschwommenen Foto meiner Großeltern aus den 1980er Jahren getestet. Das Original war ein Ausdruck im Portemonnaieformat, der mit niedriger Auflösung gescannt wurde. Mein Das Gesicht des Großvaters war vielleicht 30 Pixel groß. Das Gesicht Der Restaurierungsdurchgang stellte seine Augen, seine Nasenform und sogar die wieder her leichte Asymmetrie in seinem Lächeln. Meine Mutter weinte, als sie es sah. Das allein war mehr wert als die 4 Credits, die es gekostet hat.
Wenn Sie es satt haben, tolle Kompositionen wegen der Gesichter wegzuwerfen Wenn Ihr Gerät kaputt ist, führen Sie beim nächsten Mal einen Gesichtswiederherstellungsdurchgang durch Generation. Möglicherweise haben Sie bereits das gewünschte Bild. Es braucht einfach die Gesichter fixiert.