Comment réparer des visages flous, déformés ou distordus dans l'art généré par l'IA
Les générateurs d'images IA créent de belles compositions mais ruinent souvent les visages dans les scènes de groupe. Voici comment les réparer sans perdre la composition sur laquelle vous avez passé des heures.
Il y a trois semaines, j'ai généré ce que je pensais être la meilleure image que j'avais jamais fait. Une scène de taverne fantastique. Feu de cheminée chaleureux, bois détaillé poutres, un groupe de voyageurs attablés dans un coin. La composition était parfait. L'éclairage était exactement ce que je souhaitais. J'étais prêt à poster partout.
Puis j'ai zoomé.
L'un des voyageurs avait l'œil gauche flottant à environ un demi-pouce au-dessus là où il devrait être. Un autre avait une bouche qui ressemblait à celle-ci. fondant latéralement. Le troisième, celui du fond, n'avait pas de nez tout. Juste une peau lisse là où devrait se trouver un nez.
J'ai essayé de relancer. J'ai la même composition, peut-être une sur chaque quinze générations, et à chaque fois, les visages étaient brisés en différentes manières. Parfois, les yeux allaient bien mais la bouche n'allait pas. Parfois les proportions étaient correctes mais tout était flou. j'ai dépensé deux soirées à essayer d'avoir une génération propre avant de réaliser que j'étais résoudre le mauvais problème.
Pourquoi les scènes de groupe brisent toujours les visages
La plupart des générateurs d'images IA créent des images à une résolution de base d'environ 1024x1024 pixels. Cela semble beaucoup jusqu'à ce que vous réfléchissiez à ce que se passe dans une scène de groupe. Si votre image contient quatre personnes, chacune le visage pourrait ne disposer que d'un patch de 40 x 40 pixels. Plus un le visage provient de la caméra, moins il obtient de pixels.
À 40 x 40 pixels, le modèle IA n'a tout simplement pas assez de canevas pour dessinez deux yeux symétriques, un nez bien proportionné et un nez uniformément bouche en forme. Ce n’est pas que le modèle soit mauvais en visages. C'est que toi lui demandent de dresser un portrait sur un timbre-poste. Le budget pixels est trop petit.
Il ne s'agit pas d'un problème de mi-parcours ou d'un problème de diffusion stable. C'est un problème de résolution qui affecte tous les générateurs d’images IA actuels. Jusqu'à ce que les résolutions de base deviennent considérablement plus grandes, les scènes de groupe et les personnalités lointaines auront toujours des problèmes à affronter.
Relancer est un piège
J'ai passé probablement 40 heures de GPU à essayer de générer cette taverne scène avec des visages propres. Chaque fois que j'ai de bons visages, la composition changé. Chaque fois que je gardais la composition, les visages se brisaient. Les mathématiques est contre vous ici. Le nombre de variables qui doivent s'aligner pour des visages parfaits et une composition parfaite dans la même génération sont astronomique.
L’approche la plus intelligente consiste à séparer les deux problèmes. Obtenez le composition que vous voulez en premier. Ne vous inquiétez pas du tout des visages. Une fois vous avez une composition qui fonctionne, fixez les visages séparément. C'est plus rapide, moins cher et nettement moins frustrant.
Comment fonctionne la restauration dédiée du visage
Les upscalers généraux aiguisent tout de la même manière. Ils ne connaissent pas le différence entre une face et une poutre en bois. Modèles de restauration de visage comme GFPGAN ont été formés spécifiquement sur les visages humains. Des millions de eux. Ils comprennent l’anatomie du visage. Où les yeux devraient être placés par rapport les uns aux autres. Comment un nez s'aligne avec une bouche. Quelle peau naturelle la texture ressemble à un lissage artificiel.
Lorsque vous exécutez une restauration de visage sur votre image, le modèle est d'abord détecte toutes les régions du visage, puis améliore uniquement ces régions. Le le fond, l'éclairage, les couleurs, les vêtements. Rien de tout ça changements. Seuls les visages sont touchés. Et le modèle est conservateur par conception. Il valorise ce qui existe plutôt que d’inventer complètement de nouveaux traits du visage.
Le coût est de 4 crédits par image sur ClarifyPix. Le traitement prend trois à six secondes, quel que soit le nombre de visages présents dans la scène. Cette taverne l'image avec quatre voyageurs m'a coûté 4 crédits et six secondes. Le même l'image m'avait coûté deux soirées de relance avant de m'en rendre compte.
Quand la restauration du visage n'aide pas
Il y a des limites. Si un visage est plus petit qu'environ 24 x 24 pixels, il il n'y a pas assez d'informations structurelles pour que même un modèle spécialisé puisse travailler avec. Le modèle a besoin d’au moins une forme de visage de base pour être amélioré. Un un œil, un contour du nez, une position de la bouche. Si tout ce qu'il peut voir est un une goutte de couleur chair, le résultat ressemblera toujours à une goutte. Peut-être un blob légèrement plus détaillé, mais un blob.
Pour ces cas, j'ai trouvé une solution de contournement. Générez la même invite quelques plus de fois. Choisissez la génération où ce visage spécifique est arrivé s'en sortir le mieux. Recadrez-le et composez-le dans votre image principale. Le l'éclairage et les couleurs correspondent généralement assez bien, et un niveau rapide L’ajustement scelle l’affaire. Ensuite, exécutez une passe de restauration sur une seule face le composite pour nettoyer les incohérences mineures.
Est-ce plus de travail que de simplement relancer ? Oui, à court terme. Mais vous le faites une fois et vous avez terminé. Plus besoin de prier les dieux RNG pour une génération où tout s’aligne. Vous prenez le contrôle de la sortie au lieu d'espérer que l'IA aura de la chance.
Cela corrige également les vraies photos
Je devrais le mentionner car beaucoup de gens ne s’en rendent pas compte. Le le même modèle de restauration de visage qui corrige les visages générés par l'IA fonctionne également sur de vraies photographies. De vieilles photos de famille où les visages sont mous ou flous. Prises de vue de groupe sur smartphone où certaines personnes étaient floues. Faible images d'appareil photo numérique de résolution de 2005. Le modèle s'en fiche d'où vient l'image. Il voit juste un visage et essaie de le faire plus clair.
J'ai testé cela sur une photo floue de mes grands-parents des années 1980. L’original était une impression au format portefeuille numérisée à basse résolution. Mon Le visage de grand-père mesurait peut-être 30 pixels de large. Le visage La passe de restauration a permis de retrouver ses yeux, la forme de son nez, même le légère asymétrie dans son sourire. Ma mère a pleuré quand elle l'a vu. Cela à lui seul, il valait plus que les 4 crédits qu'il coûtait.
Si vous en avez assez de jeter de superbes compositions parce que les visages sont cassés, essayez d'exécuter une passe de restauration du visage sur votre prochain génération. Vous avez peut-être déjà l'image que vous souhaitez. Il faut juste les visages fixes.