Como Corrigir Rostos Borrados, Distorcidos ou Deformados em Arte Gerada por IA
Geradores de imagens de IA criam composições bonitas, mas frequentemente estragam os rostos em cenas de grupo. Aqui está como consertá-los sem perder a composição que você passou horas acertando.
Há três semanas, gerei o que achei ser a melhor imagem que tinha já feito. Uma cena de taverna de fantasia. Luz quente do fogo, madeira detalhada vigas, um grupo de viajantes em uma mesa de canto. A composição foi perfeito. A iluminação era exatamente o que eu queria. Eu estava pronto para postar isso em todos os lugares.
Então eu ampliei.
Um dos viajantes tinha o olho esquerdo flutuando cerca de meia polegada acima onde deveria estar. Outro tinha uma boca que parecia derretendo de lado. O terceiro, o de trás, não tinha nariz tudo. Apenas um pedaço liso de pele onde deveria estar o nariz.
Eu tentei rolar novamente. Eu tenho a mesma composição, talvez uma de cada quinze gerações, e todas as vezes, os rostos foram quebrados em maneiras diferentes. Às vezes os olhos estavam bem, mas a boca estava errada. Às vezes as proporções estavam boas, mas tudo estava embaçado. eu gastei duas noites tentando conseguir uma geração limpa antes de perceber que estava resolvendo o problema errado.
Por que cenas de grupo sempre quebram rostos
A maioria dos geradores de imagens de IA cria imagens com uma resolução básica de cerca de 1024x1024 pixels. Isso parece muito até você pensar sobre o que acontece em uma cena de grupo. Se a sua imagem tiver quatro pessoas, cada uma face pode ter apenas um patch de 40x40 pixels para trabalhar. Quanto mais um rosto estiver na câmera, menos pixels ele terá.
Com 40x40 pixels, o modelo de IA simplesmente não possui tela suficiente para desenhe dois olhos simétricos, um nariz de proporções adequadas e um nariz uniformemente boca em forma. Não é que o modelo seja ruim com rostos. É que você estão pedindo para pintar um retrato em um selo postal. O orçamento de pixels é muito pequeno.
Este não é um problema de meio de percurso ou de difusão estável. É um problema de resolução que afeta todos os geradores de imagens de IA atuais. Até que as resoluções básicas fiquem significativamente maiores, agrupe cenas e figuras distantes sempre terão problemas enfrentados.
Re-rolar é uma armadilha
Gastei provavelmente 40 horas de GPU tentando gerar aquela taverna cena com rostos limpos. Toda vez que eu conseguia caras boas, a composição mudou. Cada vez que mantive a composição, os rostos quebraram. A matemática está contra você aqui. O número de variáveis que precisam ser alinhadas para rostos perfeitos e uma composição perfeita na mesma geração é astronômico.
A abordagem mais inteligente é separar os dois problemas. Obtenha o composição que você deseja primeiro. Não se preocupe com os rostos. Uma vez você tem uma composição que funciona, fixe os rostos separadamente. Isto é mais rápido, mais barato e dramaticamente menos frustrante.
Como funciona a restauração facial dedicada
Os upscalers gerais aprimoram tudo igualmente. Eles não sabem o diferença entre uma face e uma viga de madeira. Modelos de restauração facial como o GFPGAN foram treinados especificamente em rostos humanos. Milhões de eles. Eles entendem a anatomia facial. Onde os olhos deveriam ficar relativos um para o outro. Como um nariz se alinha com uma boca. Que pele natural textura parece versus alisamento artificial.
Quando você executa uma etapa de restauração facial em sua imagem, o modelo primeiro detecta todas as regiões do rosto e depois aprimora apenas essas regiões. O fundo, a iluminação, as cores, as roupas. Nada disso mudanças. Apenas os rostos são tocados. E o modelo é conservador por design. Melhora o que existe em vez de inventar completamente novas características faciais.
O custo é de 4 créditos por imagem no ClarifyPix. O processamento leva três para seis segundos, independentemente de quantos rostos estão na cena. Aquela taberna imagem com quatro viajantes me custou 4 créditos e seis segundos. O mesmo A imagem me custou duas noites de relançamento antes de eu descobrir isso.
Quando a restauração facial não ajuda
Existem limites. Se um rosto for menor que 24x24 pixels, não há informação estrutural suficiente, mesmo para um modelo especializado, trabalhar com. O modelo precisa de pelo menos um formato de rosto básico para melhorar. Um olho, contorno do nariz, posição da boca. Se tudo o que ele pode ver é um bolha da cor da pele, o resultado ainda parecerá uma bolha. Talvez um blob um pouco mais detalhado, mas um blob.
Para esses casos, encontrei uma solução alternativa. Gere o mesmo prompt alguns mais vezes. Escolha a geração onde aquele rosto específico aconteceu saia melhor. Recorte-o e componha-o em sua imagem principal. O iluminação e cores geralmente combinam bem, e níveis rápidos o ajuste sela o acordo. Em seguida, execute uma única passagem de restauração facial o composto para limpar quaisquer pequenas inconsistências.
Isso é mais trabalhoso do que apenas relançar? Sim, no curto prazo. Mas você faz isso uma vez e pronto. Chega de orar aos deuses do RNG por uma geração onde tudo se alinha. Você assume o controle da saída em vez de esperar que a IA tenha sorte.
Isso também corrige fotos reais
Devo mencionar isso porque muitas pessoas não percebem isso. O o mesmo modelo de restauração facial que corrige rostos gerados por IA também funciona em fotografias reais. Fotos antigas de família em que os rostos estão suaves ou desfocados. Fotos de grupo de smartphones onde algumas pessoas estavam fora de foco. Baixo imagens de câmera digital com resolução de 2005. A modelo não liga de onde veio a imagem. Ele apenas vê um rosto e tenta fazer isso mais claro.
Testei isso em uma foto borrada dos meus avós da década de 1980. O original era uma impressão do tamanho de uma carteira digitalizada em baixa resolução. Meu o rosto do avô tinha talvez 30 pixels de diâmetro. O rosto O passe de restauração recuperou os olhos, o formato do nariz, até o ligeira assimetria em seu sorriso. Minha mãe chorou quando viu. Isso por si só valia mais do que os 4 créditos que custou.
Se você está cansado de jogar fora ótimas composições porque os rostos estão quebrados, tente executar uma etapa de restauração facial em seu próximo geração. Você já pode ter a imagem que deseja. Só precisa os rostos fixos.