Why do AI image generators create distorted faces?

AI models generate images at relatively low base resolutions, typically 1024x1024 or smaller. When multiple faces appear in a scene, each face only gets a small number of pixels to work with. The model struggles to maintain symmetry and correct proportions at very small face sizes, leading to warped eyes, asymmetrical mouths, and missing features — especially in group shots and distant figures.

Can face restoration fix faces that are barely recognizable?

Face restoration works best on faces that are at least roughly 24x24 pixels. Below that threshold, there is not enough facial structure for the restoration model to analyze. For extremely tiny or obscured faces, compositing a better face from another generation of the same prompt usually gives better results than trying to restore pixels that barely exist.

Will face restoration change the art style of my AI generation?

No. Face restoration models like GFP-GAN only modify detected face regions. The background, clothing, lighting, colors, and overall composition of your image remain completely untouched. This targeted approach is what makes dedicated face restoration far superior to running the whole image through a general sharpening filter.

如何修复 AI 生成图片中模糊、扭曲或畸形的面孔

三周前我生成了我认为自己做过的最好的图像。一个奇幻酒馆场景。温暖的炉火光、精细的木梁、角落里一张桌子上的一群旅行者。构图完美。灯光正是我想要的。我准备好到处发布了。

然后我放大了。

其中一个旅行者的左眼比应该的位置高出大约半英寸。另一个人的嘴看起来像是在向一侧融化。第三个，后面的那个，根本没有鼻子。只有一片光滑的皮肤在鼻子应该在的位置。

我试着重新生成。我大概每十五次生成才能得到相同的构图一次，而每一次，面孔都以不同的方式出了问题。有时眼睛没问题但嘴是歪的。有时比例还行但一切都很模糊。我花了两个晚上试图得到一个干净的生成，最后才意识到我解决的是错误的问题。

为什么群体场景总是破坏面孔

大多数 AI 图像生成器在约 1024x1024 像素的基础分辨率下创建图像。这听起来很多，直到你想想群体场景中会发生什么。如果你的图像里有四个人，每张面孔可能只分配到 40x40 像素的区块。面孔离相机越远，得到的像素就越少。

在 40x40 像素下，AI 模型根本没有足够的画布来绘制两只对称的眼睛、一个比例恰当的鼻子和一张形状均匀的嘴。不是模型不擅长画脸。是你在要求它在一张邮票上画肖像。像素预算太小了。

这不是 Midjourney 的问题或 Stable Diffusion 的问题。这是一个影响当前所有 AI 图像生成器的分辨率限制问题。直到基础分辨率显著提高，群体场景和远处人物总会有面孔问题。

反复重新生成是个陷阱

我可能烧掉了大约 40 个 GPU 小时来尝试生成那个有干净面孔的酒馆场景。每次我得到了好的面孔，构图就变了。每次我保持了构图，面孔就坏了。数学上这对你不利。需要在同一次生成中让完美面孔和完美构图对齐的变量数量是天文数字。

更聪明的方法是把两个问题分开。先得到你想要的构图。完全不要担心面孔。一旦你有了一个有效的构图，单独修复面孔。这更快、更便宜、也远比不断重新生成少让人沮丧。

专用面部修复是如何工作的

通用放大工具对一切同等锐化。它们不知道面孔和木梁的区别。像 GFPGAN 这样的面部修复模型是专门在数百万张人类面孔上训练的。它们理解面部解剖学。眼睛应该彼此相对的位置。鼻子如何与嘴巴对齐。自然皮肤纹理和人工平滑的区别。

运行面部修复时，模型首先检测所有面部区域，然后只增强这些区域。背景、灯光、颜色、服装。这些都不会变。只有面孔被处理。而模型的设计是保守的。它增强已有的东西，而不是发明全新的面部特征。

花费是每张图片 4 个积分。处理时间三到六秒，不管场景中有多少张面孔。那个有四个旅行者的酒馆图像花了我 4 个积分和六秒钟。而在我发现这个方法之前，同样的图像花了我两个晚上的反复生成。

面部修复不起作用的情况

有极限。如果一张面孔小于约 24x24 像素，即使是专门的模型也没有足够的结构信息来工作。模型至少需要一个基本的面部形状来增强。一只眼睛、一个鼻子轮廓、嘴巴的位置。如果它只能看到一个肤色模糊块，结果仍然会是一个模糊块。可能是一个稍微更详细的模糊块，但依然是模糊块。

对于这些情况，我找到了一个变通办法。再生成几个相同提示词的版本。选那张面孔恰好是最好的生成图。把它裁剪出来合成到你的主图中。光线和颜色通常匹配得足够好，快速调整一下色阶就能解决问题。然后对整个合成图运行一次面部修复来清理微小的不一致。

这比单纯重新生成更费事吗？短期来看是的。但你只需要做一次就完了。不用再向随机数之神祈祷一次所有东西都对上的生成。你掌控了输出，而不是希望 AI 运气好。

这对真实照片也有效

我应该提一下，因为很多人都不知道。同样的面部修复模型既可以修复 AI 生成的面孔，也对真实照片有效。老家庭照片中面孔模糊不清的。手机拍的群体照中有些人没对上焦的。2005 年低分辨率数码相机拍的图片。模型不在乎图像从哪里来。它只看到一张脸，然后试图让它更清晰。

我在一张我祖父母 1980 年代模糊的照片上测试了。原始照片是一张钱包大小的打印品，低分辨率扫描的。我祖父的脸大概只有 30 像素宽。面部修复恢复了他的眼睛、鼻子的形状、甚至他微笑时轻微的不对称。我妈妈看到的时候哭了。光是这一点就比花掉的 4 个积分值太多了。

如果你厌倦了因为面孔损坏而扔掉好的构图，试试在你下次生成上运行一次面部修复。你可能已经有了你想要的图像。只是需要把面孔修好。