Why do AI image generators create distorted faces?

AI models generate images at relatively low base resolutions, typically 1024x1024 or smaller. When multiple faces appear in a scene, each face only gets a small number of pixels to work with. The model struggles to maintain symmetry and correct proportions at very small face sizes, leading to warped eyes, asymmetrical mouths, and missing features — especially in group shots and distant figures.

Can face restoration fix faces that are barely recognizable?

Face restoration works best on faces that are at least roughly 24x24 pixels. Below that threshold, there is not enough facial structure for the restoration model to analyze. For extremely tiny or obscured faces, compositing a better face from another generation of the same prompt usually gives better results than trying to restore pixels that barely exist.

Will face restoration change the art style of my AI generation?

No. Face restoration models like GFP-GAN only modify detected face regions. The background, clothing, lighting, colors, and overall composition of your image remain completely untouched. This targeted approach is what makes dedicated face restoration far superior to running the whole image through a general sharpening filter.

AI生成アートでぼやけた、歪んだ、または変形した顔を修正する方法

3週間前、私は自分が持っている中で最高だと思う画像を作成しましたこれまでに作られた。幻想的な居酒屋の風景。温かみのあるファイアライト、詳細な木製梁、角のテーブルに座る旅行者のグループ。構成は完璧です。照明はまさに私が望んでいたものでした。投稿する準備ができていましたそれはどこにでもあります。

それからズームインしてみました。

旅行者の一人は左目が約0.5インチ上に浮いていたあるべき場所に。もう一人はそれのように見える口を持っていました横に溶けていく。 3番目の後ろの個体には鼻がありませんでした。全部。鼻があるべき場所の皮膚の滑らかな部分だけです。

巻き直してみました。同じ構成がおそらくすべての中に 1 つあります 15世代、そのたびに顔が壊れていったさまざまな方法で。目は大丈夫でも口が間違っていることもありました。プロポーションは大丈夫でも、すべてがぼやけてしまうことがありました。私は過ごしましたクリーンジェネレーションを取得しようとして2晩過ごした後、私は自分がそうなっていることに気づきました間違った問題を解決すること。

なぜグループシーンではいつも顔が崩れるのか

ほとんどの AI 画像ジェネレーターは、約 1000 の基本解像度で画像を作成します。 1024x1024 ピクセル。何を考えるまでは、それは大変なことのように思えますが、グループシーンで起こります。画像に 4 人の人物が写っている場合、それぞれ顔には 40x40 ピクセルのパッチしか適用できない場合があります。さらに顔がカメラからのものであるほど、取得するピクセルが少なくなります。

40x40 ピクセルでは、AI モデルには十分なキャンバスがありません。対称的な 2 つの目、適切な比率の鼻、均等な輪郭を描きます。形をした口。モデルさんの顔が下手なわけではありません。それはあなたです切手に肖像画を描くよう求めている。ピクセルの予算小さすぎます。

これは、Midjourney 問題や安定拡散の問題ではありません。それは現在のすべての AI 画像ジェネレーターに影響を与える解像度の問題。基本解像度が大幅に大きくなるまで、シーンをグループ化し、遠くにいる人物は常に顔の問題を抱えています。

リセマラは罠だ

その酒場を生成するのにおそらく 40 GPU 時間を費やしましたきれいな顔のシーン。いい顔になるたびに構図が変わりました。構図を保つたびに顔が崩れてしまいました。数学ここではあなたに反対しています。調整する必要がある変数の数同世代で完璧な顔と完璧な構図は天文学的な。

より賢明なアプローチは、2 つの問題を分離することです。を入手最初に必要な構成を選択します。顔などは全く気にしないでください。一度機能するコンポジションができたら、顔を個別に修正します。これはより速く、より安く、そして劇的にストレスが軽減されます。

専用の顔復元の仕組み

一般的な高級業者はすべてを平等に研ぎます。彼らは知りません顔と木の梁の違い。顔修復モデル GFPGAN のように、人間の顔に特化してトレーニングされました。何百万もの彼ら。彼らは顔の解剖学を理解しています。相対的に目をどこに置くべきかお互いに。鼻と口の位置がどのように一致するか。なんてナチュラルな肌なんだろうテクスチャは人工的なスムージングと比べて似ています。

画像に対して顔復元パスを実行すると、最初にモデルがすべての顔領域を検出し、それらの領域のみを強調します。の背景、照明、色、服装。どれも変化します。触られるのは顔だけです。そしてモデルは保守的です設計上。完全に発明するのではなく、そこにあるものを強化する新しい顔の特徴。

料金は、ClarifyPix の画像あたり 4 クレジットです。処理には 3 時間かかりますシーン内の顔の数に関係なく、6 秒かかります。あの居酒屋 4 人の旅行者が写った画像には 4 クレジットと 6 秒かかりました。同じこれを理解するまで、イメージを再ロールするのに2晩かかりました。

顔の修復が役に立たない場合

限界があります。顔が約 24x24 ピクセルより小さい場合、特殊なモデルであっても構造情報が十分ではありません。と協力します。モデルを強化するには、少なくとも基本的な顔の形状が必要です。アン目、鼻の輪郭、口の位置。見えるものだけがあれば肌色の塊の場合でも、結果は依然として塊のように見えます。たぶんもう少し詳細なブロブですが、ブロブです。

そういった場合の回避策を見つけました。同じプロンプトをいくつか生成するもっと何度も。その特定の顔があった世代を選択してください一番よく出てくる。それを切り取ってメイン画像に合成します。の通常、照明と色は十分に一致しており、レベルもすぐに上がります調整により取引が成立します。次に、単一の顔復元パスを実行します。コンポジットを使用して、軽微な不一致をクリーンアップします。

これは単に再ロールするよりも手間がかかるのでしょうか? はい、短期的にはそうです。しかし、一度やれば終わりです。もうRNGの神に祈る必要はありません。すべてが一致する世代。出力を制御するのはあなたです AI が幸運をもたらすことを期待するのではなく。

これは実際の写真も修正します

気づいていない人も多いので言っておきます。の AI で生成された顔を修正する同じ顔復元モデルも機能します実際の写真について。顔が柔らかくなったり、ぼやけたりしている古い家族写真。一部の人にピントが合っていないスマートフォンでの集合写真。低い 2005 年の解像度のデジタルカメラ画像。モデルは関係ありません。イメージがどこから来たのか。顔を見て、それを実現しようとするだけですより明確に。

1980 年代の祖父母のぼやけた写真でこれをテストしてみました。オリジナルは低解像度でスキャンされた財布サイズのプリントでした。私の祖父の顔は幅がおそらく 30 ピクセルでした。顔修復パスにより、彼の目、鼻の形、さらには彼の笑顔にはわずかな非対称性がある。母はそれを見て泣きました。それそれだけでも 4 クレジット以上の価値がありました。

顔が気に入らないという理由で素晴らしい作品を捨てるのにうんざりしているのであれば、壊れています。次回の顔復元パスを実行してみてください。世代。あなたが望むイメージはすでにあるかもしれません。ただ必要なのは顔が固定されました。