AI生成アートでぼやけた、歪んだ、または変形した顔を修正する方法
AIの画像生成ツールは美しい構図を作りますが、グループシーンでは顔を台無しにすることがよくあります。ここでは、何時間もかけて完成させた構図を失わずにそれを修正する方法をご紹介します。
3週間前、私は自分が持っている中で最高だと思う画像を作成しました これまでに作られた。 幻想的な居酒屋の風景。 温かみのあるファイアライト、詳細な木製 梁、角のテーブルに座る旅行者のグループ。 構成は 完璧です。 照明はまさに私が望んでいたものでした。 投稿する準備ができていました それはどこにでもあります。
それからズームインしてみました。
旅行者の一人は左目が約0.5インチ上に浮いていた あるべき場所に。 もう一人はそれのように見える口を持っていました 横に溶けていく。 3番目の後ろの個体には鼻がありませんでした。 全部。 鼻があるべき場所の皮膚の滑らかな部分だけです。
巻き直してみました。 同じ構成がおそらくすべての中に 1 つあります 15世代、そのたびに顔が壊れていった さまざまな方法で。 目は大丈夫でも口が間違っていることもありました。 プロポーションは大丈夫でも、すべてがぼやけてしまうことがありました。 私は過ごしました クリーンジェネレーションを取得しようとして2晩過ごした後、私は自分がそうなっていることに気づきました 間違った問題を解決すること。
なぜグループシーンではいつも顔が崩れるのか
ほとんどの AI 画像ジェネレーターは、約 1000 の基本解像度で画像を作成します。 1024x1024 ピクセル。 何を考えるまでは、それは大変なことのように思えますが、 グループシーンで起こります。 画像に 4 人の人物が写っている場合、それぞれ 顔には 40x40 ピクセルのパッチしか適用できない場合があります。 さらに 顔がカメラからのものであるほど、取得するピクセルが少なくなります。
40x40 ピクセルでは、AI モデルには十分なキャンバスがありません。 対称的な 2 つの目、適切な比率の鼻、均等な輪郭を描きます。 形をした口。 モデルさんの顔が下手なわけではありません。 それはあなたです 切手に肖像画を描くよう求めている。 ピクセルの予算 小さすぎます。
これは、Midjourney 問題や安定拡散の問題ではありません。 それは 現在のすべての AI 画像ジェネレーターに影響を与える解像度の問題。 基本解像度が大幅に大きくなるまで、シーンをグループ化し、 遠くにいる人物は常に顔の問題を抱えています。
リセマラは罠だ
その酒場を生成するのにおそらく 40 GPU 時間を費やしました きれいな顔のシーン。 いい顔になるたびに構図が 変わりました。 構図を保つたびに顔が崩れてしまいました。 数学 ここではあなたに反対しています。 調整する必要がある変数の数 同世代で完璧な顔と完璧な構図は 天文学的な。
より賢明なアプローチは、2 つの問題を分離することです。 を入手 最初に必要な構成を選択します。 顔などは全く気にしないでください。 一度 機能するコンポジションができたら、顔を個別に修正します。 これは より速く、より安く、そして劇的にストレスが軽減されます。
専用の顔復元の仕組み
一般的な高級業者はすべてを平等に研ぎます。 彼らは知りません 顔と木の梁の違い。 顔修復モデル GFPGAN のように、人間の顔に特化してトレーニングされました。 何百万もの 彼ら。 彼らは顔の解剖学を理解しています。 相対的に目をどこに置くべきか お互いに。 鼻と口の位置がどのように一致するか。 なんてナチュラルな肌なんだろう テクスチャは人工的なスムージングと比べて似ています。
画像に対して顔復元パスを実行すると、最初にモデルが すべての顔領域を検出し、それらの領域のみを強調します。 の 背景、照明、色、服装。 どれも 変化します。 触られるのは顔だけです。 そしてモデルは保守的です 設計上。 完全に発明するのではなく、そこにあるものを強化する 新しい顔の特徴。
料金は、ClarifyPix の画像あたり 4 クレジットです。 処理には 3 時間かかります シーン内の顔の数に関係なく、6 秒かかります。 あの居酒屋 4 人の旅行者が写った画像には 4 クレジットと 6 秒かかりました。 同じ これを理解するまで、イメージを再ロールするのに2晩かかりました。
顔の修復が役に立たない場合
限界があります。 顔が約 24x24 ピクセルより小さい場合、 特殊なモデルであっても構造情報が十分ではありません。 と協力します。 モデルを強化するには、少なくとも基本的な顔の形状が必要です。 アン 目、鼻の輪郭、口の位置。 見えるものだけがあれば 肌色の塊の場合でも、結果は依然として塊のように見えます。 たぶん もう少し詳細なブロブですが、ブロブです。
そういった場合の回避策を見つけました。 同じプロンプトをいくつか生成する もっと何度も。 その特定の顔があった世代を選択してください 一番よく出てくる。 それを切り取ってメイン画像に合成します。 の 通常、照明と色は十分に一致しており、レベルもすぐに上がります 調整により取引が成立します。 次に、単一の顔復元パスを実行します。 コンポジットを使用して、軽微な不一致をクリーンアップします。
これは単に再ロールするよりも手間がかかるのでしょうか? はい、短期的にはそうです。 しかし、 一度やれば終わりです。 もうRNGの神に祈る必要はありません。 すべてが一致する世代。 出力を制御するのはあなたです AI が幸運をもたらすことを期待するのではなく。
これは実際の写真も修正します
気づいていない人も多いので言っておきます。 の AI で生成された顔を修正する同じ顔復元モデルも機能します 実際の写真について。 顔が柔らかくなったり、ぼやけたりしている古い家族写真。 一部の人にピントが合っていないスマートフォンでの集合写真。 低い 2005 年の解像度のデジタル カメラ画像。モデルは関係ありません。 イメージがどこから来たのか。 顔を見て、それを実現しようとするだけです より明確に。
1980 年代の祖父母のぼやけた写真でこれをテストしてみました。 オリジナルは低解像度でスキャンされた財布サイズのプリントでした。 私の 祖父の顔は幅がおそらく 30 ピクセルでした。 顔 修復パスにより、彼の目、鼻の形、さらには 彼の笑顔にはわずかな非対称性がある。 母はそれを見て泣きました。 それ それだけでも 4 クレジット以上の価値がありました。
顔が気に入らないという理由で素晴らしい作品を捨てるのにうんざりしているのであれば、 壊れています。次回の顔復元パスを実行してみてください。 世代。 あなたが望むイメージはすでにあるかもしれません。 ただ必要なのは 顔が固定されました。