2026年 4月11日 【生成AI】リップシンク動画のワークフローを確立! ひる
Sunoでいくつか作曲をして、バンドメンバーに演奏してもらって動画を作っていますが、 ムサいおっさんだらけの映像では華がないので、Sunoのボーカルに合わせた女性ボーカルの絵を入れたいと思いました。 イメージとなる静止画は、GeminiでもChatGPTでもなんでも作れますが、 それを動画として、且つ口パク(リップシンク)させるには、自分の知る限りHedraとDomoAIくらいしかありませんでした。 Hedraは毎月無料クレジットが貰えて、10秒程度のリップシンク動画を3本くらい作れますが、 昨年まではなかったのに、今年に入ってからバカでかいウォーターマークが入ってしまうように。 Hedraよりリップシンク精度の高いDomoAIに至っては既に無料クレジットが貰えなくなっており、月10ドルの課金せざるを得ない状況。 なんとか課金せずにリップシンク動画を作る方法はないかな〜と、いろいろなクラウドAIを調べましたが見つかりませんでした。 ローカルAI界隈なら何かあるのかも知れないが、過去何度か導入に失敗しており、どうも再チャレンジに踏み切れない。 お金はかからないとは言え、慣れないPythonコマンドを打ち込んで数十GBのファイルをダウンロードして適切に配置せねばならず、 ウチの細い回線でヒーヒー言いながらダウンロードしても結局動かなかった・・・となると時間の無駄に感じる訳です。 特にComfyUIという生成AIプラットフォームが自分にとっては難解で、過去2回ほど導入失敗している関係で、二の足を踏んでいました。 それとは別に、ナレーションを入れたい動画で、以前はVOICEVOXを使っていましたが、もう少し機械的ではない声にしたい。 Google AI Studioでナレーション音声を何回かは無料で作れますが、どうも使い勝手が悪い。 読み間違った箇所だけを修正しようとすると、同じプロンプトと音声モデルにも拘わらず声が変わってしまう。 結局、全文を再生成せざるを得ず、読み間違いはなくなったけどさっきの声の方がまだ良かった・・・ことも発生しがち。 そもそも音声モデルもあまり好みではないものが多く、実在の声優や俳優のクローンみたいな声は作れないのかな・・・と思っていたところ、 ちょうど登場したのがQwen3-TTSという生成AIでした。 なんでも、最低4秒の音声サンプルがあれば、ボイスクローンが出来るという驚異の性能らしく、 今年の1月頃にQwen3-TTSがオープンソース化して誰でも試せるようになったと聞き、試してみることに。 意味不明なエラーだらけになるローカル導入には躊躇しましたが、今回はComfyUIを使わない方法というのを見つけたので試してみることに。 なんとか、PythonからAIモデルやTorch、VAE等当時は意味が分からなかったファイルをコマンド実行でダウンロードし、なんとか起動に成功。 早速試しに某亡くなった俳優の7秒ほどの音声サンプルを元に、ナレーションを生成してみると、まさに蟹○敬三やんか! しかもこのワークフローでは、音声サンプルとその訳語を一度アップロードして「プロンプトファイル」を作ってしまえば、 毎回音声サンプルのアップロードをする必要がないところが素晴らしい。 数百KBのプロンプトファイルをアップロードして、あとは生成したい言葉を書くだけでナレーションが完成。 Google AI Studioのように声質が変わってしまうことがないので、短文ずつ生成して繋げるのが超簡単で違和感もなし。 Qwen3-TTSの導入成功に気を良くしていたところに、ふとComfyUIの導入指南のサイトを読んでいて気づきました。 良く考えたらComfyUIを単体で導入したことがなく、毎回特定の生成AIの導入解説で言われるがまま入れていただけだったということ。 単体で触ってないのでツールの構造も全く分からず、エラーが出ても何が悪いのか分からず状態でしたが、単体で触れば少しは理解できるのでは。 で、試しにComfyUIだけを入れてみることにしました。 PythonやGIT辺りは既に導入済だったので、ComfyUIのインストールファイルをダウンロードするだけでセットアップが進みました。 しかも今まではComfyUI Portableだったようで、起動するのにBATファイルを動かしてからブラウザで127.0.0.1を開く・・・という、 素人には若干分かりづらい操作方法だったのが、普通にEXE起動するだけになりました。 どっちが効率が良いのかは分かりませんが、自分はこっちの方が好き。 さらに、過去の導入時は他のツールを手動で入れる手順が満載で、必要なファイルの複雑な依存関係が分からず失敗していたようですが、 特にPythonコマンドを入れる必要もなく、ComfyUI単体でテンプレートからインストール可能だったこと。 指南サイトの指示通り、テンプレートから一番初心者向けの「テキストから画像生成」のモデルをクリックすると、 すぐに必要なファイルのダウンロードが始まり、終わるとワークフローが画面が現れました。 そこでテキトーにプロンプトを日本語で書いて生成ボタンを押してみると、あっさり1分もかからず1枚の画像が。 なんだこれ、めっちゃ簡単やんけ。 しかも出来た絵がローカル生成とは思えない美麗な写真画質。 調べてみると導入したのは「Z-Image-Turbo」というAIでしたが、 初心者用のテンプレだから相当古いモデルかと思いきや、まだ登場から3ヶ月ほどしか経っていない最新版でした。 道理で、ここ数年よく見かけた如何にもAI的な絵ではなく、実在の人物かのような絵で破綻箇所も見られない。 有料課金や回数制限のあるクラウドAIレベルと言ってもいい。 このレベルがローカル生成出来てしまう時代だったのか・・・知らんかった。 Stable Diffusionとかの生成AIの名前は聞いたことあったけど、知らないうちに大幅進化してるのね。 もちろんローカル生成なのでNGワード等もなく、プロンプトさえしっかり入力(日本語でOK)していれば概ね希望どおりの絵が生成される。 当然、苦手分野もあり(Z-Image-Turboは実写風が得意で、イラストは苦手らしい)、他のAIが必要な場面もありますが。 ひとしきり静止画を生成しまくった後、今度はこれを動かしたくなりました。 ComfyUIのテンプレートには無論動画生成のワークフローもあるので、「静止画から動画」の中から適当に選んで導入。 その中でWan2.2というモデルは過去に導入失敗しているのですが、さすがにテンプレからなら大丈夫だろうと。 モデルファイルのダウンロードには時間がかかりましたが、終わるとワークフローが起動しました。 さきほど作った静止画をアップロードして、割と適当にプロンプトを入力し生成実行。 まあとにかく完全無料なので、今までのクラウドAIと違って適当に試せます。 但し、静止画と違って1分以内という訳にはいかず、5秒720Pの動画生成に20分ほどかかりました。 とは言え待った甲斐はある出来で、これまた美麗な動画。さすが現時点の動画AIでは最高峰レベルと言われるWan2.2。 しかし5秒の動画は使い勝手がイマイチなので、せめて10秒は欲しいということで生成にチャレンジしましたが、 倍の40分程度で出来るかと思いきや、2時間経っても終わらず、どうやら途中でフリーズしているようです。 後で知ったこととして、これはVRAMが足りないのが原因とのこと。 ウチのRTX2080Tiは、発売当時はハイエンドを誇った性能でVRAMも11GB積んでいますが、静止画ならともかく動画生成にはかなり不足気味。 今どきのミドルクラスでも16GBとか積んでるらしいし、ハイエンドなら24GBが当たり前らしい。 ただこの頃は対処方法が分からないので、一旦10秒動画は諦め次の挑戦に。 そうリップシンク動画をローカル生成したい。 で、Geminiに「ローカルでリップシンク動画を作れるか?」と聞いてみると「出来ます、こんな選択肢があります」とのことで勧められたのが、 ・LivePortrait ・Wav2Lip ・SadTalker とのこと。 しかしどのモデルもComfyUIのテンプレでは見つからなかったので、手動導入しないといけない模様。 が、後で分かったことだが無料のGeminiは情報が古く、どうやら1年以上前の最新情報だったようで、結局どれもうまくいきませんでした。 しかし当時はそれとは知らず、それぞれ導入を試みては失敗しを繰り返し、この作業だけで1週間以上を費やすことに。 結局唯一導入に成功したLivePortraitは、音声ファイルを元に口パクするのではなく、参考動画と同じ形に口パクするもので、参考動画を用意しても動きが破綻気味。 口の動きと顎が一致しない上に顔の輪郭が崩れてしまうので使い物にならない。 それに参考動画も静止画も口がはっきり分かる絵でないとダメなので、顔のアップ画像以外ではそもそもうまくいかない。 さらにWav2Lipに至っては最新ComfyUIでは動かない始末。 なんでそんな古い情報を教えてんだ、Geminiよ。 結局Geminiは頼りにならないので自力で探そうとしたら、あっさり最適解が簡単に見つかりました。ComfyUIのテンプレの中に。 「音声から動画」というカテゴリがちゃんと存在していました。 モデルはやはりWan2.2で、ほぼHedraと同じ使い勝手だし、もちろん解像度や長さも自由に変えられる。 ただ、480P程度なら問題なく口パクしてくれるものの、720Pでは動きが硬くなるうえにノイズが入ってしまう。 その原因調査の段階で、やっとAIの挙動について理解が進んできました。 今使っているWan2.2動画モデルは「14B FP8」というグレードで、「140億パラメータの8ビット浮動小数点演算」という意味。 これは通常VRAM24GB程度を消費するので、ウチの環境ではVRAMに到底収まらずメインメモリにスワップしている状況。 なので、生成時間がかかるだけでなく、推論にも影響してときどき推論が破綻しノイズが乗ったり、動きが硬くなったり、フリーズしたり・・・となる。 つまりVRAMに収まるサイズならすべてが解決するのだが、サイズを減らすには推論を簡略化する方法しかなく、 5Bとか1.3Bなんてモデルもあるが、パラメータ数を減らすと精度がかなり低下するとのこと。 そこで登場したのが「量子化モデル」と言われるもの。 「8ビット浮動小数点」を近似値を採って「4ビット整数」などに置き換えることで、モデルサイズをグッと小さく出来るらしい。 もちろん推論精度は低下するが、パラメータ数を減らすよりは量子化の方が影響は小さいとのこと。 そこで量子化されたWan2.2 S2V(Speech to Video)の「.GGUF」ファイル(量子化モデルは拡張子も異なる)をダウンロードしてきたが、 通常のモデルファイルである「.safetensors」とは異なるノードが必要ということで、テンプレにはないノードなので自分で用意して、 テンプレで導入したワークフローの中に組み込んでみたら、ちゃんと動きました。 しかし試してみると思ったより速くない。 同じ解像度、FPS、長さで同じ絵と音声で生成しても、FP8版の方が速い。 調べたところ、これはウチの環境が曲がりなりにもRTXだからなようです。 RTXシリーズのGPUは「Tensorコア」というAI専用のコアを積んでおり、これが浮動小数点演算専用だから。 量子化モデルは整数ビットを再び浮動小数点ビットに戻すオーバーヘッドがあり、これがFP8版より時間がかかる理由のようです。 結果的にGGUF版は使うのをやめました。 しかしこれだと高画質化や長い動画の際にVRAMのオーバーフローを避けられない。 そこで知ったのが「アップスケーラ」の存在。 その名のとおり、生成画像や動画の解像度を後から上げられるものですが、最初は嫌悪感がありました。 所詮低解像度の動画をアップスケールしたところで、細部が潰れてしまっている以上どうしようもなくないか。 SD解像度の動画をアップスケールする用に「VideoProc Converter AI」というアプリを今も使ってますが、やはり気休め程度の画質。 しかしGeminiによると(まだ頼ってんのか)、その手のアップスケールは単純に画素補完にAIを使っているだけなので、アニメ等はともかく実写には向かないが、 ちゃんとしたアップスケーラは元の情報を推論補完するので、一線を画すとのこと。 試しにReaESRGANというアップスケーラをワークフローに組み込んで、生成時にアップスケールも同時に動くようにしました。 尚ここで知ったのが、生成ピクセル数は8の倍数にしろという話。 AIは8の倍数でしかピクセルを扱えないらしい。 なので、1920x1080のフルHDを半分にした960x540で作りたいところですが、540が8で割り切れないので960x544にせざるを得ない。 で、元々720Pレベルで良いと思ってたくらいなので、544Pでなくても464Pくらいでも十分ということで、そのサイズで行くことにしました。 出来たリップシンク動画は、確かに元々720Pで生成した絵よりは少し細部が甘いですが、元が464Pサイズとは思えないくらいには高画質。 それでいて、口や動きの破綻や硬さもなく、ノイズもなく、あまつさえ生成時間が10秒の長さでも11分程度に収まる。 これなら常用に使えるレベル、ということでついに動画ワークフローが完成したので、 1曲分のリップシンク動画を生成して、DaVinci Resolveで繋げてみると、おおっ、実在のシンガーのPVと言って過言ではない出来に。 多少口の動きが甘い箇所は残ってますが、じゅうぶん違和感は少ない。 まあ、サイアク時間の許す限り再チャレンジは可能なので。VIDEO ただ一点、気になるのがカメラの動きがないところ。 Wan2.2 S2Vはどうしてもリップシンク特化なため、ギターを弾くなどの手の動きくらいなら付けてくれますが、カメラの動きまではとても無理。 出来たとしても推論が増えすぎて多分破綻するかフリーズで終わる予感。 しょうがないので、カメラが動く箇所はリップシンクを諦めるなど妥協も必要かと。 まあそうは言ってもとにかく進化が速いのがAI界隈で、1年前の技術があっという間に古くさくなる世界。 あと半年もすれば、もっと進化したリップシンク動画がローカルで作れるようになるかもね。