目次
Klingとは?
Kling(クリング)は、中国の大手ショート動画プラットフォーム快手(Kuaishou)が開発した最新の動画生成AIモデルです。
2024年6月に発表され、「テキストプロンプト(指示文)」を与えるだけで高品質な動画を自動生成できる画期的なツールとして登場しました。その性能の高さから、発表直後よりOpenAIの「Sora」に匹敵する品質だと専門家の評価を受け、ネット上でも大きな注目を集めています。
Klingは元々中国国内のユーザー向けに公開されていたサービスで、リリース当初は中国の電話番号を持つユーザーのみ利用可能でした。
しかし、2024年7月24日以降、海外向けのインターナショナル版も整備され、メールアドレス登録だけで誰でも使えるようになりました。
これにより、日本を含む世界中のユーザーがKlingを試せる環境が整っています。
Klingは快手にとって初の本格的な生成AIプロダクトであり、自社プラットフォーム上のショート動画制作の在り方を一変させる可能性を秘めています。
Klingの特徴・機能
出典:Kling
Klingが注目される理由は、その映像生成能力の高さとユニークな機能にあります。他の動画生成AIと比較した際に際立つポイントをまとめると次のとおりです。
フルHD高画質&長尺動画生成
Klingは1080p(フルHD)・30fpsの高解像度で、最大2分(最新バージョンでは約3分まで)という長時間の動画を生成可能です。
従来のAI動画は数秒程度が主流でしたが、Klingは長尺の映像生成にも対応している点が大きな特徴です。
実際、快手は「Klingは1秒あたり30フレーム、1080p解像度で最長2分の動画生成が可能」と発表しており、これは公開当時Soraが1分程度だった上限を上回るものです。
物理シミュレーションが強力
Klingは独自の技術で時間と空間の両面を考慮したアテンション機構を搭載しており、これによって流体の流れや布の揺れといった物理法則に沿ったリアルな動きを再現できます。
例えば、水が流れる様子や人物の髪・衣服が風になびく表現など、複雑な動きも自然にモデル化できる点は他サービスにない強みです。専門家からも「髪の毛や布の質感など細部の表現力が高い」と評価されています。
画像→動画変換(Image-to-Video)
テキストから映像を作るText-to-Videoだけでなく、静止画を元に動画を生成する機能も備えています。
手持ちのイラストや写真に動きをつけて「命を吹き込む (Bring to Life)」ことができ、普通の画像に奥行きと臨場感を与えて魅力的なアニメーションに仕上げられます。
例えば、一枚の風景写真からカメラが動く動画を作ったり、人物写真をアニメ風に動かすことも可能です。
3D再構築による人物アニメーション
Klingは3Dフェイス・ボディの再構築が得意で、全身写真さえあれば自然なモーションの動画を生成できると言われています。
たとえば一枚のポートレート写真から、その人物が歩いたり手を振ったりする動画を作る、といったことも実現されています。静止画の人物をあたかもその場にいるかのように動かせるのは非常にユニークな機能です。
高速な生成と高い完成度
生成にかかる時間も比較的高速であり、高性能なサーバーインフラのおかげで数分程度で動画が完成します。
また生成結果の精度・完成度が総じて高く、細部まで作り込まれた映像が得られる点も特徴です。
専門家の評価では「Soraに匹敵する高品質」とまで評されており、バージョンアップにより性能が飛躍的に向上(Ver1.6で195%向上とも)しているとの情報もあります。
このように、Klingは高解像度・長時間のリアルな映像を生成できる先進的なAIとして、他にはない機能性を備えています。特に物理挙動のリアルさや静止画から動画への変換など、映像の表現力に関わる部分で頭一つ抜けた存在となっています。
Klingの仕組み
では、Klingはいかにしてこれほど高度な動画生成を実現しているのでしょうか。その技術的アプローチをざっくり紹介します。
大型視覚言語モデル(LVLM)を基盤
Klingは快手が独自に開発したLarge Vision Language Model (LVLM) をベースに構築されています。
これはテキストと言語だけでなく視覚情報も扱える大規模モデルで、プロンプトの理解やシーン構造の把握に優れているとされています。
LVLMを土台に据えることで、与えられたテキストや画像の内容を深く理解し、映像化する際の文脈判断に役立てているのです。
拡散モデル×トランスフォーマー
Klingの生成エンジンは、拡散モデル(Diffusion Model)とトランスフォーマー技術を組み合わせた「拡散トランスフォーマー」と呼ばれるアーキテクチャを採用しています。
拡散モデルは画像生成AI(Stable Diffusionなど)で使われている技術ですが、これを動画用に発展させ、トランスフォーマーの長所(大規模データの効率的処理)と融合することで、大量のフレームデータを理解・生成できるようにしています。
これにより複雑なシーンでも破綻の少ない動画を生み出せます。
3D時空間アテンション
Kling最大の特徴は、時間軸と空間軸を統合して処理する「3D Space-Time Attention」という独自のアテンション機構です。
通常、動画生成では各フレーム間の整合性(時間的一貫性)を保つことが課題ですが、Klingはこの機構によって時間方向のつながりと空間的なディテールの双方に目配りしながら映像を生成します。
その結果、場面転換やオブジェクトの動きが滑らかで、前後のシーンがきちんと繋がった自然な動画が得られるのです。
例えば「侍が寿司を食べるシーン」を生成した場合でも、一連の動作が破綻なく続き、実写映像のような連続性で表現されます。
効率的な学習インフラ
快手は自社の豊富な動画データと強力なクラウド基盤を活かし、Klingに対して効率的な学習・推論最適化を施しています。
そのため1080pといった高解像度であっても比較的短時間で結果を出せるだけの計算効率を達成しています。
また中国のショート動画市場向け最適化も行われており、同社のサービス(快手やその動画編集アプリ)と統合しやすい仕様になっている可能性があります。
要約すると、Klingはマルチモーダル大規模モデル+拡散モデル+独自アテンションという複数の先端技術を掛け合わせることで、テキストや画像から理想的な映像を描き出す高度な仕組みを実現しています。
この技術のおかげで、複雑でダイナミックなシーンも物理法則に沿ったリアルさで再現できるわけです。AI研究の最先端を駆使したそのアプローチこそが、Klingが「ヤバい!」と言われるゆえんなのです。
Klingでできること
Klingを使うと具体的にどんな動画が作れるの? ここではKlingが得意とする活用例や、こんなこともできるという可能性をいくつか挙げてみます。
テキストから空想のシーンを映像化
文章で思い描いた空想上のシーンをそのまま動画にすることができます。
例えば「冬の東京の街で桜の花びらが雪と一緒に舞っている光景」や「庭を駆け抜けるトラ柄の猫」のような情景も、プロンプトを与えるだけでそれらしい動画にしてくれます。
映画のワンシーンのような場面やファンタジーの世界も、撮影せずにAIでイメージ通りの映像化が可能です。
ショート動画やSNS映像の生成
TikTokやInstagramのリールなど短い動画コンテンツ向けの素材作りに大いに役立ちます。
実際、SNS投稿用のクリップ制作が劇的に手軽になると期待されており、ダンス動画風の演出や商品プロモーション風の映像などもKlingであればゼロから作れます。
短尺でもインパクトのある映像を作りたいとき、従来は撮影や編集スキルが必要でしたが、Klingなら個人でも数分でプロ並みの短編動画が作れるでしょう。
画像に動きをつける(プロモーション演出)
広告バナーやイラストにアニメーション効果を加えたい場合も、KlingのImage-to-Video機能が活躍します。
例えば製品写真から周囲を360度見渡す動画を生成したり、ゲームのキャラクターイラストを動かしてPV風動画を作ることも考えられます。Klingは静止画に奥行きと臨場感を加えるのが得意なので、見る人を引き込むリッチなコンテンツ作成に使えるでしょう。
クリエイティブ制作・映像企画の試作
映画やアニメのコンセプト映像を試しに作ってみる、といった使い方もできます。
プロの映像制作者にとっては、ロケハンやVFXテストの前段階としてAIでイメージを可視化できるのは大きなメリットです。
例えば「近未来の東京にデロリアンが現れるシーン」をテキストから画像化し、それを元にショートムービー化するといった流れでブレスト用の映像を作成できます。これにより企画段階でアイデアを関係者と共有しやすくなるでしょう。
人物のバーチャルパフォーマンス
先述の通り、人物写真から自然な動きを生成できるので、好きなポーズ写真を踊らせたり歌わせたりといったバーチャルパフォーマンス映像も作り出せます。
例えばスポーツ選手の写真に走るモーションを付与したり、コスプレ写真を戦闘シーンに仕立てることも夢ではありません。SNSで「このキャラを動かしてみた!」といった投稿が増えるかもしれませんね。
以上のように、Klingによって「こんな動画が欲しい」をすぐ形にできる時代が近づいています。
特別な撮影機材やスタジオを用意しなくても、AIがリッチな映像を生成してくれるため、個人のクリエイターから企業のマーケティング担当者まで幅広く活用できるでしょう。
※現時点では生成された動画の長さは標準で5秒程度が上限となっており、長尺動画を作るには複数回に分ける必要があります。ただしKlingはアップデートにより急速に進化しており、今後はさらに長いシーンや複雑なストーリー映像の生成も可能になっていくでしょう。
Klingの料金
出典:Kling
Klingには、Basic(無料)、Standard、Pro、Premierの4つのプランが提供されています。
ここでは、4つのプランの比較を見ていきましょう。
さらに、上位プランになるほど、プロフェッショナルモードやマスターショット機能、ビデオ拡張機能などを使用することができ、より快適に高精度な動画を生成することが出来ます。
個人のクリエイティブ用途から企業レベルの大規模な映像制作まで幅広く対応できるよう設計されています。
Klingの使い方
それでは実際にKlingを使ってみましょう。ここではアカウント登録から動画生成までの基本的な手順を解説します。
初めての方でも迷わないよう、順を追って説明しますのでご安心ください。
1.公式サイトにアクセスしサインアップ
出典:Kling
トップページの「Sing In」ボタンをクリックし、ユーザー登録画面へ進みましょう。
登録にはメールアドレスorGoogleアカウントorAppleアカウントを使用します。
出典:Kling
※かつては中国の電話番号でのSMS認証が必要でしたが、現在はメールだけでOKです。日本国内のメールアドレスでも問題なく登録できます。
2.ログインと初期ポイントの確認
登録が完了すると、自動的にログイン状態でKlingのトップページが開きます。画面左側メニューに自分のアカウント情報が表示され、166といった数字が見えるはずです。これが現在利用可能なクレジット(ポイント)で、初回登録時には166ポイントが付与されています。
出典:Kling
次に、Klingで使える機能一覧がサイドバー(メニュー)に表示されています。その中から「Videos」という項目を選択しましょう。これが動画生成の機能です。選択すると、テキストプロンプトを入力する画面が立ち上がります。
3.プロンプトを入力して動画生成
動画内容の指示(プロンプト)を入力します。
例えば「Location(場所)、Time(時間)、Details(詳細)」といった観点で箇条書きする形でプロンプトを書くと反映されやすいです。
(例)
Location : Japanese shrine(日本の神社)
Time : 2am, midnight(深夜2時)
Details : Japanese woman fighting evil spirits, evil spirits are black fog (日本人女性が黒い霧の悪霊と戦っている)
上記のように具体的なシチュエーションや登場要素を英語でも日本語でも構いませんので入力します。日本語プロンプトもそのまま利用可能で、サイトは英語表示ですが日本語で書いた指示文を正しく解釈してくれます。(※もし英語と日本語を交ぜる場合や特殊なニュアンスを伝えたい場合、必要に応じて自分で英訳した方が精度が上がるケースもあります。)
出典:Kling
プロンプトを書き終えたら、画面下の「Generate(生成)」ボタンをクリックします。
4.生成設定の調整(必要に応じて)
Generateを押すとすぐに生成が始まりますが、その下に各種設定(Setting)項目があります。2024年現在、一部まだ調整できない項目もありますが、主な設定は以下のとおりです。
出典:Kling
Creativity / Relevance
動画の創造性(オリジナリティ)とプロンプトとの関連性のバランスを調整します。値を変えることで、より独創的な解釈の映像にするか、指示に忠実な映像にするかを制御できます。
Mode
生成速度優先か画質優先かを選択します。ただし現在このモード切替は使用できません。将来的には高速プレビューと高品質レンダリングを使い分けられるようになるかもしれません。
Length
動画の長さを指定できます。これも現状は使用不可で固定長ですが、今後解放されれば5秒以上のクリップを直接指定できるようになるでしょう。
Frame Ratio
画面の縦横比です。16:9(横長)、9:16(縦長)、1:1(正方形)などプリセットから選択できます。投稿先の媒体に合わせて比率を選ぶと良いでしょう。
また、必要に応じてネガティブプロンプト(入れたくない要素の指定)やカメラアングルの選択といった細かい指定も可能です。ただ初めはあまり細かくせず、シンプルな指示から試してみるのがおすすめです。
5.画の生成とダウンロード
設定まで決まったら改めて生成を実行しましょう。
動画の生成には数十秒~数分かかります。プロンプトの内容やサーバーの混雑状況によって時間は前後しますが、凝ったシーンでもだいたい1~3分程度待てば結果が表示されます。気長に待ちましょう。
出典:Kling
筆者は無料プランで35分の待ち時間が予想されるとなりました。
動画が出来上がると、画面上に再生プレイヤーとダウンロードボタンが現れます。再生して問題なければ、「Download」をクリックしてMP4ファイルを保存しましょう。これで生成された動画を手元のPCやスマホに保存して共有したり編集したりできます。
6.(応用)画像を使った動画生成
Klingには「Image to Video」タブもあり、静止画から動画を生成するワークフローも簡単です。使い方は以下の通りです。
1.Image-to-Videoタブに切り替え
「AI Videos」画面内のオプションでImage to Videoを選択します。
2.元画像をアップロード
動かしたい元画像(イラストや写真)を選んでアップロードします。画像は自分で用意したものでも、Kling内の画像生成機能で作ったものでもOKです。
3.動作の指示を入力
「この画像にどんな動きをつけるか」をテキストで指示します。例えば「車から人が降りてくる」「カメラがパンしながら景色を見る」など簡潔に書きます。
4.Generateボタンを押す
あとはテキスト動画と同様に生成ボタンを押せば、AIが画像に動きを加えた動画を作ってくれます。
以上がKlingの基本的な使い方です。最初はUIが英語なので身構えるかもしれませんが、やること自体は「登録→プロンプト入力→待つ→ダウンロード」ととてもシンプルです。
日本語の入力にも対応していますし、翻訳が必要な場合はブラウザの機能で日本語表示に切り替えることもできます。ぜひ気軽に触ってみてください。
「Sora」との比較
出典:Wikipedia
中国発のKlingと、OpenAIが開発した
Sora。どちらも最先端の動画生成AIですが、得意分野や使い勝手には明確な違いがあります。
それぞれの特徴を項目別にまとめます。
Klingは… 映像の「リアルさ」や「長尺の動画」を重視したい人向け。特に無料で試したい初心者にもおすすめ。
Soraは… スピーディに「短い動画」を大量に試したい人向け。ChatGPT Plusユーザーには手軽で使いやすい。