米Googleは12月16日(現地時間)、画像を入力することで画像を生成する新しい生成AIツール「Whisk」を発表しました。
画像生成AIって英語で細かなプロンプトをテキストで入力するのが一般的だけど、「Whisk」ではそれを画像を指定するだけで済むようになるのでプロンプトを考える手間がなくなって作業効率が上がりそうで期待してます!
Whiskで何ができる?
Whiskは、これまでの画像生成AIと違って、ユーザーが提供する複数の画像を組み合わせ、新たな画像を生成するAIツールです。
従来のテキストプロンプトによる生成とのおおきな違いは、テキストではなく画像を被写体、シーン、スタイルでそれぞれ用意することで新しい画像を作れるってところ。
テキストで細かな指示を出さずに画像を使って直感的に希望する画像を作成することができるのが大きな特徴です。
Whiskの仕組み
Whiskは、Googleの大規模言語モデル「Gemini」を活用し、ユーザーが入力した画像から詳細なキャプション(説明文)を自動生成します。
このキャプションを、最新の画像生成モデル「Imagen 3」に入力することで新たな画像を生成します。
入力画像の特徴を活かしつつ、新しい表現の画像を作成することができます。
Whiskの使い方
Whiskの使い方はGoogleがYoutubeで公開してるWhiskの紹介動画を見るのが一番わかりやすいです。
動画を見て、大まかな使い方の流れはこんな感じです。
被写体(Subject)の選択: 生成したい画像の主な被写体となる画像をアップロードします。
テキストプロンプトの入力も可能です。
シーン(Scene)の選択: 生成される画像の背景や風景を決定します。
画像をアップロードするか、ランダムに提示される選択肢から選ぶことができます。
スタイル(Style)の選択: 生成される画像のスタイルを決定する画像をアップロードします。
テキストプロンプトの入力にも対応しています。
詳細の入力: 生成される画像の具体的な要素をテキストで入力します。
これらのステップを経て、アップロードした画像をリミックスした新たな画像が生成されます。生成結果に満足できない場合は、「REFINE」ボタンをクリックし、追加のテキスト入力で修正を加えることが可能です。
Whiskの活用例
例えば、ペットの写真を被写体として、好きな風景やアートスタイルの画像と組み合わせることで、オリジナルのデジタルアートを作成できます。
また、商品デザインのアイデア出しや、プレゼンテーション資料の作成など、さまざまなシーンで活用が期待されます。
Whiskの制限と今後の展望
現在は、Whiskは米国内でのみ利用可能で、日本からのアクセスは制限されています。
米国のユーザーは「labs.google/whisk」から利用できるけど、日本からアクセスするとこんな画面になり「サポートしてないよ」と表示されて利用できません。
まとめ
Whiskは、これまでの画像生成のように細かな描写方法についてテキストで打ち込まなくても良いので、思い通りの画像が作りやすくなるかも。
日本での利用については、Googleからの公式発表を待つしかないので早く使えるようになりたいですね。