ChatGPTを開発している「OpenAI」が2024年2月15日に、テキストから動画を生成するAI「Sora」を発表しました。
発表とともに公開された「Soraが生成した動画」のクオリティが高く、AIによる動画生成のレベルがここまで着たかと驚きました。
テキストから動画を生成する「Sora」
Soraは、テキスト(プロンプト)から最大1分の動画を生成できる生成AIです。
SoraのWebサイトによれば、現在は一部のビジュアルアーティストやデザイナー、映画製作者がアクセスできるようになっており、モデルを進化させるために、彼らからのフィードバックを得ている段階のようです。
Soraは複数のキャラクターや特定の動き、被写体の背景など複雑なシーンを生成できるとされており、プロントで書かれた内容だけでなく、それらが現実世界でどのように存在するかも理解するとのことです。
現在のモデルの弱点として、複雑なシーンの物理特性を正確にシミュレートするのが難しい、原因と結果の特定インスタンスを理解できない場合があるとのことです。また、左右を混同したり、空間的な詳細が混乱したり、時間の経過とともに発生するイベントの正確な説明に苦労することがあるとされています。
本物のようなリアルな動画を生成できる
Soraで生成した動画が、プロンプトと共にいくつか公開されています。どれもリアルすぎて、AIが生成したと言われずに見たら、本物の映像だと思ってしまいそうです。
東京の街を歩く女性
【プロンプト】スタイリッシュな女性が、暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています。彼女は黒い革のジャケット、赤い長いドレス、黒いブーツを着ており、黒い財布を持っています。彼女はサングラスと赤い口紅をつけています。彼女は自信を持って何気なく歩いています。通りは湿っていて反射しており、色とりどりの光の鏡効果を作り出しています。多くの歩行者が歩き回っています。
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
雪が降った東京の街
【プロンプト】美しい雪の東京の街は賑わっています。カメラはにぎやかな街路を移動し、美しい雪の天気を楽しんだり、近くの屋台で買い物をしたりする数人の人々を追っています。華やかな桜の花びらが雪の結晶とともに風に乗って飛んでいきます。
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
バイクのヘルメットをかぶった宇宙飛行士の映画予告
【プロンプト】赤いウールのニット バイク ヘルメットをかぶった 30 歳の宇宙飛行士の冒険をフィーチャーした映画予告編。青い空、塩の砂漠、映画のようなスタイル、35 mm フィルムで撮影、鮮やかな色。
Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024
雪に覆われた草原を歩くマンモス
【プロンプト】数匹の巨大なケナガマンモスが雪に覆われた草原を踏みながら近づいてきます。その長いケナガマンモスの毛皮が風に軽く吹きながら歩きます。遠くには雪に覆われた木々やドラマチックな雪を頂いた山々が見えます。うっすらとした雲と太陽が高く昇る午後半ばの光があります。」距離が暖かい光を生み出し、低いカメラの視点から美しい写真と被写界深度で大きな毛皮で覆われた哺乳類を見事に捉えています
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024
キャンドルに興味を持っているモンスター
【プロンプト】アニメーション シーンでは、溶けた赤いキャンドルの横にひざまずいている背の低いふわふわしたモンスターのクローズアップが表示されます。アート スタイルは 3D でリアルで、照明とテクスチャに重点を置いています。怪物が大きな目と開いた口で炎を見つめていることから、この絵の雰囲気は驚きと好奇心のひとつです。そのポーズと表情は、まるで初めて自分の周りの世界を探検しているかのような、無邪気さと遊び心の感覚を伝えます。温かみのある色とドラマチックな照明を使用することで、画像の居心地の良い雰囲気がさらに高まりました。
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024
Soraの安全対策
これだけリアルな動画を生成できると気になるのが「安全面」です。フェイク動画など悪用されてしまうのではないかと気になります。
これに対してOpenAIは、誤った情報や増悪に満ちたコンテンツ、偏見などの専門チームであるレッドチームと協力をして、モデルに対して敵対的にテストをしているとしています。さらに誤解を招くコンテンツを検出するためのツールも構築しているとのことです。
SoraはDALL-E3の安全対策を適用できるとしています。例えば、暴力的、性的なコンテンツ、増悪に満ちた画像、有名人の画像など、使用ポリシーに違反するプロントを拒否するとのことです。
動画生成AIの進化にワクワクする
これまでも動画の生成AIは存在をしていました。ですが「AIが作った動画」感があり、実用的ではないと感じるものが多かったように思います。
Soraの登場によって、AIによる動画生成のレベルが一段と上がるように思います。
早くSoraが一般公開されて、動画生成できるようになる日が待ち遠しいです!
もっと詳しく知りたい方はSoraのWebサイトを参照してください。