AI技術の進化は、私たちの生活だけでなく、ビジネスやクリエイティブな活動にも大きな変革をもたらしています。特に動画制作の分野では、AIの導入により、これまで時間とコストがかかっていた作業が劇的に効率化されつつあります。そんな中、マルチモーダル生成AI分野のグローバルリーダーであるShengShu Technology(生数科技)が、AI動画生成プラットフォーム「Vidu(ヴィドゥ)」の大規模アップデートを発表しました。
2026年1月30日から2月15日にかけて開催されたグローバルイベント「Yes Vidu Global Creativity Week」で発表された新モデルは、AI動画生成技術を実験段階から実際の制作現場での実用化へと推進することを目的としています。今回のアップデートにより、Viduは「完全同期ストーリーテリング」と「参照駆動型のワークフロー」を実現し、動画制作の新たな可能性を切り開きます。
Viduの最新アップデート:AI動画制作の未来を拓く新機能
今回のグローバルイベントで発表されたViduのアップデートは、大きく分けて以下の4つの柱から構成されています。これらの新機能は、動画制作の効率性、制御性、表現力を飛躍的に向上させ、プロフェッショナルなクリエイターや企業チームにとって強力なツールとなるでしょう。
1. Vidu Q3:ストーリーテリングのための音声・映像統合生成

Vidu Q3は、AI動画生成の分野において「業界初」となる長編AI動画生成モデルです。これまでのAI動画生成では、映像と音声を別々に生成し、後から同期させる作業が必要でした。しかし、Vidu Q3は、最大16秒のネイティブ音声と映像を、たった1回の処理(単一パス)で同時に生成することを可能にしました。
この機能の最大のメリットは、音声と映像がモデルレベルで直接統合されるため、非常に高精細で自然な同期が実現される点です。これにより、セリフとキャラクターの口の動きが完璧に合致する「リップシンク」も自動的に行われ、物語性のある動画制作が格段に容易になります。アニメーション、ショートドラマ、映画制作といった、ストーリーが重要なコンテンツにおいて、Vidu Q3は制作工数を劇的に削減し、クリエイターの負担を軽減します。
Vidu Q3の主要機能:
-
音声・映像の同時生成: 最大16秒の音声と映像を一度に生成するため、後処理の手間が省け、作業効率が向上します。
-
多言語対応リップシンク: 中国語、日本語、英語に対応しており、キャラクターの口の動きが発話内容と完全に同期します。グローバル市場向けの動画制作にも最適です。
-
映画的カメラ制御: ドリー(被写体に近づいたり遠ざかったり)、パン(左右に振る)、チルト(上下に振る)といった詳細なカメラワークの指定や、シームレスなショット遷移が可能になり、プロフェッショナルな映像表現が手軽に実現できます。
-
ネイティブ1080p(フルHD)出力: 1920×1080ピクセルの高解像度で出力されるため、SNS投稿やWeb広告、デジタルサイネージなど、幅広い用途で高品質な動画が利用できます。看板や字幕、UI要素などのテキスト情報も正確に表現されます。
-
ストーリーボード編集: 単一カット内で時間経過やテンポ調整ができるため、より細かな演出が可能です。
活用シーン:
-
ショート動画プラットフォーム: TikTok、Instagram Reels、YouTube Shortsなど、15秒から60秒程度の短尺動画を即座に制作し、投稿できます。
-
多言語マーケティング: 日本語、英語、中国語の3言語に対応しているため、グローバル市場向けのプロモーション動画を各言語版で効率的に制作できます。
-
アニメーション・映像制作: セリフ生成とリップシンクが自動化されることで、従来は膨大な手間がかかっていた制作工数を大幅に削減できます。
詳細はこちらをご覧ください: https://www.vidu.com/ja/
2. Vidu Q2 Reference-to-Video Pro:制御可能なクリエイション実現へ
AIによる動画生成は、これまで「一発生成」の側面が強く、生成された動画を細かく制御するのが難しいという課題がありました。しかし、Vidu Q2 Reference-to-Video Proは、この課題を解決し、「あらゆるものを参照素材として活用できる」世界初の動画モデルとして登場しました。
このモデルは、統合されたワークフローの中で、2つの動画参照と4つの画像参照を同時にサポートします。これにより、クリエイターは人物、シーン、アクション、表情、エフェクト、テクスチャといった様々な要素を、参照素材としてAIに与え、より意図に近い動画を生成できるようになります。さらに、一度生成した動画の全体を再生成することなく、特定の要素だけを追加、削除、変更できるため、修正作業の効率が格段に向上します。これにより、AI動画制作は、試行錯誤を繰り返しながら、より高い一貫性と制作効率を実現する「参照駆動型編集」へと進化します。
Vidu Q2 Reference-to-Video Proの主な機能:
-
複数参照の同時活用: 2つの動画と4つの画像を統合ワークフロー内で同時に参照できるため、複雑なシーンやキャラクター設定も容易に実現できます。
-
要素の追加・削除・変更: 動画全体を再生成する手間なく、部分的な修正が可能です。これにより、作業時間が大幅に短縮されます。
-
表情・感情転写: 参照動画の表情や感情の流れを、別の人物の動画に転写することができます。これにより、キャラクターの感情表現を豊かにする作業が容易になります。
-
動作再現: ダンスなどの特定の動作を、異なるキャラクターで再現することが可能です。これにより、様々なキャラクターで同じ動きをさせる動画制作が効率的に行えます。
-
スタイル変換: 生成された動画全体を、日本アニメ風、ピクサー風、クレイアニメーション風など、様々な視覚スタイルに一括で変換できます。クリエイティブな表現の幅が大きく広がります。
詳細はこちらをご覧ください: https://www.vidu.com/ja/ai-reference-to-video
3. Reference Hub:世界初のAI動画主体ベース制作コミュニティ
Reference Hubは、AI動画制作における一貫性と効率性を高めるために開発された、世界初のAI動画主体ベース制作コミュニティです。Viduの参照駆動型動画生成フレームワークを基盤としており、クリエイターは8つの構造化された主体カテゴリから選択することで、プロフェッショナルグレードの動画をより高い一貫性と効率で制作できます。
ローンチ時点で、カメラワーク、構図、ナラティブ構造、視覚スタイル、シーンデザイン、キャラクターパフォーマンス、アビリティ(能力やエフェクト)、ムードにわたる200種類以上の厳選された主体が利用可能です。これにより、視覚要素が標準化・モジュール化され、高品質な動画を生成するためのハードルが下がります。また、クリエイティブアセットの再利用が可能になるため、制作プロセス全体の効率化が図れます。さらに、ユーザー独自の動画や画像素材をアップロードして主体として保存することもできるため、自分だけのクリエイティブライブラリを構築し、共有することも可能です。
詳細はこちらをご覧ください: https://www.vidu.com/ja/
4. Vidu Agent 1.0:ワンクリック動画制作を実現
Vidu Agent 1.0は、インテリジェントなプランニングとリアルタイム生成を組み合わせることで、ワンクリックでの動画制作を可能にする画期的な機能です。これにより、動画制作の専門知識がないAI初心者でも、手軽に高品質な動画を作成できるようになります。
今回の新機能として、ユーザー独自のBGMファイルをアップロードして動画に自動同期させる「カスタムBGMアップロード」や、AIが生成したナレーション音声の有無を選択できる機能が追加されました。また、「ストーリーボードベース編集」により、シーン構成から映像生成、音声追加、BGM挿入までの一連の工程が自動で実行されます。
Viduは、清華大学と共同開発した独自の高速化フレームワーク「TurboDiffusion」を採用しています。この技術により、動画生成速度を従来比で最大200倍に高速化しながらも、生成品質を維持しています。この高速化技術が、Vidu Agent 1.0の即応性を飛躍的に向上させ、ユーザーはストレスなく動画制作を進めることができます。
活用シーン:
-
企業マーケティング: 製品紹介動画やキャンペーン映像を社内で直接制作できるため、外部制作会社への依頼にかかるコストと時間を大幅に削減できます。
-
教育・研修: 社内研修動画やeラーニング教材を、専門的な編集スキルがなくても量産できるため、教育コンテンツの充実と効率化が図れます。
詳細はこちらをご覧ください: https://www.vidu.com/ja/
研究開発の実装速度がViduの競争力
ShengShu Technologyは、AIのブレークスルーが持続的な生産性向上につながるかという議論が続く中で、最先端研究を実用可能なシステムへ迅速に転換し、制作ワークフローへ直接組み込む「研究開発の実装速度」をViduの競争力の源泉としています。
この開発思想は、中国の産業・イノベーション界で1980年代から確立された「China Speed(中国速度)」という概念を体現しています。これは、製品開発サイクルの圧倒的な短縮によって市場優位性を獲得するという考え方です。Viduの場合、清華大学との共同研究によって開発された「TurboDiffusion」技術がその核となっています。この技術は、生成品質を維持したまま推論速度を最大200倍に高速化することに成功しており、OpenAI Soraをはじめとするグローバル競合との差別化要因となっています。例えば、先行発表されたVidu Q2は、わずか5秒で画像を生成することが可能です。このように、「研究成果の迅速な実用化」という理念が、確かな技術的裏付けを持って具現化されています。
グローバルベンチマークで第2位を獲得
Viduの技術力は、客観的な評価機関によっても証明されています。AI評測権威機関「Artificial Analysis」が発表した最新のText-to-Videoリーダーボードにおいて、Vidu Q3 ProはELOスコア1,241を獲得し、グローバル第2位にランクインしました。これは、Runway Gen-4.5(3位)、Google Veo 3.1(5位)、OpenAI Sora 2 Pro(10位)といった主要な競合プラットフォームを上回る成績であり、Viduが世界トップレベルの動画生成プラットフォームとしての地位を確立していることを示しています。
詳細はこちらをご覧ください: https://artificialanalysis.ai/video/leaderboard/text-to-video
ShengShu Technologyのエンジニアリング主導アプローチは、Viduの迅速な製品開発ペースを支えています。同社が先駆的に開発したU-ViTアーキテクチャは、拡散モデルとトランスフォーマーフレームワークを統合し、現代の動画生成モデルの基盤を築きました。そして、2025年後半には、清華大学TSAIL研究室との共同でTurboDiffusionをリリースし、推論速度を最大200倍に高速化することに成功しています。これらの技術的な深さとエンジニアリングの速さが、Viduの継続的な進化と卓越した性能を可能にしているのです。
広がるグローバル採用と市場背景
2024年4月のローンチ以降、Viduはすでに200以上の国と地域で展開され、4,000万人以上のクリエイターと10,000以上の開発者・企業顧客にサービスを提供しています。プラットフォーム上で生成された動画は5億本以上に達し、その総出力の70%以上が商業プロジェクトとして活用されているという実績は、Viduの実用性と市場からの高い評価を裏付けています。
PhotoGridなどのクリエイティブプラットフォームがViduの機能をコア提供機能に組み込んだり、AIワークフロープラットフォームPollo AIが長年の同期課題解決にViduの画像から音声・映像への生成システムを適用したりする事例があります。また、制作チームが長編ナラティブプロジェクトでViduを使用したり、ファッションブランドOdinがAI駆動型バーチャル試着体験を実現するためにこの技術を展開したりと、業界横断的にViduの導入が進んでいます。
急成長する動画市場と制作現場の課題
Viduのこのような急速な進化の背景には、動画市場の目覚ましい成長と、それに伴う制作現場の課題があります。
日本国内の動画配信サービス市場は、2024年度には約6,500億円規模に達すると予測されており(※1)、グローバルではAI動画生成市場が2025年に約7.168億米ドル、2032年には25.629億米ドル(年平均成長率20.0%)へと拡大する見込みです(※2)。
特にショート動画の視聴回数は爆発的に増加しており、YouTube Shortsでは2021年の1日3億回から2024年には700億回を超え(※3)、日本国内でも13歳から54歳の62%が日常的に利用している状況です(※4)。
このような動画コンテンツへの需要が拡大する一方で、動画制作には依然として多くの課題が山積していました。従来の動画制作は、撮影、編集、音声収録、アフレコなど多段階の工程が必要であり、クリエイター、広告代理店、マーケティング担当者にとって、時間とコストが大きな負担となっていました。加えて、音声と映像の同期精度や多言語対応、カメラワーク制御など、プロレベルの表現を実現するためには、高度な技術と専門的な人材が不可欠でした。
ShengShu Technologyは、独自開発のU-ViTアーキテクチャを用いたマルチモーダル大規模基盤モデル技術を活かし、「音声と映像を一括生成し、制作工程を統合する」ことで、これらの複雑な課題の解決を目指しています。
提供開始日と料金プラン
Viduの今回のアップデートで発表された新機能は、2026年1月30日より順次展開されています。
料金プランについては、機能を試せる無料プラン(80クレジット相当)が提供されており、さらに用途に応じた有料プラン(スタンダード、プレミアム、アルティメット、エンタープライズ)も用意されています。エンタープライズプランはカスタマイズ対応が可能です。
詳細な料金およびクレジット体系については、Vidu公式サイトでご確認ください: https://www.vidu.com/ja/pricing
Vidu(ヴィドゥ)サービス概要
-
サービス名称: Vidu(ヴィドゥ)
-
公式URL: https://www.vidu.com
-
Vidu Japanサービスに関するお問い合わせ先: vidu_japan@vidu.com
-
X (旧Twitter) – Vidu Official: https://x.com/ViduAI_official
-
X (旧Twitter) – Vidu Japan: https://x.com/Vidu_JP
ShengShu AI(生数AI)について
ShengShu AIは、2023年3月6日に中国・北京で設立された先進的なAIスタートアップ企業です。創業メンバーは清華大学人工知能研究院の出身者を中心に構成されており、生成AI(AIGC)分野、特にテキスト、画像、音声、動画といった複数の情報形式(モダリティ)を統合的に扱う「マルチモーダル大規模基盤モデル」の研究開発と、その応用サービスの提供を主な事業としています。
同社の技術的強みは、画像・動画・3Dといった多様なコンテンツ生成を可能にするマルチモーダルAI基盤モデルの開発力にあります。独自開発のU-ViTアーキテクチャを用いた「UniDiffuser」や、中国発の長時間・高一貫性・高ダイナミック動画生成AI「Vidu」など、世界水準のAIプロダクトを次々とリリースしています。
チーム体制は非常に強力で、従業員数は2024年3月時点で70名を超え、その約9割が研究開発職に従事しています。コアメンバーには清華大学や北京大学のほか、Alibaba、Tencent、ByteDanceなど中国を代表するテック企業の出身者が名を連ねており、高い技術力と実行力を兼ね備えています。
主力製品である「Vidu」は、長編コンテンツにも対応できる高い一貫性とダイナミクスを備えたAI動画生成プラットフォームです。アニメーション、広告、映像制作など多様な分野で活用されており、2024年のグローバル展開開始以降、200以上の国と地域でユーザーを獲得し、日本国内でもユーザー基盤を急速に拡大しています。
グローバル展開拠点として、北京生数科技有限公司のグループ企業・海外展開拠点であるShengShu AI HK Limitedを設立しており、主にグローバル向けAI動画生成サービス「Vidu」の開発・運営を担い、特に日本や他アジア市場へのローカライズ・サポートを提供しています。
まとめ:AI動画生成の新時代へ
Viduが今回のグローバルイベントで発表した大規模アップデートは、AI動画生成技術の新たなスタンダードを確立する可能性を秘めています。「Vidu Q3」による音声・映像の統合生成は、制作時間の劇的な短縮と同期精度の向上を実現し、ストーリーテリングを重視するコンテンツ制作に革命をもたらすでしょう。また、「Vidu Q2 Reference-to-Video Pro」は、これまで難しかったAI生成動画の制御性を高め、クリエイターがより意図通りの表現を追求できるよう支援します。
AI初心者からプロフェッショナルまで、誰もが手軽に高品質な動画を制作できる未来が、Viduの進化によって現実のものとなりつつあります。AI技術がクリエイティブな活動のハードルを下げ、より多くの人々が自身のアイデアを表現できる時代が、きっと訪れるでしょう。Viduの今後のさらなる発展と、それがもたらす動画制作の変化に注目が集まります。
参考資料・出典
-
※1 一般社団法人日本映像ソフト協会(JVA)「映像ソフト市場規模およびユーザー動向調査報告書2025」
-
※2 Fortune Business Insights「AI Video Generator Market Size, Share & Industry Analysis, By Component, By Application, By End-user, and Regional Forecast, 2025-2032」
-
※3 YouTube公式ブログ(2024年3月)「YouTube Shorts視聴回数データ」
-
※4 Think with Google「YouTube国内利用状況調査」(Google / Material調査、2023年11月実施)

