最新動向

DiffusionGemma公開、手元のPCで文章生成が最大4倍速

DiffusionGemma公開、手元のPCで文章生成が最大4倍速

この記事の要点

Google DeepMindが拡散方式の言語モデルDiffusionGemmaを公開し、NVIDIAが即日でRTX対応の最適化を施した。256トークンを並列生成し、同条件の従来型より最大4倍速い。社外に出せない文書を手元のパソコンで処理する選択肢が広がる。

結論

Google DeepMindは実験的なオープンモデルDiffusionGemmaを公開し、NVIDIAが公開初日からGeForce RTXやRTX PRO、DGX Sparkでの最適化対応を発表した。画像生成で使われてきた拡散方式を文章生成に応用し、最大256トークンを一度に並列生成することで、単一利用者の条件では従来方式の同級モデルより最大4倍速いとされる。機密文書を外部に送らず手元のパソコンで処理するローカルAIの実用性が、また一段上がった。

何が公開されたか:1語ずつ書かないAI

従来の言語モデルは、文章を1トークンずつ順番に予測して生成する。DiffusionGemmaはこれと異なり、ノイズだらけの文字列全体を段階的に「きれいにしていく」拡散方式を採用し、1ステップで最大256トークンをまとめて生成する。文章を頭から書くのではなく、全体を同時に整えていくイメージだ。

モデルの構成は、総パラメータ260億の混合専門家方式で、推論時に動くのは38億パラメータのみ。ライセンスは商用利用可能なApache 2.0で公開された。NVIDIAによる最適化後の性能は、小型ワークステーションのDGX Sparkで毎秒150トークン超、データセンター向けH100の1枚で毎秒1000トークン超。量子化すればビデオメモリ24GBの民生向けRTX 5090や4090でも動作するという。

項目内容
方式拡散方式。1ステップで最大256トークンを並列生成
規模総パラメータ260億、推論時は38億が動作
ライセンスApache 2.0
速度同条件の従来型比で最大4倍。DGX Sparkで毎秒150トークン超
動作環境量子化でビデオメモリ24GBの民生GPUに収まる

背景:ローカルAIの選択肢が急速に厚くなっている

手元の機器で動くAIの選択肢はこの1か月で急増した。Googleは16GBのノートPCで動くGemma 4 12Bを公開済みで、NVIDIAはノートパソコン向けのRTX SparkでローカルAIに最適化したハードウェアを投入しようとしている。DiffusionGemmaは実験的な位置づけだが、生成速度という弱点を方式の転換で破る試みで、ローカルAIの実用範囲を広げる可能性がある。なお拡散方式の文章生成は発展途上の技術で、品質や安定性の評価はこれからだ。性能の数字はNVIDIAとGoogleの公表値であり、自社の用途での実測を前提にしてほしい。

現場の実務にどう効くか

ローカルAIの速度向上は、クラウドAIに送れない業務の処理を変える。人事評価、未公開の財務資料、顧客の機密を含む文書の要約や下書きは、外部サービスに入力できないという理由でAI化から取り残されがちだった。社外に出せない情報の線引きはAIに入れてはいけない情報の判断基準で整理したとおりだが、ローカルAIならこの制約自体がなくなる。毎秒150トークンは日本語で毎秒およそ100文字前後に相当し、待ち時間のストレスなく使える水準だ。

具体的な業務で言えば、人事部門での評価コメントの下書き、経理部門での監査対応文書の要約、法務部門での契約書の論点整理などが候補になる。いずれも外部サービスへの入力をためらう情報を含み、かつ文章生成の量が多い業務だ。

導入を検討するなら、手順は3段階になる。まず、クラウドに送れないという理由でAI化を見送っていた業務を洗い出す。次に、社内のGPU搭載機器の在庫を確認する。ビデオメモリ24GBという要件は、開発部門やデザイン部門の既存ワークステーションで満たせる場合がある。最後に、小規模なオープンモデルの比較検証から始める。選定の考え方はオープンソースの小型モデルが企業AI普及を加速させる理由が参考になる。

まとめ

拡散方式という発想の転換で、ローカルAIの生成速度は従来比4倍の水準に達した。機密情報を理由にAI活用を諦めていた業務こそ、この流れの恩恵が大きい。社外に出せない文書のリストアップから始めれば、検証対象はすぐに見つかるはずだ。

出典

よくある質問

DiffusionGemmaは何が新しいのですか?

文章を1語ずつ順に予測する従来方式と違い、画像生成で使われる拡散方式により最大256トークンをまとめて並列生成します。単一利用者の条件で従来型の同級モデルより最大4倍速いとNVIDIAは説明しています。

どんなパソコンで動きますか?

総パラメータ260億のうち推論時は38億だけが動く構成で、量子化すればビデオメモリ24GBのRTX 5090や4090で動作します。DGX Sparkで毎秒150トークン超、H100の1枚で毎秒1000トークン超とされています。詳細な要件は公式情報で確認してください。