パラメータ数で何が変わるか?SLMのスペックの読み方
この記事の要点
SLMのパラメータ数が能力・速度・コストにどう影響するかを解説。1B・7B・20Bそれぞれの用途の目安から、量子化によるモデル圧縮の仕組みまで、導入判断に必要な知識を整理する。
パラメータ数とは何か
言語モデルの「パラメータ」とは、モデルが学習によって調整した数値の集合です。人間の脳でいうところのニューロン間の接続強度に相当します。モデルはテキストを読んで次の単語を予測するという作業を膨大な量繰り返しながら、このパラメータを調整していきます。
パラメータ数は通常、B(billion、十億)という単位で表します。7Bなら70億個、70Bなら700億個のパラメータを持つということです。GPT-4のような大型モデルは非公式に数兆規模と言われていますが、正確な数値はOpenAIが公表していないため確認できません。
パラメータ数が多いほど、モデルは細かいパターンを記憶でき、より複雑な言語表現を処理できます。ただし、パラメータ数がそのまま処理速度やメモリ消費量に影響するため、「大きければ大きいほどよい」とはなりません。
パラメータ数と能力・速度・コストの関係
能力との関係
パラメータ数と能力は、ある程度まで相関します。パラメータ数が増えると、より多くの知識をモデル内に格納でき、複雑な推論への対応力が上がります。
ただし、2024年以降は学習データの質と事後学習の手法(RLHF、DPOなど)の改善によって、小さいモデルでも特定タスクで大型モデルに近い精度を出せるようになっています。MicrosoftのPhi-4 Miniがその代表例で、3.8Bという小規模ながら数学・推論の特定ベンチマークで70Bクラスのモデルに迫る結果を出しています。最新の比較データは公式ベンチマーク情報で確認してほしい。
速度との関係
パラメータ数が多いほど、1トークンを生成するために必要な計算量が増えます。同じハードウェアで動かした場合、70Bのモデルは7Bのモデルより1トークンあたりの生成時間が約10倍かかります。
具体的な目安を挙げます。NVIDIAのRTX 4090を使った場合、7Bモデルは毎秒50〜80トークン程度生成できます。これは日本語で1秒あたり約50〜80文字に相当し、会話のリアルタイム応答として十分な速度です。70Bモデルでは同じハードウェアで毎秒5〜10トークン程度になり、応答に体感的な遅さが生じます。数値は使用するモデルの種類や量子化の有無で変わるため、あくまで参考値として捉えてほしい。
コストとの関係
パラメータ数はそのままメモリ消費量に影響します。パラメータ1Bあたり、浮動小数点16ビット精度で約2GBのメモリが必要です。7Bモデルなら約14GB、70Bモデルなら約140GBのGPUメモリが必要になります。
70Bモデルを快適に動かすには、高価なGPUサーバー(NVIDIA A100やH100搭載機)が必要で、クラウドでのレンタル費用は月数十万円規模になります。7Bモデルなら、RTX 4090(VRAM 24GB)搭載のサーバーで動かせます。
SLMとしての規模はどのくらいか
「SLM」という明確な定義はなく、研究者や企業によって基準は異なります。現時点では概ね1B〜20B程度のモデルをSLMと呼ぶことが多いです。それ以上の規模、たとえば70Bや140BになるとLLMとして扱われることが一般的ですが、この境界は厳密ではありません。
SLMとして流通している主要なパラメータサイズは、1B・3B・7B・13B・20Bあたりです。各サイズには特性の違いがあります。
モデルサイズ別の用途の目安
1B〜3B程度:単純タスク・エッジデバイス向け
1B〜3Bのモデルは、スマートフォンや小型デバイスへの搭載を前提に設計されているものが多いです。Llama 3.2の1Bはモバイルデバイス上での動作を想定しており、日常的な文書の読み書き補助や音声アシスタントの応答生成に使われます。
単純なテキスト分類、決まったフォームへの情報入力補助、定型文の生成など、タスクの幅が狭く複雑な判断が不要な用途に向いています。複数の事柄を同時に考慮する推論や、長い文脈を保持しながらの対話には向きません。
3Bのモデルになると、もう少し幅が広がります。簡単なコードの補完、短い文書のサマリー生成、Q&Aシステムでの一問一答程度であれば実用になるケースがあります。ただし、精度を求めるなら後述の7Bクラスを選ぶ方が無難です。
7B程度:業務応用の現実的な基準点
7Bクラスは、SLMの中でコストと性能のバランスが取りやすいサイズです。2024〜2026年にかけてMistral 7B、Gemma 3の4B、Llama 3.2の7Bなどが登場し、このサイズ帯の実用水準が大きく上がりました。
メールの要約・分類、社内規定に基づくFAQ応答、簡単なコードの生成・レビュー、製品マニュアルからの情報検索といった業務タスクに対応できます。RAGと組み合わせると、社内ドキュメントを参照しながら回答する社内チャットボットの構築にも使えます。
必要なGPUメモリは量子化なしで14GB程度です。VRAM 16GBのGPUで動かせるため、比較的一般的なGPUサーバーで運用できます。
13B〜20B程度:高度な推論が必要な業務
20Bクラスになると、より複雑な文脈の理解、専門知識を必要とする回答、長い文章の精度の高い要約などが可能になります。法律文書のレビュー支援、医療情報の検索支援、複数の条件を組み合わせた論理的な判断補助といった用途で採用されるケースがあります。
ただし、必要なGPUメモリも増えます。量子化なしだと20Bで40GBのメモリが必要で、VRAM 40GB以上のGPU(A100など)が求められます。このクラスになると、オンプレ運用のハードウェアコストが大きくなります。量子化によるメモリ削減が特に重要になるサイズです。
量子化とは何か
量子化とは、モデルのパラメータを表す数値の精度を落として、ファイルサイズとメモリ消費量を減らす技術です。
通常、モデルのパラメータは32ビット(FP32)または16ビット(FP16・BF16)の浮動小数点数で表されます。これを4ビットや8ビットの整数型に変換すると、同じモデルが4分の1〜8分の1程度のメモリに収まります。
具体的な例として、7Bモデルを16ビット精度で動かすと約14GBのVRAMが必要です。これを4bit量子化すると約4〜5GBに収まり、RAMが8GBのPCでも動かせるようになります。
量子化にはいくつかの手法があります。代表的なものがGGUF形式(旧GGML)とGPTQです。Ollamaというツールを使うと、GGUF形式の量子化モデルをコマンド一行でダウンロードして動かせます。
ollama run llama3.2:3b
このコマンドを実行するだけで、Llama 3.2の3Bモデルが自動でダウンロードされ、対話を始めることができます。最新のOllamaの操作方法は公式ドキュメントで確認してほしい。
精度の低下については、4bit量子化の場合、多くの業務タスクでは元の精度から数%以内の低下に収まることが多いです。ただし、精密な数値計算や長い論理推論が必要なタスクでは低下が顕著になることがあります。業務要件の精度を担保できるか、実際のタスクで検証することを推奨します。
パラメータ数だけで判断しない
SLMを選ぶときにパラメータ数は重要な指標ですが、それだけで判断してはいけません。
同じ7Bであっても、学習データに日本語が少ないモデルは日本語タスクで精度が低くなります。事後学習(インストラクションチューニング)の質によって、同じパラメータ数でも有用性が大きく変わります。コンテキスト長(一度に処理できるテキストの長さ)もモデルによって異なり、長い文書を扱う業務では重要な選定基準です。
SLMとLLMの比較と合わせて、業務タスクに特化したベンチマークや実際のPoC(概念実証)での評価を組み合わせることが、適切なモデル選定への近道です。
まとめ
パラメータ数は、SLMの能力・速度・コストを大まかに把握するための指標です。1B〜3Bはエッジデバイスや単純タスク向け、7Bは業務応用の現実的な出発点、13B〜20Bは高度な推論を必要とする場面に対応します。量子化を使えば、高価なGPUなしで一般的なPCや低コストのサーバーでも動かせます。
SLMをオンプレで動かす際の具体的な要件については、別の記事でハードウェア選定から導入ステップまで整理しています。パラメータ数の理解と合わせて参考にしてほしい。
よくある質問
パラメータ数が多いほど賢いモデルですか?
一般論としてはそうですが、同じパラメータ数でも学習データの質・学習手法・最適化技術によって性能は大きく変わります。パラメータ数は性能の目安の一つにすぎず、実際の業務タスクでの精度を実測することが重要です。
量子化するとモデルの精度はどのくらい落ちますか?
4bit量子化の場合、多くのタスクでは元の精度から数%以内の低下に収まります。ただし、精密な数値計算や複雑な推論タスクでは低下が大きくなることがあります。実際の業務タスクで検証してから本番適用することを推奨します。
7Bモデルを普通のPCで動かすことはできますか?
量子化されたモデルを使えば、RAMが16GB程度のPCでも動作します。Ollamaなどのツールを使うとコマンド数行で試せます。ただし、GPUなしのCPU推論は速度が遅く、実用上は応答に数秒〜数十秒かかることがあります。