SLMとは?LLMとの違いをビジネス目線で解説
この記事の要点
SLMはパラメータ数10億〜200億程度の小型言語モデルで、LLMより安価・高速・オンプレ運用が可能。コスト削減やデータ保護を優先する業務に向く。代表モデルと選定基準をビジネス目線で解説する。
SLMとは何か
スモール言語モデルとは、パラメータ数が概ね10億〜200億程度の言語モデルのことを指します。GPT-4oやGemini 1.5 Proのような大規模言語モデルが数千億から数兆のパラメータを持つのに対し、SLMはその数十分の一から数百分の一の規模です。
規模が小さい分、推論に必要な計算量が大幅に減ります。これは「性能が劣る」という意味ではなく、「扱うタスクの範囲を絞れば、少ないリソースで十分に動く」という意味です。この特性がビジネス現場でSLMが注目される根本的な理由です。
2024年以降、MicrosoftのPhi-4 MiniやGoogleのGemma 3、MetaのLlama 3.2などが相次いでリリースされ、SLMの実用水準は急速に上がりました。1〜2年前であれば「小さいモデルは精度が粗い」という評価が一般的でしたが、現在は特定の業務タスクであれば大型モデルと遜色ない結果を出すケースも増えています。最新モデルの性能比較は各社の公式情報で確認してほしい。
SLMとLLMの違いを5軸で整理する
SLMとLLMのどちらを選ぶかは、業務要件によって変わります。以下の5軸を基準に整理すると判断しやすくなります。
モデルのサイズ
パラメータ数でいうと、SLMは1億〜200億程度、LLMは数百億〜数兆程度が一般的です。モデルのサイズはそのまま必要なストレージ容量とメモリ量に影響します。7Bのモデルであれば、メモリ16GB程度のGPUで動かせます。数百億規模のLLMを自社サーバーで動かすには、高価なGPUクラスターが必要です。
応答速度
SLMは処理が速いです。同じハードウェア上で動かした場合、7Bのモデルは1秒あたり数十トークンを生成できます。大型モデルをAPIで呼び出す場合はネットワーク遅延も加わるため、リアルタイム性が求められるチャットや自動応答には、ローカルで動くSLMが有利です。
精度と能力
複雑な推論、長文の要約、創造的な文章生成、多言語対応など、幅広いタスクへの汎用的な対応力はLLMが上回ります。SLMは特定のタスク、たとえば「社内規定に基づくFAQ応答」や「定型フォームからの情報抽出」に特化させると精度が高まりますが、汎用的に使うには限界があります。
運用コスト
GPT-4oクラスのAPIを毎月100万トークン利用すると、数万円から数十万円の費用が発生します。一方、SLMをオンプレで動かす場合、初期のサーバー投資はあるものの、リクエスト量が増えてもランニングコストはほぼ変わりません。大量の問い合わせを処理するコールセンター業務などでは、SLMのローカル運用が長期的なコスト削減につながります。
データのプライバシー
LLMをAPIで利用する場合、入力データが外部のクラウドサーバーに送信されます。患者情報、契約書、社内機密情報をプロンプトに含める場合、このデータ送信がリスクになります。SLMをオンプレで動かせば、データはネットワーク内で完結するため、情報漏えいのリスクを大幅に下げられます。
生成AIとセキュリティの基礎で詳しく解説しているように、データのプライバシーは導入判断における最重要軸の一つです。
SLMが注目される3つの背景
API費用の増大に対するコスト圧力
生成AIの社内利用が広がるにつれて、API利用費が月ごとに積み上がっていきます。試験導入の段階では問題なくても、全社展開すると月数百万円規模のコストになることもあります。SLMをオンプレで運用することで、この変動費を固定費に変換できます。
データを外に出せない業務の増加
医療機関の患者記録、法律事務所の契約書、製造業の設計データなど、外部サービスに送信できない情報を扱う業務は多くあります。こうした現場では、外部APIを使わずに社内で完結するSLMが現実的な選択肢です。
モデルの高品質化と導入ツールの整備
SLMの質が向上したことに加えて、OllamaやLM Studioといった導入ツールの整備が進みました。以前はモデルの動作環境を一から構築する必要がありましたが、現在はコマンドを数行実行するだけでローカルにモデルを立ち上げられます。技術的なハードルが下がったことが、中小企業でもSLMを試せる状況を作っています。
ビジネスでSLMを選ぶべき場面
SLMが適している場面を具体的に挙げます。
処理量が多くてAPI費用が膨らんでいる業務、たとえば問い合わせメールの自動振り分けや、毎日数千件の文書分類が発生する業務は、SLMのローカル運用でコストを大きく削れます。
機密情報を含むため外部クラウドに送れない業務、たとえば診断記録のサマリー作成や法務契約書の初稿確認なども、SLMが向いています。
応答速度がシビアな業務も同様です。工場のライン上でリアルタイムに異常を検知するシステムや、顧客対応で数秒以内の応答が必要なチャットボットでは、外部APIのネットワーク遅延が問題になります。
逆に、多様なタスクを一つのモデルで処理したい場合や、創造的な文章や高度な推論が必要な場面はLLMが適しています。生成AIモデルの選び方も参考にしながら、タスクの特性に合わせて選んでほしい。
代表的なSLMモデル一覧
2025〜2026年時点で注目されているSLMを整理します。最新バージョンや性能データは公式情報で確認してほしい。
| モデル名 | 提供元 | 代表的なサイズ | 商用利用 | 特徴 |
|---|---|---|---|---|
| Phi-4 Mini | Microsoft | 3.8B | 可(MIT) | 小型ながら推論精度が高い |
| Gemma 3 | 1B / 4B / 12B | 可(独自ライセンス) | 多言語対応が強い | |
| Llama 3.2 | Meta | 1B / 3B | 可(独自ライセンス) | エッジデバイス向けに最適化 |
| Mistral 7B | Mistral AI | 7B | 可(Apache 2.0) | 英語タスクの精度が高い |
| Qwen2.5 | Alibaba Cloud | 0.5B〜72B | 可(Apache 2.0) | 日本語・中国語対応が強い |
日本語の精度が必要な業務では、Gemma 3やQwen2.5が選ばれやすいです。ライセンス条件はモデルのバージョンによって変わる場合があるため、商用利用前に必ず公式リポジトリのライセンスファイルを確認してほしい。
オープンソースモデルの詳細な選び方についてはオープンソースSLMとは?企業が使える主要モデルと選び方で整理しています。
ファインチューニングとSLMの関係
SLMを業務に特化させる方法として、ファインチューニングがあります。ファインチューニングとは、既存のモデルに自社のデータを追加学習させて、特定タスクの精度を高める手法です。
LLMに比べてSLMはサイズが小さいため、ファインチューニングに必要な計算コストも下がります。社内のチケット履歴を学習させてサポート対応を改善する、自社製品の仕様書を学習させて技術FAQ精度を上げるといった使い方が現実的です。
ただし、ファインチューニングは万能ではありません。学習データの品質が低いと精度が下がり、過学習が起きると汎用性が失われます。まずはプロンプトの工夫で対応できないかを試してから、ファインチューニングの検討に入るのが現実的な順序です。
まとめ
SLMはLLMの劣化版ではありません。タスクを絞り、データを社内に留めながらコストを抑えたい業務には、SLMが最適な選択肢です。パラメータ数の見方についてはパラメータ数で何が変わるか?SLMのスペックの読み方で掘り下げています。まずは手元のPCやサーバーで小さなモデルを動かしてみて、業務への適合度を自分の目で確かめることから始めるとよいでしょう。
よくある質問
SLMとLLMの違いは何ですか?
SLMはパラメータ数が概ね10億〜200億程度の小型言語モデルで、LLMはその10倍から100倍以上の規模です。SLMはコストと速度に優れ、社内サーバーで動かせる反面、複雑な推論や創造的なタスクはLLMが得意です。
SLMはどんな業務に向いていますか?
定型文の生成、文書の分類・要約、社内FAQ応答など、タスクの範囲が絞られた業務に向いています。機密情報を外部に送れない医療・法務・金融の現場や、大量のリクエストを低コストで処理したい業務にも適しています。
SLMを自社で動かすのに専門的な知識は必要ですか?
Ollamaなどのツールを使えば、GPU搭載のサーバーやPCに数ステップでモデルを導入できます。ただし、社内システムへの統合や継続的な保守には一定の技術力が必要です。最新の導入事例は公式ドキュメントで確認してほしい。