SLMをオンプレで動かすのにどのくらいの初期費用がかかりますか？

7Bモデルを動かすためのGPUサーバーであれば、NVIDIA RTX 4090搭載機で30万〜80万円程度が目安です。クラウドのGPUサーバーをレンタルする場合は月数万円から始められます。規模や構成によって大きく異なるため、PoC（概念実証）段階ではクラウドGPUから始めることを推奨します。最新のハードウェア価格は各社サイトで確認してほしい。

オンプレSLMのデータはどこまで安全ですか？

オンプレで運用すればデータが外部サーバーに送信されないため、クラウドAPIと比べてデータ漏えいのリスクは大幅に低下します。ただし、社内ネットワーク自体への不正アクセス対策は別途必要です。完全なセキュリティのためには、ネットワーク分離・アクセス制御・ログ管理と組み合わせて運用する必要があります。

オンプレSLMの保守はどのくらい大変ですか？

モデル自体の更新・サーバーのハードウェア保守・APIサーバーの管理などが必要です。社内にLinuxやDockerの基礎的な知識を持つ担当者が1人いれば運用できる規模から始められますが、大規模展開では専任エンジニアが必要になります。

SLMをオンプレミスで動かすメリットと注意点

オンプレSLMの3つのメリット

SLMを社内サーバーで運用することに意味があるのは、ただコストを下げるためだけではありません。データの保護、コストの安定化、低遅延という3つの特性が揃っていることが、特定の業務で外部APIには代替できない価値を生みます。

メリット1：データが外部に出ない

クラウドのAPIサービスを使う場合、入力テキストが外部のサーバーに送信されます。ChatGPTのビジネスプランやGoogle CloudのVertex AIには学習利用されない契約オプションがありますが、データが物理的に外部に送られること自体は変わりません。

オンプレで動くSLMは、推論処理が社内ネットワークの内部で完結します。患者の診断データ、未署名の契約書、設計図面、未公開の財務情報など、クラウドに送信することが法的・コンプライアンス上の問題になるデータを扱う業務では、オンプレSLMが唯一の選択肢になることがあります。

生成AIとセキュリティで解説しているように、社内情報の外部送信リスクは生成AI導入における最も重要な検討事項の一つです。

メリット2：API費用がゼロになる

外部APIの費用はリクエスト量に比例して増えます。月に1億トークン処理する業務では、GPT-4oクラスで数百万円の費用になります。オンプレSLMを立ち上げれば、リクエスト量が増えても追加費用は発生しません。

初期のハードウェア投資（GPUサーバー代）と電気代・保守費用はかかりますが、処理量が多い業務であれば、1年以内に元が取れる計算になることが多いです。月5,000万トークン以上の処理があるなら、オンプレ投資の費用対効果を具体的に計算してみる価値があります。計算にあたっては生成AI導入の費用対効果の考え方も参考にしてほしい。

メリット3：レイテンシが低い

外部APIを呼び出す場合、インターネット経由のネットワーク遅延が加わります。モデルの処理時間に加えて、往復のネットワーク遅延（数十〜数百ミリ秒）が発生します。1回の呼び出しでは気にならない遅延でも、数百回の連続呼び出しや、リアルタイム性が求められるシステムでは問題になります。

社内ネットワーク内で完結するオンプレSLMは、ネットワーク遅延をゼロに近づけられます。工場の検査ラインでリアルタイムに品質判断する、顧客との会話の流れを止めずに応答するといった用途で有効です。

オンプレ運用の注意点とデメリット

初期投資の大きさ

GPUサーバーのハードウェア費用は、クラウドAPIの初月費用と比べると大きな額に見えます。7Bモデルを動かすRTX 4090搭載機なら30万〜80万円程度、20Bクラスのモデルを快適に動かすにはA100等の高価なGPUが必要で、数百万〜数千万円規模の投資になることもあります。

最新の価格はハードウェアメーカーや販売店のサイトで確認してほしい。また、クラウドのGPUレンタルサービスを使えば、数万円/月から始められるため、本番投資の前にPoC段階で実際のコストと性能を検証することを推奨します。

モデルの更新が自動ではない

クラウドAPIを使っている場合、サービス提供側がモデルのバージョンアップや性能改善を行い、利用者は意識せずに最新版の恩恵を受けられます。オンプレの場合、新しいモデルが公開されるたびに自分でダウンロード・デプロイ・動作確認を行う必要があります。

新しいモデルへの更新頻度は、業務要件と担当者のリソースのバランスで決めます。最新モデルにすぐ更新することよりも、安定して動作し続けることを優先する運用方針の方が、多くの企業には合っています。

保守と障害対応の負担

サーバーのハードウェア故障、ドライバの更新、セキュリティパッチの適用、ディスク容量の管理など、インフラ保守の作業が発生します。クラウドAPIではこれらを全てサービス側が担いますが、オンプレでは社内で対応する必要があります。

小規模な導入であれば、LinuxとDockerの基礎知識を持つ担当者が1名いれば運用できます。ただし、障害時に迅速に対応できる体制を事前に整えておくことが重要です。

どんな業種・場面でオンプレSLMが向くか

医療機関・病院

患者の診断記録、検査結果、処方データは、個人情報保護法・医療情報システムのガイドラインにより外部クラウドへの送信に慎重な対応が求められます。オンプレSLMを使えば、カルテのサマリー生成・退院サマリーの下書き作成・医療文書の検索補助を院内ネットワーク内で完結させられます。

法律事務所・企業法務部門

未締結の契約書や進行中の案件情報は、弁護士の守秘義務の観点から外部への送信が問題になることがあります。SLMを社内で動かせば、契約書のレビュー補助・条文検索・類似過去事例の参照などを外部に情報を出さずに行えます。

製造業の工場・研究開発部門

設計図面・製造プロセスデータ・特許出願前の研究情報は、競争優位に直結する機密情報です。工場ライン上でのリアルタイム異常検知や、技術マニュアルの検索補助にオンプレSLMを使うことで、情報漏えいリスクを排除しながらAIを活用できます。

金融機関・保険会社

顧客の資産情報・取引履歴・審査データは、金融規制や個人情報保護の観点から外部クラウドへの送信に制約がある場合があります。社内文書の検索、ローン審査の補助資料生成、コールセンターのオペレーター支援などにオンプレSLMが使われはじめています。

必要なハードウェアの目安

モデルサイズ	必要VRAM（量子化なし）	必要VRAM（4bit量子化）	目安GPU
3B	約6GB	約2GB	RTX 4060以上
7B	約14GB	約4〜5GB	RTX 4070以上
13B	約26GB	約7〜8GB	RTX 4090以上
20B	約40GB	約10〜12GB	A10G以上またはRTX 4090×2
70B	約140GB	約35〜40GB	A100/H100クラスが必要

量子化によって大幅にVRAM要件が下がります。7Bの量子化モデルであれば、VRAM 8GBのGPUでも動かせる場合があります。量子化と性能の関係はパラメータ数で何が変わるか？SLMのスペックの読み方で詳しく説明しています。

なお、GPUのスペックとモデルの相性・実際のVRAM消費量はツールやモデルのバージョンによって変動します。上記はあくまで参考値です。

導入のステップ

ステップ1：評価（1〜2週間）

まず目的を明確にします。「どの業務を、どのレベルで自動化したいか」を定義しないまま進めると、あとで作り直しになります。次に、候補となるモデルをローカルPC上で試します。OllamaをインストールすればコマンドでSLMを動かせます。業務で使うサンプルデータで精度を確認し、本当にオンプレSLMで目的を達成できるかを評価します。

ステップ2：PoC（1〜3ヶ月）

評価で見込みがあれば、小規模なPoC環境を構築します。本番に近い規模のデータで精度・速度・コストを計測し、本番導入の判断材料を揃えます。クラウドのGPUレンタルサービスを使えば、ハードウェアを購入せずにPoCを進められます。

この段階で、誰が保守を担当するか、モデル更新の方針をどうするかといった運用体制も合わせて設計します。

ステップ3：本番移行（2〜6ヶ月）

PoCの結果をもとに、本番環境のハードウェアを調達し、既存システムとの統合を進めます。一度に全業務を移行するのではなく、影響が小さい業務から段階的に移行することで、リスクを抑えられます。本番稼働後は、応答品質・処理速度・ハードウェア稼働率を定期的にモニタリングする仕組みを整えます。

クラウドとオンプレのAI導入の考え方では、段階的な移行の判断軸をより詳しく整理しています。

まとめ

オンプレSLMが最も力を発揮するのは、機密データを扱い、かつ処理量が多い業務です。データが外に出ない安心感、API費用ゼロ、低遅延の3つが揃うため、医療・法務・製造・金融の現場では現実的な選択肢になっています。一方で、初期投資と保守負担を計算に入れた上で、PoCで実際の効果を確認してから本番移行に進むことが重要です。