業務活用事例

SLMをPCで動かすOllama入門ガイド:導入から起動まで

SLMをPCで動かすOllama入門ガイド:導入から起動まで

この記事の要点

OllamaはMac・Windows・Linuxに対応したSLM実行ツールで、数コマンドでPCにAIモデルを動かせる。本記事では必要なスペック、モデル選択、REST API連携、業務活用シナリオを実務目線で解説する。

結論:OllamaはSLMのローカル実行を最も手軽にするツールだ

PCにSLMを動かす方法はいくつかあるが、2025年時点で実務利用のハードルが最も低いのがOllamaだ。Mac・Windows・Linuxの3つのOSに対応しており、インストールからモデルの起動まで5分以内で済む。クラウドAPIと違い、データが社外に一切出ない。月額費用もかからない。3Bから8Bパラメータ規模のモデルを業務用途で使う場合、これで十分な場面は多い。

本記事では、Ollamaの導入から起動、モデル選択、REST APIとしての活用方法、業務シナリオまでをまとめる。技術的な基礎知識は問わないが、ターミナルを起動してコマンドを入力できる程度のリテラシーは前提とする。

なお、スモール言語モデルとは何か、どういった業務に向いているかという基礎的な理解はLLMとはビジネス目線で解説した記事SLMとLLMの比較記事が参考になる。

Ollamaを使うために必要なPCスペック

最低限動かすだけなら、RAM 8GBのPCでも可能だ。ただし快適に業務で使おうとすると、モデルのサイズによってスペックの目安が変わる。

3Bパラメータのモデル(Llama 3.2 3B、Phi-4 Miniなど)を使う場合、RAM 8GBあれば動作する。ただしGPUがないCPUのみ環境では、一つの質問への回答生成に15〜30秒かかることが多い。テキストの要約や定型処理なら許容できるが、インタラクティブな会話には向かない。

8Bパラメータのモデル(Llama 3.1 8Bなど)を快適に使うには、RAM 16GB以上が推奨だ。Apple SiliconのMac(M1以降)は、CPUとGPUがメモリを共有する構造のため、32GB RAMの機種であれば8Bクラスでも十分なスピードで動く。実際に議事録の要約程度なら3〜5秒で回答が返ってくる。

Windows・Linuxで快適な速度を出したい場合、NVIDIA GPUのVRAMが重要な指標になる。Llama 3.2 3Bなら4GB VRAM、8Bなら8GB VRAMが目安だ。VRAMが足りない場合でもCPUオフロードで動作するが速度は落ちる。

GPUなし・RAM 8GBの環境でも、バッチ処理(夜間に書類をまとめて要約する用途など)には十分使える。リアルタイム応答が必要でない業務ならローエンドPCでも導入の価値はある。

Ollamaのインストールと初回起動

Ollamaのインストールは公式サイト(ollama.com)からインストーラーをダウンロードするだけだ。Macならdmg形式、Windowsならexe形式のインストーラーが配布されている。Linuxはコマンド一行でインストールできる。

インストール後、ターミナルを開いて次のコマンドを入力すると、モデルをダウンロードして即座に対話を始められる。

ollama run llama3.2

初回はモデルのダウンロードが走る。Llama 3.2 3Bの場合、圧縮後のサイズは約2GBなので、回線速度によっては数分かかる。ダウンロードが終わると、そのままターミナルでモデルと会話できる状態になる。

サーバーモードで起動したい場合は次のコマンドを使う。これでREST APIとしてアクセスできるようになる。

ollama serve

デフォルトではlocalhost:11434でリクエストを受け付ける。Ollamaを起動したまま別のアプリケーションからAPIを叩くことで、業務ツールと連携できる。

すでにダウンロード済みのモデル一覧を確認するには次のコマンドだ。

ollama list

モデルを削除してディスク容量を解放したいときはollama rm <モデル名>で対応できる。

モデル選択:Llama・Phi・Gemmaをどう使い分けるか

Ollamaで使えるモデルは50種類以上あるが、業務用途の入口として検討すべき主要モデルを整理する。なおモデルの性能は頻繁に更新されるため、最新の比較は公式ドキュメントやコミュニティのベンチマークで確認してほしい。

Llama 3.2 3Bは、Meta社が公開する比較的小規模なモデルだ。日本語の理解と生成に対応しており、議事録の箇条書き化や短いメールの下書き程度であれば実用レベルの回答を返す。軽量なため、RAM 8GBの環境でも動作する点がメリットだ。一方で複雑な推論や長文の分析は苦手な場面がある。

Phi-4 Miniは、Microsoftが開発した小型モデルだ。パラメータ数は3.8Bだが、推論能力に特化したトレーニングがされており、数学的な問題や論理的な処理の精度が高いとされる。コードの自動生成やデータ分析タスクに向いている。日本語対応もあるが、長文の文章生成ではLlama系と比べてやや自然さに欠ける場合がある。

Gemma 3 4Bは、Googleが開発するモデルのOllamaバージョンだ。4Bながら多言語対応の質が高く、日本語の文章生成が比較的滑らかだという評価が多い。画像入力に対応したマルチモーダル版も存在する。

Mistral 7Bは、フランスのスタートアップが公開したモデルで、英語のテキスト処理では7Bクラスの中でも精度が高いとされる。英語を主に扱う業務や、テクニカルな文書の翻訳に向いている。

用途別の簡単な目安として、日本語の文書処理全般にはGemma 3かLlama 3.2、コード生成や数値処理にはPhi-4 Mini、英語文書の処理にはMistralを試すところから始めるとよい。最終的にはそれぞれ実際に動かして自社の業務データで確認することが重要だ。

REST APIとして活用する:業務ツールとの連携方法

Ollamaをサーバーモードで起動すると、標準的なREST APIとして他のツールやシステムから呼び出せる。これが実務での使いどころの一つだ。

基本的な呼び出し方はHTTPのPOSTリクエストだ。curlコマンドでテストする場合は次のような形になる。

curl http://localhost:11434/api/generate \
  -d '{
    "model": "llama3.2",
    "prompt": "以下の議事録を3点に要約してください:[議事録の内容]",
    "stream": false
  }'

stream: falseにすることで回答が一括で返ってくる。stream: trueにするとトークンが順次返ってくる形になり、フロントエンドでリアルタイム表示したい場合に使う。

PythonからAPIを呼び出す場合はrequestsライブラリで対応できる。また、Ollama公式のPythonクライアントライブラリも提供されているため、それを使う方がコードはシンプルになる。LangChainやLlamaIndexとも統合されており、RAGシステムを構築する際の推論エンジンとして組み込むことも簡単だ。

ノーコードツールとの連携も可能だ。n8nやMake(旧Integromat)はHTTP Requestノードでローカルのポートに対してAPIを叩ける。ただし、これらのクラウド版ツールはインターネット経由でリクエストを送るため、ローカルのOllamaに直接アクセスできない点に注意が必要だ。ローカルで動かすn8nのセルフホスト版か、同一ネットワーク内のサーバーにOllamaを立てる構成が必要になる。

社内ネットワーク上の共有サーバーにOllamaを立てると、複数の担当者が同じモデルにアクセスできる環境になる。個人PCごとにモデルを管理する手間がなくなるメリットがある。

業務活用シナリオ:どこから始めるか

Ollamaで始めやすい業務ユースケースを3つ挙げる。

議事録の要約と構造化は最も手軽に効果が出やすい。会議の文字起こしテキストをプロンプトと一緒に投げると、決定事項・アクションアイテム・懸念点の3項目に整理して返ってくる。Zoom等の自動文字起こしテキストをそのまま貼り付けて使える。1時間の会議の文字起こし(5,000〜8,000字程度)を処理して、要約が返ってくるまでの時間は8BモデルのMacで30〜60秒程度だ。

社内文書の分析と質問応答は、RAGとの組み合わせで真価を発揮する。まず単純な活用として、規程や手順書のPDFをテキスト化してプロンプトに貼り付け、特定の条件に関する質問をする方法がある。文書が長い場合はチャンク分割が必要になるが、Ollamaをベースにしたシンプルな社内FAQ応答システムについてはSLMとRAGを組み合わせた社内検索の記事で詳しく解説している。

メールの下書き生成は、定型的な返信が多い業務で時間削減効果が大きい。「以下の依頼メールに対して、〇〇の理由でお断りする丁寧な返信を書いてください」というプロンプトに受信メールの本文を添えて投げる使い方だ。1通の下書き生成が30秒以内で済む場合が多く、編集コストを含めても一から書くよりも速い。

いずれも最初から大規模なシステムを組む必要はない。ターミナルで試してみて、回答の品質が業務に使えると判断したらスクリプトやAPI連携に発展させる、という進め方がリスクは低い。

導入前に確認しておくこと

Ollamaを業務環境に導入する前に、情報セキュリティの観点から確認しておく点がある。

まず、社内のセキュリティポリシーでローカルへのAIモデルのインストールが許可されているか確認する。次に、業務データをAIに入力することの可否について、担当部門と合意を取っておく必要がある。Ollamaは外部にデータを送信しないが、ローカルのログには入力内容が残る場合があるため、機密情報を含む文書を処理する際の手順を決めておくことが大切だ。

生成AIのセキュリティリスク全般については生成AIとセキュリティの基礎知識で整理しているため、導入前の確認として参考にしてほしい。

モデルのライセンスも確認が必要だ。Llama 3.2はMetaの利用規約、Phi-4はMicrosoftの利用規約に従う。商用利用に制限がある場合があるため、業務での使用前に最新のライセンス条件を公式で確認してほしい。

まとめ

Ollamaを使えば、専門的な知識がなくてもPC上でSLMを動かせる環境を短時間で整えられる。必要なのは数GBのディスク容量と、モデルのダウンロード時間だけだ。クラウドAPIと比べてコストと情報漏洩リスクを下げながら、議事録要約・文書分析・メール下書き生成などの実務ツールとして機能する。まずはLlama 3.2かGemma 3をollama runで起動して、手元の業務テキストで回答品質を確かめるところから始めてみてほしい。

よくある質問

OllamaはGPUなしのPCでも動きますか。

動きます。ただしGPUがない場合はCPUで処理するため、3Bパラメータ規模のモデルでも1回の回答生成に十数秒かかります。頻繁に使うなら少なくともApple SiliconのMacかNVIDIA GPU搭載のPCが現実的です。

Ollamaで動かしたモデルのデータは外部に送られますか。

送られません。Ollamaはすべての処理をローカルで完結させます。ただしモデルの初回ダウンロード時はネット接続が必要です。運用中はオフラインでも動作します。

OllamaとChatGPT APIはどちらを選べばよいですか。

扱う情報が社外に出せない場合や、月間コストを固定したい場合はOllama。高精度なアウトプットが必要で情報の機密性が低い場合はAPI利用が適します。詳しくは/articles/slm-vs-api-cost-comparison/を参照してください。