コンサルタントの文字起こしをAIで整形する方法
この記事の要点
議事録・インタビュー音声の文字起こしをAIで整形・構造化する手順を解説。プロンプト例つきでコンサル業務の時間を大幅に削減できる。
結論
コンサルタントの文字起こし整形作業は、AIに渡すプロンプトを正しく設計すれば、1時間の会議分を10分以内に完了できる。要点は「生テキストをそのまま渡さず、整形の目的と出力形式を明示すること」だ。
使うAIツール
| ツール | 役割 |
|---|---|
| OpenAI Whisper(またはNotion AI音声入力) | 音声ファイルをテキストに変換 |
| Claude 3.5 Sonnet / GPT-4o | テキストの整形・構造化・要点抽出 |
| Notion / Confluence | 整形済み議事録の保管・共有 |
Whisperはローカルで動かすことができ、音声データをクラウドに送らずに済む選択肢として評価が高い。整形フェーズはClaudeが長文コンテキストに強く、発言の文脈を保ちながら整理しやすい。
手順
ステップ1:音声をテキストに変換する
会議録音(mp3・m4a・wavなど)をWhisperに渡してテキストを生成する。Whisperのローカル実行コマンドは以下の通り。
whisper meeting_20260605.m4a --language ja --output_format txt
出力されたテキストはそのままでは誤字・フィラー語(「えー」「あのー」)・話者混在が多い状態になる。このテキストを次のステップでAIに渡す。
ステップ2:AIに整形を依頼する
生テキストをAIに貼り付け、以下のプロンプトを使う。
以下はコンサルティング会議の文字起こし生テキストです。
次の指示に従って整形してください。
【整形ルール】
1. 発言の意味を変えずに冗長な言い回しを削除する
2. 話者ごとに発言をまとめ、話者名を「Aさん」「Bさん」のように仮名にする
3. 決定事項・宿題・懸念点をそれぞれ箇条書きでまとめる
4. 感情的なニュアンス(強調・躊躇・確認)は(※)で注記する
5. 出力形式:議題ごとにH2見出しで区切る
【文字起こし原文】
(ここに生テキストを貼る)
このプロンプトを使うと、発言の流れを崩さずに読みやすい議事録が生成される。
ステップ3:構造化と要点抽出を行う
整形済みテキストをもとに、クライアントに送付できる要点サマリーを作る。
以下の議事録から、クライアント向けの要点サマリーを作成してください。
【要件】
- 読者:プロジェクトオーナー(詳細には関与していない)
- 分量:A4で1ページ以内に収まる量
- 構成:①今回の議論の背景、②主な論点と結論、③次回アクション(担当・期限付き)
- 語調:丁寧だが冗長でない
【議事録】
(ここに整形済みテキストを貼る)
クライアントへの送付前には必ず事実確認と固有名詞の修正を行うこと。AIが生成した文章に誤認識が含まれることがある。
ステップ4:発言の論点マップを作る(任意)
インタビュー調査や課題ヒアリングの場合、発言内容を論点別に分類する作業が発生する。
以下の発言録から、論点ごとに発言をグルーピングしてください。
【分類軸】
- 現状課題
- 原因仮説
- 解決への期待
- 組織の制約・懸念
各グループの冒頭に、その論点を一文で要約してください。
【発言録】
(ここに整形済みテキストを貼る)
この出力をそのまま課題整理フェーズに持ち込める。論点マップを作る工程については課題整理をAIで行う方法も参照してほしい。
具体例1:キックオフ会議の議事録整形
ある製造業クライアントのDX推進プロジェクトでは、1時間のキックオフ会議の録音をWhisperで変換した後、上記プロンプトを使って整形した。生テキスト約8,000字が、議題別に整理された議事録3,500字と要点サマリー700字に仕上がるまでの所要時間は約8分だった。
従来の作業では、メモを取りながら会議に参加し、会議後に1〜2時間かけて清書・送付まで行っていた。整形後のドキュメントの品質についてもクライアントからの指摘は少なく、担当者は「発言の意図が正確に残っている」と評価した。
具体例2:ステークホルダーインタビューの発言整理
戦略立案フェーズで5名へのインタビューを行った際、各インタビューの文字起こしを論点マップ用プロンプトで処理した。5名分の発言がそれぞれ「現状課題」「原因仮説」「解決への期待」「組織の制約」に分類され、各論点ごとに発言の代表的な引用が紐づけられた状態で出力された。
通常であれば分析ワークショップに2〜3時間かけていた作業が、AIでの前処理によって1時間のセッションで議論を深める段階まで進められた。
うまくいかない場合
整形後の文章が硬すぎる・柔らかすぎる
プロンプトに「語調:〜」の指定を追加する。「クライアントに送付できる丁寧な文体」「社内用のフランクな文体」など具体的に書くと改善しやすい。
決定事項と宿題が混在して出力される
出力フォーマットを具体的に指定する。「決定事項はD:、宿題はT:、懸念はC:で頭出しする」などの記号ルールをプロンプトに加えると分類精度が上がる。
話者の識別がうまくいかない
Whisperの出力に話者ラベルが含まれない場合、プロンプトの冒頭に「話者の区別はありません。内容から推定して区別してください」と明示するか、手動でラベルを付与してからAIに渡す。長い発言が途切れず1人の発言として認識されるケースが多いため、段落ごとに分割してから渡すとよい。
機密情報の扱いが不安
クライアント名・製品名・金額などは事前に「A社」「製品X」「○億円」のようにマスキングする。プロンプトにも「固有名詞はすべてマスクされています」と明示しておくと、AIが不自然に補完しようとする動作を抑えられる。
整形フローの全体像
音声録音
↓ Whisper(ローカル)
生テキスト
↓ 整形プロンプト(ステップ2)
整形済み議事録
↓ サマリープロンプト(ステップ3)
クライアント向けサマリー
↓ 論点マッププロンプト(ステップ4)※任意
論点別発言整理
各ステップは独立しており、必要なものだけ使える。キックオフ会議ならステップ3まで、インタビュー調査ならステップ4まで使うといった使い分けが実用的だ。
他の記事との連携
文字起こしで得た情報をもとに課題を整理する手順は課題整理をAIで行う方法で解説している。仮説立案の壁打ちに使う方法は仮説出しをAIで壁打ちする方法を参照してほしい。
よくある質問
文字起こしの整形にはどのAIツールが向いていますか?
ClaudeやChatGPT(GPT-4o)が長文処理に優れており、クライアント会議の文字起こし整形に実績があります。Whisperで音声を先にテキスト化してからAIに渡す流れが一般的です。
機密性の高い会議内容をAIに渡しても問題ありませんか?
クライアント名・固有名詞をマスキングしたうえでAIに渡す運用が推奨されます。社内ガイドラインが整備されるまでは仮名や記号に置き換えて処理してください。
文字起こしの整形でどのくらい時間が短縮できますか?
1時間の会議であれば、従来30〜60分かかっていた整形・清書作業が5〜10分程度に短縮できるケースが多く報告されています。
AIが話者を誤認識した場合はどう対処しますか?
プロンプトに「発言者の変わり目はダッシュ(―)で区切られています」など音声ツールの出力形式を明示するか、事後に手動で話者ラベルを確認・修正するのが現実的です。