生成AIを社内向けにカスタマイズして活用するには?

生成AIを社内向けにカスタマイズして活用するには?

1. はじめに

2022年末にChatGPTが登場し、その高い回答精度から世界中から注目され、一気に生成AIブームが加速しました。各個人がスマホから気軽にChatGPTに質問をするようになり、生成AIは日々の生活により密接な存在になりました。

 

各企業も、主に業務効率化の目的で生成AI活用に精力的に取り組みはじめ、使用方法を色々と模索していますが、企業の場合は、社内のドキュメント等の機密性の高い資料を生成AIに学習させる必要があるため、セキュリティのリスクが非常に高く、多くの企業が生成AIを活かしきれないという問題に直面しています。

 

本記事では、そういった課題を抱えている企業に対して、RAG、及びファインチューニングという切り口で、生成AIで社内リソースを取り扱う方法について解説をします。

2.RAGとは

Retrieval-Augmented Generation(RAG)は、生成AIの出力を最適化するために、外部ドキュメント等の知識ベースを参照する方法です。これにより、生成AIは元々学習していない情報に関しても知識を取り込む事ができ、よりユーザーの質問に対して関連性の高い回答を生成する事が可能になります。

 

もう少しわかりやすく解説をすると、例えば以下のような質問をChatGPTに投げたとします。

 

「うちの会社の就業規則、特にリモートワークのポリシーについて要約して教えて」

 

この場合、ChatGPTは「うちの会社」のリモートワークポリシーに関して、何も学習をしていないので、正しい回答を生成する事は難しく、おそらく一般的なリモートワークポリシーについて回答を生成する事でしょう。
RAGを使用すると、対象の社内ドキュメントをChatGPTが解釈して、上記の質問に対して「うちの会社」の内容にそった正しい回答を生成する事が可能になります。

AI活用に関するご相談はこちらから

3.RAGの仕組みに関して

それではなぜ、RAGを使用すると社内文書等を簡単に生成AIで取り扱う事ができるようになるのでしょうか?以下に簡単にRAGの仕組みに関して解説を行います。RAGでは大まかには以下の2つのステップが実行されます。

3-1.ドキュメント検索

ユーザーの質問から、その質問の意味を解釈して、それに合致するドキュメントを検索し取得するプロセスです。上記の「うちの会社の就業規則、特にリモートワークのポリシーについて要約して教えて」という質問の例だと、「うちの会社」「就業規則」「リモートワーク」等の単語に合致したドキュメントを正しく取得できるかどうかが重要になります。

3-2.文章生成

3‐1.で検索し取得したドキュメントを取り込む形で、生成AIが回答を生成します。そのため、通常は生成AIが学習していないような知識に関しても、生成AIに取り込み回答を生成できるようになるため、上記の例のように、ChatGPTに「うちの会社の就業規則、特にリモートワークのポリシーについて要約して教えて」という質問を投げて、正しい回答を得られるように動作させる事が可能になります。

RAGの仕組みに関して

4.ファインチューニングとRAGの違い

生成AIに独自のドキュメント等の内容を回答させるその他の方法としては、生成AI自体の学習モデル自体をファインチューニングして、不足分の知識を学習させる・・・という方法もあります。ファインチューニングとは、既に学習済みのモデルに追加で別の知識を習得させることで不足分の知識を学習させ、カスタマイズしたモデルを作り出すことです。

 

ファインチューニング自体は、生成AIを始めとした機械学習では一般的に用いられる手法ですが、適切なトレーニングデータを用意する必要があったり、それ相応のマシンパワーも必要になり、ファインチューニング自体にAIエンジニアとして一定の力量が必要になるので、導入の敷居は上がりますが、生成AIのモデルそのものを自社仕様にカスタマイズする事ができるという点においてはパワフルです。

 

対してRAGは、生成AIモデル自体には手を加えること無く、追加学習無しで簡単に使用する事ができるという点では非常に拡張性に優れていて、導入のハードルが下がります。しかしながら、生成AIが外部のドキュメントを正しく解釈し、ユーザーが期待するような回答を生成できるかは、生成AIのもとのモデルの性能に依存するため、モデルの性能が低い場合は威力を発揮しないこともあります。

 

ファインチューニングとRAGは、勿論組み合わせて使用する事もできるので、適宜使用用途に応じて適切に使用する必要があります。

ファインチューニングとRAGの違い

AI活用に関するご相談はこちらから

5.RAG・ファインチューニングの安全性を高めるには

上記で紹介させて頂いたRAGやファインチューニング等の手法によって、生成AIを企業用にカスタマイズして使用する方法については解説をしましたが、その場合、やはり気になるのはセキュリティです。会社の機密ドキュメントを扱う・・・という事になると、万が一それが情報漏洩してしまった時のリスクは非常に大きく、大きな損失が発生してしまいます。リスクは0にする事はできないのですが、以下にどのようにすれば、リスクを下げることができるかについて解説します。

5-1.GPT-4o等の外部公開されているAPIを使用する場合

自社内で生成AIを活用する場合に、最も一般的な方法はChatGPT等のAPI(GPT-4o等)をコード等から呼び出す方法かと思いますが、その場合、その使用しているAPIのデータの取扱に関する規約等の確認を入念に行う事をおすすめします。

 

普段、Web上からChatGPTを利用する場合は、入力した質問等はデフォルトではChatGPTの学習に使用されてしまいます。つまり、この状況でRAG等で、機密性の高いドキュメントや、入力したクエリをChatGPTに参照させてしまうと、それらが学習に使用されてしまい、情報漏洩のリスクに繋がります。

 

このようなリスクを回避するためには、有料プランに加入したり、事前に提供したデータを学習に使わないよう、申請フォームから申請をする等の手段があるので、詳しくは公式HPの利用規約を確認してみてください。因みに、ファインチューニング時に提供するデータに関しても同様に注意をする必要があります。

 

ただし、いくらChatGPTの学習に提供したデータが利用されないといっても、データ自体はChatGPTが運用されているサーバー上に渡ってしまうため、仮にChatGPTのサーバーがハッキングされたりした場合は、依然情報漏洩のリスクはあります。十分その危険性を理解し、最重要ドキュメントは取り扱わない、等のルールを作り、徹底するなどの対策を講じることをおすすめします。

 

また、セキュリティとは別の話題になりますが、ChatGPTのAPIを利用する場合には、コール数に応じて都度課金が発生するため、運用開始前に料金のシミュレーションを行っておくこともおすすめします。

5-2.ローカル生成AI(オープンソースLLM)を利用する場合

生成AIを使用する場合は、前述の通りChatGPT等の公開サービスを使用する場合が多いかと思いますが、最近はMeta社が提供しているLlama(現在はLlama3が主流)のように、オープンソースで提供されているものもあります。各自の環境にダウンロードして、オフラインでも使用可能な生成AIも増えており、また性能に関してもChatGPTに負けず劣らず・・・優秀なものが多くあります。

 

こういったローカル生成AIの一番のメリットは、各自の環境にダウンロードして使用可能な点であり、セキュリティを考えるとオフラインのローカル環境でも使用可能な生成AIは非常に魅力的です。扱うドキュメントの機密性が高く、どうしても公開サービスを使用できない場合などには有効な代替手段になりうるでしょう。また、ローカル生成AIに関しては、コール数に合わせた課金が発生しないことも大きなメリットです。

 

しかしながら、ローカル生成AIを動作させるには、そのモデルの大きさにも依存しますが、それ相応のスペックのマシンを用意する事が求められ、場合によっては、大規模GPU掲載マシン等を用意する必要があるため、初期投資にコストがかかる場合もあります。また、当然そういったマシンのセットアップや、ローカル生成AIの使用には、それなりの熟練が必要になるので、公開サービスを使用するよりは導入の敷居は高くなります。

 

ただし、これらの面をクリアできれば、RAGが必要な場面でも、ファインチューニングを必要とする場面であっても、ローカル環境のみで対応が可能なため、非常にセキュリティが高くなります。また運用面でもコール数に合わせた課金が発生しないので、理想的です。

ローカル生成AIを利用する場合

6.まとめ

本記事では、生成AIを社内で活用し、社内ドキュメント等を扱う方法について、RAGとファインチューニングという切り口で解説を行いました。

 

どちらの方法に関しても、一長一短あるのでユースケースに合わせて使用する方法を変える必要がありますが、一般的にはRAGの方が簡単に実装対応を行う事ができます。

 

何よりも、社内で生成AIを活用する場合には、セキュリティには十分気をつける必要があり、機密性の高いドキュメントを扱う場合には、ローカル生成AIを活用するなどの方法も検討する必要があります。

 

本記事の内容を参考にして、是非、社内での生成AI活用に取り組んでみてください。

AI(人工知能)サービスページはこちら

お問い合わせはこちら

執筆者

江口 天

EGUCHI TAKASHI 江口 天

執行役員

株式会社クロス・コミュニケーション

東京大学大学院修了後、NTT研究所で暗号アルゴリズムの研究開発に従事。
その後、ヨーロッパに渡り、ドイツ及び日本のマイクロソフトで自然言語処理エンジニアとして活動。その後、カナダのスタートアップに関わり、日本語の音声認識のアプリケーションを開発。日本に帰国後、主に国内の大企業に対するDXコンサルティング・アドバイザリーサービスを提供する株式会社MDIUを設立。同社で人材マッチングを自動化するAI、Lichtの開発を行う。
2022年12月よりクロス・マーケティング・グループに加わり、DX・AI領域における高度な知見を基に、グループの事業全体のDX化の推進やAIを活用したビジネスモデルの変革について牽引。