生成AI技術とサービスの最前線!企業のAI活用を加速する4つの新技術とは?

生成AI技術とサービスの最前線!企業のAI活用を加速する4つの新技術とは?

 近年、生成AIの急速な進歩により、企業におけるAI活用の可能性が大きく広がっています。CTCのAI・先端技術部では、以下の3つに注力し、未来に向けた取り組みを進めています。

  • 生成AI:自然言語、画像、動画、音楽などのデータを創造的に生成
  • 最適化AI:数理最適化の技術を活用したAIソリューション
  • 次のAI技術:現時点ではまだ一般的には広く知られていない最新のAI技術研究

 本記事では、特に生成AI技術にスポットを当て、現状と課題そして最新の解決策についてご紹介します。

1. 加速度的に進化する生成AI

 近年、生成AIは画像、自然言語、動画の各コンテンツ分野で目覚ましい発展を遂げています。各分野での代表的なサービスは以下のようなものがありますが、特に自然言語がリードしている状況です。

  • 画像生成分野:DALL-E3、Midjourney、Stable Diffusion
  • 動画分野:Sora
  • 自然言語分野:ChatGPT、Copilot、Claude Sonnet

 これらの中でLLM(大規模言語モデル)に注目すると、MMLU(さまざまなタスクに対する言語モデルの性能を評価するためのベンチマーク)に基づく評価からも、生成AIの技術は日進月歩で進化していることがうかがえます。最近の傾向として、新しい生成AIモデルの数が急激に増加し、ChatGPTなどの商用モデル(クローズモデル)の精度が時間とともに着実に向上しています。また、オープンソースで開発されているモデル(オープンモデル)も目覚ましい進化を遂げており、一部モデルは最先端の商用モデルと同等の高精度を実現しています。これまでクローズモデルとオープンモデルの間に存在していた大きな性能差も急速に縮まっています。

2. CTCが考えるAI活用の3段階

 ここまで述べてきたような生成AIの技術について、これまでの技術とこれからの技術を具体的に見ていきましょう。CTCでは、AIの活用レベルを3つの段階に分類しています。

  • 第1段階「ライトユーザー」:ChatGPTやPerplexityなどの生成AIを基本的なレベルで活用しているユーザー。
  • 第2段階「ヘビーユーザー」:チャットベースのAI活用に加えて、画像生成などの機能も使いこなし、ワークフローに組み込むなど、生成AIを積極的に活用しているユーザー。
  • 第3段階「デベロッパー」:クラウドやプログラミングを活用して生成AIアプリケーションを開発したり、独自にLLMモデルを作成・改良したりする高度な技術者。

 現状としては、多くのユーザーが「ライトユーザー」のレベルに位置しています。このような利用状況を踏まえると、ビジネスでの生成AI活用の主流はRAG(検索拡張生成)を用いた社内チャットサービスの構築であると考えられます。

3. RAGを使った社内チャットサービスの概要

 RAGは、社内チャットサービスで広く採用されている技術です。このシステムは以下のような流れで動作します。

  1. まず、ユーザーがチャットインターフェースを通じて質問を入力し、システムが質問文を数値データ(ベクトル)に変換します。
  2. ベクトル化された質問を使って、事前に用意された社内データベースから関連する情報を検索し、入力された質問に近い内容を持つ文書や情報を抽出します。
  3. 抽出された関連情報と元の質問を組み合わせて、LLM(大規模言語モデル)に入力します。LLMは、これらの情報を参考にしながら、ユーザーの質問に対する適切な回答を生成します。

図 1. LLMを用いたビジネス応用例

4. 社内チャットサービスにおける4つの課題と対応策

 生成AIの活用、特に社内チャットサービスの導入においては、以下の4つの課題が存在します。

  1. 回答精度が低い:社内データを活用した回答生成において、精度が十分でない場合があります。
  2. 会話に手間がかかる:ユーザーと生成AIとの会話において、期待する回答を得るまでには複数回のやりとりが必要となる場合が多く見られます。
  3. 画像情報に適応していない:社内にある大量の画像データを回答生成に利用できていません。
  4. アプリ開発・導入の困難さ:社内向けチャットサービスの実装には高度な技術が必要です。

 これらの課題は、生成AI技術の実務活用における重要な改善ポイントです。

(1) 回答精度が低いことへの対策

 回答精度が低くなる主な要因として、2つの点が挙げられます。

  • 文脈理解の限界:複数の文書間の関連性を総合的に判断できず、必要な情報を見落としてしまう。
  • 専門用語の理解不足:社内独自の専門用語に対する理解が不十分で、適切な検索や回答ができない場合がある。

 これらの課題に対して、以下の解決策が提案できます。

【GraphRAG技術の活用】

 情報をノードとエッジで表現するグラフのデータベースを用いることで、周辺情報も含めて検索できるため、文脈を考慮した包括的な回答が可能になります。CTCでも技術検証を行っており、Microsoftの提供するGraphRAGなどを活用することで、抽象的な質問にも対応できることが確認されています。

【LLMのチューニング】

 基本的なLLMに対して、社内独自の専門用語や技術情報を追加学習させることで、専門分野での理解度を向上させる方法です。これにより、業界や企業特有の専門用語に対する理解力を強化し、より正確な回答を生成することが可能になります。

(2) 会話の手間を低減するための対策

 AIに1回質問しただけでは欲しい回答が得られず、何度か追加の指示が必要なケースも多くみられます。この課題に対する解決策として注目される技術が、AIエージェントです。広義ではAIが自律的に目的を達成するシステムを指しますが、ここではLLMに特化して自律的に回答を生成する技術を指します。

 AIエージェントの分野は主に以下の4つです。

  • リフレクション
  • Tool use
  • プランニング
  • マルチエージェントコラボラトリー

 例としてリフレクションについて挙げると、以下のような自己改善プロセスにより回答精度を高めます。

  1. 質問に対して初期回答を生成
  2. 不足点の自己分析とフィードバック文章の作成
  3. フィードバックとアウトプットに基づく回答の修正
  4. 1〜3のプロセスを繰り返すことで回答の質を向上

 会社の事務手続きなどの複雑な案件でも、AIが必要な情報を質問しながら、より適切な回答を作成できることが確認されています。

(3) 画像情報が活用できない問題への対策

 自然言語を扱うLLMでは画像情報を処理できません。この課題を解決するために、マルチモーダルAIの導入が検討されています。マルチモーダルAIは、テキストと画像の両方を理解・処理できる技術です。具体的な処理の流れとしては、以下のようになります。

  1. ファイル内のテキストと画像情報を入力として受け取る
  2. マルチモーダルAIが画像を解釈し、その内容をテキストとして説明
  3. 画像の説明文をデータベースに蓄積
  4. 必要に応じて画像の内容も含めた総合的な回答を生成

 CTCでも実際にマルチモーダルAIの検証を行っており、画像とその説明をMarkdown形式で管理することで画像情報も扱えるようになってきています。

図 2. 画像情報を取り込む方法

(4) アプリケーション開発が困難であることへの対策

 社内チャットサービスを構築するには高度なプログラミング技術やGUI設計知識が必要で、気軽に作れるものではありません。この課題に対する解決策として挙げられるのが、DifyやFlowiseなどのワークフローツールの活用です。

 たとえばナレッジ生成においては、これまで自分たちでインターフェースを作成する必要がありましたが、ワークフローツールではそれが事前に用意されており、ファイルをアップロードするだけでナレッジ部分が完成します。また、入力インターフェースやナレッジ活用の設定など、自分たちで作りたいワークフローをツール上で構築できます。

 デプロイ作業も大幅に簡略化され、アプリケーションを公開するボタンを押すだけで簡単に公開できるようになりました。CTCでもワークフローツールに注目し、LLMを条件分岐判断に活用したフローをDify上に構築するなど、新しいサービスの可能性を探っています。

5. まとめ:生成AI技術の最前線

 生成AI技術は、特に自然言語処理の分野で大きな進展を見せており、多くのアプリケーションが開発されています。その中でも、社内チャットサービスの活用が特に顕著となっています。

 しかし、これらのサービスには複数の課題が存在していました。これに対して、近年の技術進化により、GraphRAG、LLMチューニング、AIエージェント、マルチモーダルAI、ワークフローツールといった新しい技術が登場し、従来対応できなかった課題への解決策が提供されるようになってきています。

 CTCでは、これらの最新技術に対して継続的な検証と改善を行いながら、新たなサービスの開発を進めており、皆様と一緒に生成AI革命を起こせればと考えています。本稿でご説明したような課題を生成AIに感じている方は、ぜひCTCまでご相談ください。

お問合せ