Transformerとは

TRANSFORMER
読み: トランスフォーマー

Transformerとは、ChatGPTやBERTなどの生成AIを根底で支える自己注意機構を備え

読み: トランスフォーマー

ChatGPTやBERTなどの生成AIを根底で支える自己注意機構を備えた深層学習アーキテクチャであり自然言語処理の精度と速度を大幅に向上させた技術。

かんたんに言うと

オーケストラの指揮者のようなものである。個々の楽器の音を順番に聞くのではなく、全体のハーモニーを同時に把握し、どの楽器の音を際立たせるべきかを瞬時に判断して楽曲をまとめ上げる。

RNNの直列処理を突破したTransformerの並列計算

Googleが2017年に発表した論文Attention Is All You Needで登場したTransformer。RNNCNNといった従来のアーキテクチャが抱えていた直列処理の限界を突破した。
RNNは前から順番に単語を処理するため、長い文章になると最初の文脈を忘れてしまう。
現場でRNNベースの翻訳モデルを使っていた頃は、長文の契約書を食わせると後半の主語がすり替わる事故が頻発して頭を抱えたもの。
Transformerは違う。
文章全体を一度に読み込み、単語間の関係性を並列で計算する。これにより文脈の保持力が劇的に向上した。

Transformerのアーキテクチャ

文脈を正確に捉える自己注意機構の仕組み

Self-Attentionと呼ばれる自己注意機構が中核を担う。エンコーダとデコーダで構成され、入力された文章のどの単語に注目すべきかを確率的に割り出す。
例えば銀行で口座を開くと川の土手を歩くのbankの違いを、周囲の単語との関連性から正確に判別する。
並列処理が可能になったことで、GPUの計算資源をフル活用できるようになった。
ただ、計算量が入力系列の長さの2乗に比例して爆発する。
長文を処理させようとするとVRAMが枯渇してOOMエラーを吐く。どこまでコンテキストウィンドウを広げるかは常に悩ましい。

現場を動かす代表的なAIツールと活用事例

ChatGPTやGemini、DeepLといったツールはすべてTransformerベースである。
法務部門での契約書レビューを想像してほしい。
BERT系のモデルを使って過去の膨大なNDAから不利な条項を抽出させる。
製造業の設計部門なら、過去のトラブル報告書をベクトル化してRAGを構築し、類似の不具合事象を瞬時に検索させる。
経理部門の請求書処理でも、フォーマットの異なるPDFから金額や日付を抽出する精度は従来のOCRとは比較にならない。
あなたの現場では、まだ手作業でテキストを分類していないだろうか。

並列処理がもたらす恩恵と技術的な限界

GPUによる並列処理の恩恵は計り知れない。パラメータ数を数千億規模までスケールアップさせることが可能になった。
しかし、現場の落とし穴はここにある。
モデルが巨大化すればするほど、推論にかかるレイテンシとコストが跳ね上がる。
法務の契約書チェックのように数秒待てる業務ならいい。だが、製造ラインのリアルタイムな異常検知にTransformerを組み込もうとすると、処理遅延が致命傷になる。
精度と速度のトレードオフをどう着地させるか。現場のエンジニアにとって最も判断が分かれるポイントである。

自社システムへ組み込む際の評価基準

自社システムに組み込む際、API経由でOpenAIのモデルを叩くか、オンプレミスLlama 3などのオープンモデルを動かすかの選択を迫られる。
クラウドのAPIは手軽で高性能だが、顧客の個人情報や未発表の製品仕様を外部サーバーに投げるリスクを許容できるか。
オンプレミスで動かすなら、H100などの高価なGPUを調達し、運用保守する体制が必要になる。
どちらを選ぶべきか。
自社のデータガバナンス基準と許容できるインフラコストを天秤にかけるしかない。

TransformerとRNNの比較

比較項目 RNN Transformer
文脈理解アプローチ(逐次処理 vs 並列注意処理) 時系列に沿って入力を順番に逐次処理するアプローチ 位置エンコーディングを用いた完全な並列注意処理
非常に長い文脈(Long Context)の維持能力 情報が圧縮されるため長すぎる文脈は消失リスク Self-Attentionにより超長文の文脈も均等に維持
自己注意機構(Self-Attention)の有無 局所的な時系列関係しか追えないアーキテクチャ 関係性が遠く離れた情報も同列にアテンション計算
計算の並列化とスケーリング効率 逐次処理のためGPU等の並列化計算効率が極めて悪い 並列計算の親和性が高く巨大なスケーリングが可能
自然言語処理における主流度 過去の標準であり現在は特化タスク以外で減少 現在のLLMはじめ自然言語処理における絶対的デファクト

系列データ処理のボトルネックを解消するために生まれたのがTransformerです。メモリ制約があり小規模に処理するならRNN、膨大なリソースを投下して長距離の文脈を高精度に並列処理するならTransformerが適しています。

TransformerとCNNの比較

比較項目 CNN Transformer
空間特化(局所)か全体注意機構(大域)か 情報パラメータに対し局所的で空間特化のアプローチを採用し画像の小さな特徴抽出に優越 空間領域全体情報を考慮し大規模アーキテクチャによる全体注意機構によるアプローチを採用
モデルの計算リソース制約 計算リソース制約が厳しい場合でも学習や推論を一定水準以上の精度として確保可能 データ自体への汎用推論汎化特性は極めて高いが強力な計算用演算並列ハードウェアを要求
データへの汎化特性 CNNが提供する標準的な機能・インターフェース Transformerが得意とする高度な対応機能やインターフェース

画像の局所処理か、大局的な注意機構かで分かれます。計算リソースが少なくても局所特徴にて堅実に動作させるならCNN、巨大なデータ量を背景に空間領域全体の関連付けで高精度化を目指す最新推論ならTransformerが適任です。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する