Text Splitterとは
Text Splitterとは、RAGシステムにおいて企業独自の長文データをLLMが処理可能なサイズのチャンク
読み: テキスト・スプリッター
かんたんに言うと
分厚い契約書をそのまま渡されても人間は要点を見失う。付箋を貼り、意味のある段落ごとに切り分けてからAIに読ませる裁断機のようなものである。
RAGの精度はText Splitterのチャンク分割で決まる
RAGを構築する際、ベクトルデータベースにデータを突っ込む前の前処理が命である。LLMには一度に処理できるトークン数の上限がある。だからテキストをチャンクと呼ばれる小口データに割る。
チャンク化が雑だと、AIは平気で見当違いの回答を返す。
現場ではこの分割作業の精度がシステムの死命を制する。ただ単に文字を区切ればいいという話ではない。句読点や改行コードを基準にするベーシックな手法から、意味のまとまりを解析するものまでアプローチは様々である。どの手法を選ぶかで、後続の検索エンジンのヒット率が露骨に変わる。
長文データを適切なサイズに切り分ける仕組み
単純な文字数でぶつ切りにするのは素人のやり方である。
法務の契約書を500文字で機械的に切ると、免責事項の途中で文脈が途切れる。そこでオーバーラップという概念を使う。前後のチャンクで数十トークンを重複させるのである。
これで文脈の断絶は防げる。
だが、重複部分が増えればベクトル検索のノイズも増える。検索結果に同じようなテキストばかりが並び、LLMが混乱する原因になる。チャンクサイズを大きくすれば文脈は保たれるが、検索の精度は落ちる。どこでバランスを取るかは常に悩ましい。
開発現場で活用される代表的な分割ツールと実装例
実装ではLlamaIndexのNodeParserや、UnstructuredのAPIをよく使う。
特にUnstructuredはPDFの表やヘッダーを構造的に解釈してくれるため、経理の財務諸表を食わせる時に重宝する。最近はSemantic Chunkingという、埋め込みモデルを使って意味のまとまりで動的に分割する手法も出てきた。
ただ、処理コストが跳ね上がる。
数万ページのドキュメントに適用しようとすれば、APIの課金額を見て青ざめることになるだろう。予算と精度の天秤をどう傾けるか、アーキテクトの判断が分かれるところである。
テキスト分割がもたらす効果と技術的な限界
適切に分割されたデータは、検索時のヒット率を劇的に上げる。コンテキストウィンドウを無駄に消費せず、必要な情報だけをLLMのプロンプトに詰め込めるからである。
しかし限界もある。
複数のチャンクにまたがる複雑な推論を要求されると、RAGは途端にポンコツになる。例えば「A社の契約とB社の契約の差異を比較しろ」といった指示である。テキスト分割はあくまで局所的な検索を最適化する技術であり、全体像の俯瞰には向いていない。この特性を理解せずにシステムを組むと痛い目を見る。
自社AIシステムへの導入を判断するための評価基準
結局のところ、対象データの性質を見極めるしかない。
製造業の設計マニュアルのように図番とテキストが密結合しているデータと、営業の商談議事録では、最適なスプリッターの挙動は全く異なる。ツールをポン付けして終わるような甘い世界ではない。
自社のデータ構造を泥臭く解析し、分割ルールをチューニングし続ける覚悟があるか。
経営層はAIの魔法を信じたがるが、現場で動いているのは地道なテキスト処理の積み重ねである。その泥臭い運用コストを許容できるかどうかが問われている。
当社の見解
当社はAI長期記憶システムを自社開発・運用している(2026年4月現在、1,655件の記憶データを蓄積)。この仕組みにより、AIが過去3ヶ月分の経営判断や設計方針を文脈ごと保持し、「前にも同じ話をしましたよね」という手戻りが激減した。セッションが切れても議論の続きから再開できるため、壁打ち相手としてのAIの価値が根本的に変わった。技術的にはCognee MCPサーバーによる記憶保存と、FastEmbed(ONNX Runtime)+ LanceDBによる非常駐型ベクトル検索(検索レイテンシ8ms、GPU不要)を採用。Hindsight(LongMemEval 91.4%精度)やomega-memoryなど複数の既製品を実環境で検証・棄却した上での選定であり、「個人PCでもエンタープライズでも負荷なく動く軽量さ」を最優先に設計している。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
