コーパスとは
コーパスとは、自然言語処理の研究や大規模言語モデルの学習に使用される
読み: コーパス
かんたんに言うと
AIにとっての教科書の山である。人間が言語を学ぶときに大量の文章を読むように、AIも膨大なテキストを読み込むことで言葉の使い方を覚える。その読み込み対象となるデータの集まりがコーパスにあたる。
研究素材からAIの戦略的資源に変わったコーパスの歴史と現在
コーパスという概念自体は新しいものではない。1960年代にBrown Corpusが構築されたのが先駆けとされており、当時は100万語程度の英語テキストを品詞タグ付きで整理したものだった。言語学者が英語の文法パターンを分析するための研究素材である。
それから半世紀以上が経ち、コーパスの規模は桁違いに膨れ上がった。GPT-3の学習に使われたとされるデータ量は数千億トークンに達し、GPT-4ではさらに増えているとみられるが、OpenAIは学習データの詳細を公式に開示していない。もはや研究素材というよりも、AIの性能を左右する戦略的資源になった。
この規模の変化は、コーパスの意味合いそのものを変えた。丁寧にタグ付けされた小規模データから、ウェブ上のテキストを大量にクロールした雑多なデータへ。質より量の時代に突入したかに見えたが、話はそう単純ではない。
代表的なコーパスとその特徴
LLMの学習に使われる代表的な公開コーパスをいくつか挙げる。
Common Crawlは、ウェブページを定期的にクロールして収集した大規模データセットで、数十ペタバイト規模のテキストを含む。The Pileは、EleutherAIが学術論文、書籍、GitHub、Wikipediaなど22のソースから構成した800GBのデータセットである。日本語では、国立国語研究所の「現代日本語書き言葉均衡コーパス」(BCCWJ)が約1億語規模の整備されたデータとして知られている。
商用LLMの学習データは非公開であることが多い。OpenAIもGoogleも、具体的にどのデータを使ったかの全容は明かしていない。コーパスの中身がブラックボックスであること自体が、後述するバイアスや著作権の問題を複雑にしている。
データの質がモデルの質を決める
「Garbage in, garbage out」という格言は、コーパスにそのまま当てはまる。
Metaの研究チームが2024年に発表したLlama 3の論文で興味深いデータが示された。学習データの品質フィルタリングを強化することで、データ量を減らしてもモデル性能が向上したという結果である。大量のウェブテキストをそのまま食わせるよりも、ノイズを取り除いた高品質なテキストで学習させるほうが効果的だった。
品質管理の手法も進化している。重複テキストの除去、低品質コンテンツのフィルタリング、有害コンテンツの排除といった前処理が、モデルの性能を実質的に左右する。地味な作業だが、ここに手を抜くとモデルが差別的な表現を生成したり、事実と異なる情報を自信満々に語ったりする。
バイアスと著作権という避けられない論点
コーパスに含まれるバイアスは、モデルの出力にそのまま反映される。インターネット上のテキストは英語が圧倒的に多く、文化的にも英語圏の価値観に偏っている。日本語のデータ量は英語の10分の1以下とされており、日本語LLMの性能が英語モデルに追いつかない一因にもなっている。
著作権の問題はさらに厄介である。New York Timesがopenaiを訴えた裁判は象徴的な事例だが、コーパスに含まれる著作物を学習に使うことが著作権侵害にあたるかどうかは、法的にまだ決着がついていない。各国の法制度によっても判断が分かれる。
日本では2018年の著作権法改正で情報解析目的の著作物利用が広く認められているが、これも条件次第である。学習済みモデルが原文をほぼそのまま出力するケースでは、話が変わってくる。
自社コーパスの構築という選択肢
公開コーパスに頼るだけでなく、自社の業務データからコーパスを構築する動きも出てきている。社内の議事録、マニュアル、メール、チャットログなどを整備し、RAGの検索対象やファインチューニングのデータとして活用するアプローチである。
ただ、社内データをコーパスとして使うには前処理の手間がかかる。個人情報のマスキング、古い情報の除外、フォーマットの統一といった作業を怠ると、AIが退職者の連絡先を回答したり、3年前に廃止された社内規定を正としたりする。
コーパスの構築は、AIプロジェクトの中で最も地味で最も重要な工程のひとつである。ここに投資するかどうかで、半年後のAI活用の質が決まる。
当社の見解
当社はAI長期記憶システムを自社開発・運用している(2026年4月現在、1,655件の記憶データを蓄積)。この仕組みにより、AIが過去3ヶ月分の経営判断や設計方針を文脈ごと保持し、「前にも同じ話をしましたよね」という手戻りが激減した。セッションが切れても議論の続きから再開できるため、壁打ち相手としてのAIの価値が根本的に変わった。技術的にはCognee MCPサーバーによる記憶保存と、FastEmbed(ONNX Runtime)+ LanceDBによる非常駐型ベクトル検索(検索レイテンシ8ms、GPU不要)を採用。Hindsight(LongMemEval 91.4%精度)やomega-memoryなど複数の既製品を実環境で検証・棄却した上での選定であり、「個人PCでもエンタープライズでも負荷なく動く軽量さ」を最優先に設計している。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
