AI訓練データに図書館の歴史的書籍活用が進む新潮流

ここから始めよう - 歴史的書籍をAI訓練データに活用するための実践的な一歩

図書館が所蔵するデジタル化済み資料を週1回以上リストアップする
常に新しい公開資料を把握でき、AI学習素材の幅が拡大
著作権切れやパブリックドメインで利用可能な本のみ全体の90％以上に限定して抽出
法的リスクを避けつつ、大量データ活用による再利用性向上
19世紀以前発行・多言語書籍から毎月5冊ピックアップしAIモデルに反映させる
異文化・多角的推論力強化へ寄与しやすい
(研究者向け) 公共図書館と連携したデータ収集ワークショップを四半期ごと開催予約
`オリジナル資料`への恒常的アクセス機会確保、共同研究促進

AIが人類を学ぶために図書館の古い本を活用し始めた

インターネット上で交わされたすべての言葉——あれも結局はAIに人間社会を教えるための、ほんの始まりだったようだ。最近、テック企業が目を向けているのは、それよりずっと前から存在していた知識の山。なんでもハーバード大学には、十五世紀くらいに出版された本とか、二百五十種類以上の言語で書かれたものまで含めて、およそ百万冊近く集まった蔵書があるそうだ。このコレクションがAI研究者向けに公開される予定らしい。時期は今週中とも聞くし、正確な日付はまだ曖昧な感じ。

一方で、ボストン公立図書館にも古い新聞や政府関連の資料がどっさり眠っているみたい。それも、そのうちAI開発向けに使われるかもしれないという話がちらほら出ている。

ここ数年、著作権を持つ小説家や絵描きなどから「勝手に自分たちの作品をデータとして吸い上げられて困っている」と声が上がってきたこともあって、大手IT会社もどうしたものか迷っている様子。しかし何百年も昔に作られた本や紙物なら、著作権的な問題は少なくなる可能性もあるので、新しい訓練材料として注目されている……と言われたりする。でも実際どこまで使えるかとか、本当に役立つかどうかは、まだ誰にも断言できないところが多い気もする。

マイクロソフトが著作権問題を避けつつ公共データを使う賢明な選択

どこから話そうか。最近、AI関連の話題って多いけど、公的なデータを使うことが今はあまり揉め事になりにくいらしい、とマイクロソフトの法務部門で働いているバートン・デイビス氏が言っていた気がする。著作権がまだ有効なコンテンツだと何かとややこしいから、まずはそっちを避けているみたい。

図書館には思ったよりもたくさんの面白い文化資料とか歴史的な情報、それに言語関係のデータなんかも集まっているようだ。ただ、ネット上でここ十数年見られるようなチャットボット向けのオンライン発言とはまた違う種類らしくて、その辺りに欠落部分があるとも耳にした。

それで、ハーバード大学を拠点としたインスティテューショナル・データ・イニシアチブというプロジェクトが進行中。資金源としてはマイクロソフトやChatGPTで知られてきたOpenAIから寄付みたいな形でも支援が入ってる模様。世界中の図書館と連携して、昔から所蔵されてきた資料群をAI向けに整備する方法について色々考えているらしい。その過程で図書館側やその地域社会にもメリットが生まれる仕組みにしたい…という方針もちらほら聞こえてくる。

「今のAI開発界隈だけじゃなくて、このパワーをもう少し図書館とかそういう機関へ戻してあげたい」と語る人もいたと思う。ハーバード法科大学院付属図書館のラボで研究管理を担当しているアリスタナ・スコータスさんだったかな。「昔から司書たちは情報管理や知識保存に関わってきた」みたいな話も出ていた気がする。

そういえば、「Institutional Books 1」という名前で新しいデータセットも公開されたばかりだとか。でも、その詳細はまだ全部は把握できてないんだよね…。

Comparison Table:

タイトル	内容
デジタル化の目的	図書館がデジタル化した情報は基本的に誰でも利用できるものとして扱われている。
プロジェクトの進捗	ボストンの図書館では、数十年前からフランス語新聞をスキャン・整理する作業が続いており、未だ完全には終了していない。
著作権問題	ハーバード大学とGoogle間でのスキャンプロジェクトは著作権訴訟が長引き、最終的に和解した。
AIへの影響	デジタル化された資料は次世代AIツールにとって重要な資源となる可能性がある。
リスク管理	クリスティ・ムック氏はAI利用時のリスクに向き合うため、自分たちで判断できるガイドラインを作成中であると述べた。

ハーバード大学が394万ページの歴史的書籍をAI研究に開放

紙のページが何百万枚もスキャンされているコレクションがあるらしい。たしか、数億枚に近いとか誰か言ってたけど、正確な数字はあんまり気にしたことない。どうやら、その中には15世紀ごろのもの――たとえば朝鮮半島の画家が花や木を育てることについて手書きで残したノートなんかも混じっているそうだ。時代的には19世紀のものがやっぱり多いみたいで、文学だとか哲学、それから法律や農業関連の本なんかが集まってる感じ。その整理や保存には何世代にもわたる図書館員さんたちが手間ひまかけてきたんだろう。

この膨大な本の山は、AI開発者にとって役立つ場面も少なくないと言われている。AI向けデータとして使われてきた情報の多くは、実際には現物資料から直接得られていないケースも目立ったみたいで。でも、このコレクションは話が違うようだ――本当にその本を持っていた機関が自分でスキャンして、それを一冊一冊元までさかのぼれる形で保存してるんだ、とハーバード大学バークマン・クライン・センターに所属しているGreg Leppertという人が説明していたっけ。もちろん全部完璧とは言えないし、新しい技術にどれだけプラスになるかは場合によるけど、少なくとも信頼性アップにつながると見る人もいるようだった。

AI開発者たちがオリジナル資料にアクセスできる画期的な機会

ChatGPTが話題になる前、AIの研究者たちって、あんまりWikipediaとか、RedditみたいなSNSフォーラム、それにどこかの海賊版書籍データベースから引っ張ってきたテキストの出所について深く考えていなかったらしい。とにかく膨大な「トークン」が必要だったんだよね。言葉でいうと…一つひとつの単語やその断片みたいなもの。ハーバード大学の新しいAI用コレクションだって、もう信じられないくらい莫大な数があるらしくて、ざっくり言うと何千億単位。でも、それでもまだ最先端AIシステムに食わせてる全体量から見れば、ごく一部という話も聞いたことがある。

メタ（Facebookを持ってる会社）なんかは、自分たちの最新型AIモデルを作る時には、その何十倍にもなるトークンを使ったそうで——しかもテキストだけじゃなく画像や動画も混ぜているみたい。ただ、その過程で著作権的に微妙な問題も起きていて、有名コメディアンとか何人かの作家さん達が、自分たちの本が“影”図書館みたいな怪しげな場所から無断で使われたんじゃないかって訴訟になっているとか。それでも最近、本物の図書館側も少し慎重ながら関わり始めているようだ。

このへん、数字や規模感だけじゃピンと来ないけど、「AIへの餌」として色んなものが集められてきた背景には、色々グレーゾーンが存在している気配もあるよね。

ChatGPT以前のAIは海賊版データも使っていた闇の歴史

オープンAIが、著作権を巡る争いもあったようで、今年になって数十億円規模の寄付をしたという話が耳に入ったことがある。そのお金の一部は、何世紀も続く歴史を持つらしいオックスフォード大学のボドリアン図書館など、いくつかの研究機関に渡っているみたいだ。どうやら、その図書館では昔の貴重な資料をデジタル化する試みや、人工知能を使った手作業っぽい文字起こしなんかにも取り組んでいるそうだ。

そういう流れなのか、この会社がボストン公共図書館へ最初に連絡した時期もあった…という噂も聞いた気がする。アメリカ国内でも大きめの図書館のひとつだとか。細かい経緯までは分からないけど、ときどきこういう話題になることがある。

メタ社も訴訟に直面しながら30兆トークンでAIを訓練

図書館がデジタル化した情報は、基本的に誰でも利用できるものとして扱われているみたいだ、とジェシカ・チャペル氏（デジタルサービス関連の責任者）が言っていたことがある気がする。OpenAIも莫大な訓練用データに興味を持っているらしいし、一方で図書館側は膨大なデジタル資料の収集や保存に関心があるとか。だから偶然にも両者の目的がうまく重なる場面になったようだ、と彼女は話していた記憶がある。

デジタル化作業自体、実際にはかなり手間も費用もかかると聞いたことがあった。例えばボストンの図書館では、何十年も前―たぶん七十年とかそれ以上前―にカナダから来たケベック系移民コミュニティーで読まれていたフランス語新聞を、一つ一つ丁寧にスキャンして整理していく作業を続けているらしい。ただ、それが全て順調というより、どこか気長な仕事になっていて、今も完全には終わっていない印象だった気がする。

オックスフォード大図書館がAI支援で貴重書をデジタル化

最近、図書館のプロジェクトにデータとして役立つようになったテキストが、やりたかった事業を進める資金源になっているらしい。チャペル氏も「私たちは公共図書館です」と何度も強調してきたみたいで、コレクションは一般利用のために所蔵されているし、この取り組みでデジタル化したものも後で公開する予定だと説明していたそうだ。

ところで、ハーバード大学の本は十数年前からすでに別の大手IT企業向けにもスキャンが始まっていた。グーグルだったかな。検索できるオンライン図書館を作ろうという構想で、本の数はざっくり言えば二千万冊くらいあった気がする。ただ、その中には刊行されて間もない作品とか著作権がまだ切れていないものも結構混じっていて、それが原因なのか、作者側から長年にわたって訴訟が続いたことでも話題になった。

裁判沙汰はずいぶん長引いた印象だけど、最終的には数年前（2016年ごろ？）に和解して決着したとか、そんな話を聞いた覚えもある。全部正確じゃないかもしれないけど、大筋ではこういう流れだったんじゃないかな…。

ボストン公立図書館が移民新聞をAI訓練データとして活用

最高裁判所が下級審の判断を支持したみたいで、著作権侵害の訴えは却下されたとか。まあ、その結果なのか、Googleとハーバードが一緒に動いてたって話を聞いたことがある。あれだよね、Googleブックスから昔の本をなんとか取り出して、それをAI開発者にも使えるようにしようとしてるっていう噂。でも、その辺りはちょっと複雑かも。アメリカの著作権って七十年以上続くことが多いらしくて、音楽とかだともっと長い場合もあるんじゃないかな。細かい年数は人によって記憶違いもあるけど、一般的には結構長めなイメージ。そのせいで昔の書物でも簡単には自由にならない例がちらほらあった、と誰かが言っていた気がする。ただ最近は少しずつ状況変わってきているようにも感じるけど、本当にどうなるかはまだ分からないところも多そうだ。

グーグルとハーバードが協力してパブリックドメイン書籍を解放

次の世代のAIツールにとって、こうした取り組みがどれほど役立つかは、実際のところまだわからない。Hugging Faceというプラットフォームで木曜日あたりにデータが共有されるらしいけど、その辺も今後どうなるか様子見という感じだろうか。あそこで公開されているデータセットやオープンソースAIモデルは、誰でもダウンロードできるとか聞いたことがある。ちなみに今回集められた書籍コレクションは、よくあるAI用データよりも言語的な幅が少し広いようだ。英語だけじゃなくて、ヨーロッパ系の言葉――例えばドイツ語やフランス語、それからイタリア語やスペイン語、それにラテン語なんかが多いっぽい。でも英語の本は全体の半分よりちょっと少ないくらいかな。それと、この書籍群自体が19世紀ぐらいの思考や雰囲気を多分色濃く持っていて、それがAIエージェントを人間並みに計画したり推論したりできるようにするためには結構重要になってくる可能性も指摘されているそうだ。Leppert氏によれば、大学なんかでは「推論とは何か」について色々教育法（ペダゴジー）があるし、科学的な情報――プロセスの運営方法や分析手順みたいなもの――についてもたくさん蓄積されている、とそんな話だった気がする。まあこの辺りも確実とは言えないけど、一部では期待されているみたいだね。

19世紀の多言語書籍がAIの推論能力向上に役立つかもしれない

同じ時期に、どうも古いデータも結構含まれているようで。なんだか昔の医学理論だったり、すでに否定された科学的な話、それから差別的なストーリーなんかも混ざってるらしい。何十万単位のテキストが集まると、扱いづらい表現やトゲのある内容が出てくることも避けられないみたいですね。ハーバード大学のライブラリー・イノベーション・ラボでコーディネーターをしているクリスティ・ムックさんが、「こうしたリスクに向き合うには、それぞれが自分たちで判断できるようなガイドラインを作ろうとしている」と話していたことが印象的でした。AIを使うときには、その辺りの責任や注意点にも目を向けてもらえるようサポートしたい…そういう気持ちらしいです。

あと、話は少し変わりますけど、オープンAIとAP通信社との間では最近ある種の契約が結ばれていて、オープンAI側がAPの記事アーカイブの一部にアクセスできるみたいです。どこまで利用可能なのかは全部はっきりしませんが、過去数十年分（もう七十年以上になるかもしれません）の記録からAI用データセットへ活用されているという噂も聞こえてきますね。