自分専用AIを作るグーグル「NotebookLM」を家電取説・辞書・時刻表で使う - Impress Watch

Googleが2024年6月にリリースした「NotebookLM」は、自分だけのオリジナルAIデータベースが作れるサービスです。AIチャットの「ガワ」だけが用意されていて、そこにユーザー自身の手でデータ登録して「知識」を与えることにより、そのデータを前提にしたやり取りや分析が可能になります。

代表的なAIサービスであるGoogle GeminiやOpenAI ChatGPT、Anthropic Claudeなどは、基本的に各社独自のデータセットやインターネット上の情報をもとにある程度汎用的に使えることを目指して作られています。それゆえに、確かではない情報をもっともらしく回答してしまう「ハルシネーション」が課題になっています。が、登録データを元にした回答しかしないNotebookLMは、(データに嘘がない限り)ハルシネーションと言える現象は原理的に発生しないのが強みです。

では、NotebookLMは実際にどんな目的に使えるでしょうか。便利な活用方法がなかなか思いつきにくいサービスかもしれませんが、今回は「説明書」「辞書」「時刻表」という3種類の具体的なデータを用いて試してみることにします。

意味を簡単に調べられる「英和辞書ツール」にする

次に試してみるのは英和辞書です。テキストデータで提供されている辞書データはいくつかありますが、ここでは「英辞郎」を利用しています。1行ごとに英単語・英熟語とその日本語訳などが記述されているシンプルな構造です。

「英辞郎」の辞書データ購入ページ

ただし、この辞書データをそのまま丸ごとNotebookLMにアップロードすることはできません。ファイルサイズが約180MBと大きいせいか(200MBの制限内ではあるものの)アップロードすると必ず失敗します。いろいろとファイルサイズを変えながら試してみたところでは、テキストファイルの場合は5,000KB前後がアップロード可能な1ファイルあたりの最大容量のようでした。

そのため、まずは180MBのデータを分割して、1ファイルあたり5,000KB前後までのサイズにする必要があります。手作業で編集するのは現実的ではないので、ChatGPTなどにファイル分割用のプログラムを作成してもらい、自動化するのが手っ取り早いでしょう。

ChatGPTでファイルを分割するプログラムを作成してもらう

こうして分割してできた辞書データをアップロードするわけですが、NotebookLMがまだ「EXPERIMENTAL(実験版)」の段階ということもあってか、大容量ファイルをまとめてアップロードすると失敗したり、二重にアップロードされたり、動作が不安定になったりすることがあります。1～数個ずつアップロードするのが良さそうです。

アップロード後、チャットに知りたい英単語や英熟語を入力すれば、それに関連する日本語訳や発音の仕方などを教えてくれます。単に意味を知るだけでなく、「○○の類義語は?」「○○の反対語は?」といった応用も可能です。

単語の類義語を調べる

ある単語を使った熟語を知ることも

こうした辞書データはあくまでもデータしか含んでいないので、活用するには本来ならフロントエンドインターフェース、つまりは検索機能をもつツールが必要になります。ですが、NotebookLMならフロントエンドをわざわざ開発する必要がなく、その代わりとして使うことができるわけです。

なお、今回のデータだと英語の和訳を知ることはできても、反対に日本語の英訳を知ることはできません。データの構造を考えると反対向きに見ればいいだけなので英訳も可能そうに思えますが、データのつくりのせいか、NotebookLMの内部処理のせいかはわかりませんが、そうした柔軟な対応はできないようです。

オープンな時刻表データでバスを便利に利用する

昨今は交通インフラに関わるデータのオープン化が進んでいます。「公共交通オープンデータセンター」では、バス、鉄道、航空機など、さまざまな公共交通インフラの時刻表・運行データなどを公開しており、最新データのダウンロードや、最新の状況をAPIで呼び出す仕組みを提供しています。

「公共交通オープンデータセンター」のWebサイト

データ取得や仕様の確認には会員登録が必要なものもありますが、なかには登録不要ですぐにダウンロードできるものもあります。今回は誰でもダウンロードできる東京都交通局のバス時刻表データを使って、NotebookLMを時刻表検索ツールにできないかチャレンジしてみます。

ちなみにこのデータは容量が大き過ぎるためか、Google Chrome上でのダウンロードに失敗しました。Microsoft Edgeだと問題なくデータ表示されてダウンロードできたので、失敗してしまうときはWebブラウザーを変えてみてください。

Edgeだとデータをきちんとダウンロードできた

さて、こちらのデータも300MB超とかなりの大容量です。200MB制限に引っかかるため分割アップロードもできません。したがって、先ほどの辞書データと同じように分割したうえで不要な情報を省くなどして容量削減する必要があります。

さらに言うと、データ形式がJSONとなっていて単純には分割できなくなっています。しかもNotebookLMはアップロードしたJSON形式のデータを理解してくれるものの、実際に分析させてみると誤認識するケースが多く実用に耐えません。

そこで、容量削減の目的も兼ねて、必要なデータ項目だけに絞って整形して再出力するようにします。バスのルート名とバス停の名称、出発・到着時刻といった項目のみにしてプレーンなテキストにしました。このプログラム生成もChatGPTの力を借りています。

JSON形式から、このような単純なデータに整形するようにしました

この例では、「9時台に目黒駅前を出発するバスは何本ある?」や「鮫洲運転免許試験場前に行くにはどのバスに乗ればいい?」のような質問に対して回答してくれます。特定の路線の時刻表を丸ごと表示することも可能です。ただし今回の場合、整形後のデータに重複(同じルートの平日と土日の時刻表が区別できない)などの不備があるためか、正しく回答してくれないこともありました。

朝9時台に何本のバスがあるかチェック

特定の路線の時刻表を教えてもらったところ

おそらく常に有効な回答を引き出すには、アップロードするデータの作り方にも気を使う必要がありそうです。また、データが膨大だと扱いにくいだけなので、あくまでも自分専用として、よく利用する自宅・通勤通学先近辺の路線データのみに絞ってアップロードするのが無難に思えます。

データ活用の一手に、正式版へ向けて改善も期待

これまでは表計算ソフトやデータベースソフトを駆使してデータ管理してきたとか、形態素解析のような言語処理を通じて知りたいことの一端をなんとか抽出してきた、みたいな人もいるかもしれません。が、NotebookLMの登場でそれが一変します。データさえあれば、とりあえずそれを突っ込むだけで検索や分析ができるようになるのです。気付けなかったインサイトや、別の目的にデータを活かすヒントが得られることもあるかもしれません。

そうしたことから、NotebookLMを便利に使えるようにするには、当たり前ですがデータが最も大事。ただ、そのわりに現状はアップロードできるデータの数・容量の制限が厳しく感じます。正式サービス開始時には大容量ファイルをもっと簡単に扱えることに期待したいところです。

あとはデータ内容がどういう体裁で、何を意図したものなのかをNotebookLMが勝手に判断してしまうため、ユーザーの期待する動作にならないことも少なくありません。より適切な回答を得やすくするために、既存のAIチャットサービスにおけるシステムプロンプトの編集機能のようなものも欲しいと感じました。

Adblock test (Why?)