2024年07月23日 15:44

アラインは7月23日より、ファイル検索サービス「デジタルライブラリ」をリリースした。「デジタルライブラリ」は、共有ストレージにアップロードされたあらゆる形式のファイル(テキスト、画像、PDFなど)の内容を解析。ユーザーの検索意図を汲んだ検索を行う、生成AIを利用した検索サービスとなっている。

「デジタルライブラリ」では、例えば「デジタル化」をキーワードとして検索した場合、「DX」などの関連キーワードも一緒に抽出して質問意図に合致する資料を表示することができる。

「デジタルライブラリ」では、キーワード一致ではなく類似検索を可能にする仕組みとして、ファイルの登録時に作成するEmbeddingと呼ばれるベクトルデータベースを採用している。ファイルに含まれるテキストデータを解析・抽出して、ページごとにEmbeddingとしてベクトル化してデータベースに保存する。検索時には、ユーザーが入力したキーワードやセンテンスも同様にEmbeddingとしてベクトル化し、データベースの全てのベクトルと総当たりでコサイン類似度を計算。最終的に、コサイン類似度が高い順に、ファイル名、表紙のサムネイル、該当ページ番号、該当ページに含まれるテキストの一部抜粋を表示する。

またファイル内のテキスト抽出にはGoogle社のCloud Vision APIによる光学式文字認識(OCR)を利用して、PDFや画像に含まれる文字もテキストとして抽出することもできる。