NDLOCR-Liteで画像文章をデータ化したい

スマホが普及してから特にだと思いますが。

書類を写真で取っておいてる方も一定数いると思います。

MCPやRAGが普及して、ファイルのままAIにソースとして提供しやすくもなっていますが。

テキストデータに変換できた方が、AIがちゃんと参照してくれるような気もします。

読書のAI利用についての記事を以前に書いたものの。

電子書籍をあまり使わない私の問題が、まさにこれ。

本文を打ち込んで、AIと・・・とのやり取りならまだ良いですが。

雑誌の記事など、全体をソースとして提示し、共通知識としたうえでやり取りしたい場合に。

良い方法があまり浮かばずでした。

今ならNotebookLMのソースを通すのが、性能は良さそうですけどね。

ソース管理を考えると、どうかなぁ。

と思いながらニュースをながめてたら。

ノートPCで動作するOCRツールが、国会図書館のラボから提供されたそうで。

試してみることにしました。

OCRとは

OCRとはOptical Character Recognitionの略で、「光学文字認識」と言います。

紙の文章などは、スキャナを通してPDFなどのデジタル文章化しますよね。

光を当てることで文字の形状を認識し、テキストデータ化する技術です。

この処理を、AIの文字認識技術や自然言語処理を利用して実現したものをAI-OCRと言います。

今回紹介されていた「NDLOCR-Lite」はAI-OCRの一種と言えます。

OCRについて詳しくは、以下の記事を参照して下さい。

比較表もあって分かりやすいです。

NDLOCR-Liteとは

国会図書館ラボから公開されているということもあり。

古文書研究などに使われているものに「NDLOCR」というものがあるそうです。

ただ、これを使うにはGPU環境が必須とされていて、高スペックなパソコンが必要とされます。

それを、一般のノートPCでも高速動作するように開発されたのが「NDLOCR-Lite」とのこと。

同じくノートPC環境で動作することを目的に、「NDL古典籍OCR-Lite」も2024年に公開されていましたが。

こちらはAppleシリコンのMacには非対応でした。

その知見を活かし、開発されていてしかもAppleシリコンに対応したものが公開されていたので。

これは使ってみるしかありません。

原著者のクレジットを適切に表記すれば、商用を含め自由に使えるそうです。

インストールはフォルダ名に注意

CLI版もあるそうですが、今回はお試しですしアプリ版をDLしてみることに。

ndl‐labのGithubのリリースページからDLできます。

linx、MacOS(Appleシリコン)、MacOS(インテルシリコン)、Windowsの4種類があるので、環境にあったものをDLしましょう。

私はAppleシリコンのMacを。

DLされたZipファイルを解凍し、インストールすればすぐに使えます。

が。

インストールするディレクトリには注意しましょう。

日本語などの全角文字を使ったフォルダに入れると、動作しない場合があるそうで。

私は何気なく入れた2個上ぐらいのフォルダで、日本語文字を使っていたようで。

うまく動作せず、不信なアプリ扱いされました。

一応、設定から解除する方法がFAQに掲載されているので共有しておきます。

インストール自体はここさえ気をつければ、特に問題はありません。

印字された紙の認識にはOK・・・

インストールされた「O」のアイコンを押すと、サクッと起動してくれます。

もう少し起動プロセスがあるのかと思ったので驚きました。

日本語と英語に対応しているそうで、最上部で選ぶことができます。

表記のような気もしなくもないんですがー。まぁいいか。

まずは、「画像ファイルを処理する」をクリックし、OCRするファイルを選びます。

画像ファイルなので、JPGやPNGかと思いきや。

PDFでも読み取ってくれました。

まぁ、jpgに変換した上で処理を進めるみたいですが。

次に、「出力先を選択する」で、テキストファイル等を出力するフォルダを選択します。

出力するファイル形式は、次の段の「出力形式の選択」で選べます。

TXT、JSONだけでも嬉しいんですが。

XMLやTEIも選べます。

それとは別に、画像内の文字の位置の範囲を認識したJPGファイルなども生成されます。

で、実際に処理を通してみましたがー。

おっと!?正常に処理されませんでした。

一応、読み込んだ文章を載せますか。・・・汚い字ですみませんが。

手書き文字などにも実験的に対応しているとのことなので、ザーッと書いて読み込ませて見た感じです。

文字として認識はしてくれてるみたいですが。

手書き文字を検出する精度は・・・まぁしょうがないですね。

最初に、紙に印刷された資料をPDFにしたものを処理してみたら。

しっかりと文字起こしできてたので、少し気がはやってしまいましたかね。

そちらの画像は・・・あ、タイトルなら良いか。

こんな感じです。一文字惜しいですが・・・まぁ、認識枠のついた画像を読み込ませたので、そのせいだと思います。

なので、PDF化した紙資料をデジタル化、テキストファイル化するのには高精度だと言えます。

しかも、138ページがほぼ一瞬で処理されてました。

なので、それなりの精度で高速にちゃんと動作していると言えるでしょう。

これは便利。

他のAIにもしっかりと注意したい

ここ最近は生成AIの情報をどうしても集めてしまいますが。

物体認識や検知、音声認識などの技術もしっかりとキャッチアップしないとなと。

そんなことを思った今回です。

データの重要性は、AIの登場でますます高まりますし。

既存のアナログデータをどのようにデジタル化するか。

問題に感じている方もいるのかなとは、思います。

こういった技術をうまく組み合わせて利用して。

個人としても便利にAIを使って行きたいですね。

このブログや記事の内容について、疑問に思っている事はありますか?

もしあれば、どんなことでも構いませんので、コメントを残していただくか、問い合わせフォームよりご連絡ください。

著者プロフィール
ぽんぞう@勉強中

はじめまして、「ぽんぞう@勉強中」です。
小企業に一人情報部員として働いている40代のおじさんです。IT技術での課題解決を仕事にしていますが、それだけでは解決できない問題にも直面。テクノロジーと心の両面から寄り添えるブログでありたいと、日々運営しています。詳しくはプロフィールページへ!