NDLOCR-Liteで画像文章をデータ化したい
スマホが普及してから特にだと思いますが。
書類を写真で取っておいてる方も一定数いると思います。
MCPやRAGが普及して、ファイルのままAIにソースとして提供しやすくもなっていますが。
テキストデータに変換できた方が、AIがちゃんと参照してくれるような気もします。
電子書籍をあまり使わない私の問題が、まさにこれ。
本文を打ち込んで、AIと・・・とのやり取りならまだ良いですが。
雑誌の記事など、全体をソースとして提示し、共通知識としたうえでやり取りしたい場合に。
良い方法があまり浮かばずでした。
今ならNotebookLMのソースを通すのが、性能は良さそうですけどね。
ソース管理を考えると、どうかなぁ。
と思いながらニュースをながめてたら。
ノートPCで動作するOCRツールが、国会図書館のラボから提供されたそうで。
試してみることにしました。
OCRとは
OCRとはOptical Character Recognitionの略で、「光学文字認識」と言います。
紙の文章などは、スキャナを通してPDFなどのデジタル文章化しますよね。
光を当てることで文字の形状を認識し、テキストデータ化する技術です。
この処理を、AIの文字認識技術や自然言語処理を利用して実現したものをAI-OCRと言います。
今回紹介されていた「NDLOCR-Lite」はAI-OCRの一種と言えます。
OCRについて詳しくは、以下の記事を参照して下さい。
比較表もあって分かりやすいです。
NDLOCR-Liteとは
国会図書館ラボから公開されているということもあり。
古文書研究などに使われているものに「NDLOCR」というものがあるそうです。
ただ、これを使うにはGPU環境が必須とされていて、高スペックなパソコンが必要とされます。
それを、一般のノートPCでも高速動作するように開発されたのが「NDLOCR-Lite」とのこと。
同じくノートPC環境で動作することを目的に、「NDL古典籍OCR-Lite」も2024年に公開されていましたが。
こちらはAppleシリコンのMacには非対応でした。
その知見を活かし、開発されていてしかもAppleシリコンに対応したものが公開されていたので。
これは使ってみるしかありません。
原著者のクレジットを適切に表記すれば、商用を含め自由に使えるそうです。
インストールはフォルダ名に注意
CLI版もあるそうですが、今回はお試しですしアプリ版をDLしてみることに。
ndl‐labのGithubのリリースページからDLできます。
linx、MacOS(Appleシリコン)、MacOS(インテルシリコン)、Windowsの4種類があるので、環境にあったものをDLしましょう。
私はAppleシリコンのMacを。
DLされたZipファイルを解凍し、インストールすればすぐに使えます。
が。
インストールするディレクトリには注意しましょう。
日本語などの全角文字を使ったフォルダに入れると、動作しない場合があるそうで。
私は何気なく入れた2個上ぐらいのフォルダで、日本語文字を使っていたようで。
うまく動作せず、不信なアプリ扱いされました。
一応、設定から解除する方法がFAQに掲載されているので共有しておきます。
インストール自体はここさえ気をつければ、特に問題はありません。
印字された紙の認識にはOK・・・
インストールされた「O」のアイコンを押すと、サクッと起動してくれます。
もう少し起動プロセスがあるのかと思ったので驚きました。
日本語と英語に対応しているそうで、最上部で選ぶことができます。
表記のような気もしなくもないんですがー。まぁいいか。
まずは、「画像ファイルを処理する」をクリックし、OCRするファイルを選びます。
画像ファイルなので、JPGやPNGかと思いきや。
PDFでも読み取ってくれました。
まぁ、jpgに変換した上で処理を進めるみたいですが。
次に、「出力先を選択する」で、テキストファイル等を出力するフォルダを選択します。
出力するファイル形式は、次の段の「出力形式の選択」で選べます。
TXT、JSONだけでも嬉しいんですが。
XMLやTEIも選べます。
それとは別に、画像内の文字の位置の範囲を認識したJPGファイルなども生成されます。
で、実際に処理を通してみましたがー。
おっと!?正常に処理されませんでした。
一応、読み込んだ文章を載せますか。・・・汚い字ですみませんが。
手書き文字などにも実験的に対応しているとのことなので、ザーッと書いて読み込ませて見た感じです。
文字として認識はしてくれてるみたいですが。
手書き文字を検出する精度は・・・まぁしょうがないですね。
最初に、紙に印刷された資料をPDFにしたものを処理してみたら。
しっかりと文字起こしできてたので、少し気がはやってしまいましたかね。
そちらの画像は・・・あ、タイトルなら良いか。
こんな感じです。一文字惜しいですが・・・まぁ、認識枠のついた画像を読み込ませたので、そのせいだと思います。
なので、PDF化した紙資料をデジタル化、テキストファイル化するのには高精度だと言えます。
しかも、138ページがほぼ一瞬で処理されてました。
なので、それなりの精度で高速にちゃんと動作していると言えるでしょう。
これは便利。
他のAIにもしっかりと注意したい
ここ最近は生成AIの情報をどうしても集めてしまいますが。
物体認識や検知、音声認識などの技術もしっかりとキャッチアップしないとなと。
そんなことを思った今回です。
データの重要性は、AIの登場でますます高まりますし。
既存のアナログデータをどのようにデジタル化するか。
問題に感じている方もいるのかなとは、思います。
こういった技術をうまく組み合わせて利用して。
個人としても便利にAIを使って行きたいですね。
このブログや記事の内容について、疑問に思っている事はありますか?
もしあれば、どんなことでも構いませんので、コメントを残していただくか、問い合わせフォームよりご連絡ください。
はじめまして、「ぽんぞう@勉強中」です。
小企業に一人情報部員として働いている40代のおじさんです。IT技術での課題解決を仕事にしていますが、それだけでは解決できない問題にも直面。テクノロジーと心の両面から寄り添えるブログでありたいと、日々運営しています。詳しくはプロフィールページへ!