NDLOCR-Liteで画像文章をデータ化したい

2026年3月3日

スマホが普及してから特にだと思いますが。

書類を写真で取っておいてる方も一定数いると思います。

MCPやRAGが普及して、ファイルのままAIにソースとして提供しやすくもなっていますが。

テキストデータに変換できた方が、AIがちゃんと参照してくれるような気もします。

読書のAI利用についての記事を以前に書いたものの。

電子書籍をあまり使わない私の問題が、まさにこれ。

本文を打ち込んで、AIと・・・とのやり取りならまだ良いですが。

雑誌の記事など、全体をソースとして提示し、共通知識としたうえでやり取りしたい場合に。

良い方法があまり浮かばずでした。

今ならNotebookLMのソースを通すのが、性能は良さそうですけどね。

ソース管理を考えると、どうかなぁ。

と思いながらニュースをながめてたら。

ノートPCで動作するOCRツールが、国会図書館のラボから提供されたそうで。

試してみることにしました。

GPUなしで動作する軽量なAI OCRツール「NDLOCR-Lite」、国会図書館のラボから無償公開

　AIを用いて写真からテキストデータを抽出できる軽量ツール「NDLOCR-Lite」が2月24日、国会図書館の実 ...

https://forest.watch.impress.co.jp/docs/news/2088188.html

Contents

1. OCRとは
2. NDLOCR-Liteとは
3. インストールはフォルダ名に注意
4. 印字された紙の認識にはOK・・・
5. 他のAIにもしっかりと注意したい

OCRとは

OCRとはOptical Character Recognitionの略で、「光学文字認識」と言います。

紙の文章などは、スキャナを通してPDFなどのデジタル文章化しますよね。

光を当てることで文字の形状を認識し、テキストデータ化する技術です。

この処理を、AIの文字認識技術や自然言語処理を利用して実現したものをAI-OCRと言います。

今回紹介されていた「NDLOCR-Lite」はAI-OCRの一種と言えます。

OCRについて詳しくは、以下の記事を参照して下さい。

比較表もあって分かりやすいです。

OCR（光学文字認識）とは？仕組みやメリット、AI-OCRとの違い、用途まで初心者向けに

OCR（光学文字認識）とは、紙の書類や画像から文字情報を読み取り、デジタルデータに変換する技術です ...

https://robotango.biz/knowledge/about-ocr/

NDLOCR-Liteとは

国会図書館ラボから公開されているということもあり。

古文書研究などに使われているものに「NDLOCR」というものがあるそうです。

ただ、これを使うにはGPU環境が必須とされていて、高スペックなパソコンが必要とされます。

それを、一般のノートPCでも高速動作するように開発されたのが「NDLOCR-Lite」とのこと。

同じくノートPC環境で動作することを目的に、「NDL古典籍OCR-Lite」も2024年に公開されていましたが。

こちらはAppleシリコンのMacには非対応でした。

その知見を活かし、開発されていてしかもAppleシリコンに対応したものが公開されていたので。

これは使ってみるしかありません。

原著者のクレジットを適切に表記すれば、商用を含め自由に使えるそうです。

GPUなしで動作する軽量なAI OCRツール「NDLOCR-Lite」、国会図書館のラボから無償公開

　AIを用いて写真からテキストデータを抽出できる軽量ツール「NDLOCR-Lite」が2月24日、国会図書館の実 ...

https://forest.watch.impress.co.jp/docs/news/2088188.html

インストールはフォルダ名に注意

CLI版もあるそうですが、今回はお試しですしアプリ版をDLしてみることに。

ndl‐labのGithubのリリースページからDLできます。

Releases · ndl-lab/ndlocr-lite · GitHub

NDLOCR‑Lite application repository (including source code) - ndl-lab/ndlocr-lite

https://github.com/ndl-lab/ndlocr-lite/releases

linx、MacOS(Appleシリコン)、MacOS(インテルシリコン)、Windowsの4種類があるので、環境にあったものをDLしましょう。

私はAppleシリコンのMacを。

DLされたZipファイルを解凍し、インストールすればすぐに使えます。

が。

インストールするディレクトリには注意しましょう。

日本語などの全角文字を使ったフォルダに入れると、動作しない場合があるそうで。

私は何気なく入れた2個上ぐらいのフォルダで、日本語文字を使っていたようで。

うまく動作せず、不信なアプリ扱いされました。

一応、設定から解除する方法がFAQに掲載されているので共有しておきます。

アプリが悪質なソフトウェアであるかどうかAppleで確認できない - Apple サポート (日

このソフトウェアは、Macで実行するにはアップデートする必要があります。詳しくは、開発元にお問い合 ...

https://support.apple.com/ja-jp/guide/mac-help/mchleab3a043/...

インストール自体はここさえ気をつければ、特に問題はありません。

印字された紙の認識にはOK・・・

インストールされた「O」のアイコンを押すと、サクッと起動してくれます。

もう少し起動プロセスがあるのかと思ったので驚きました。

日本語と英語に対応しているそうで、最上部で選ぶことができます。

表記のような気もしなくもないんですがー。まぁいいか。

まずは、「画像ファイルを処理する」をクリックし、OCRするファイルを選びます。

画像ファイルなので、JPGやPNGかと思いきや。

PDFでも読み取ってくれました。

まぁ、jpgに変換した上で処理を進めるみたいですが。

次に、「出力先を選択する」で、テキストファイル等を出力するフォルダを選択します。

出力するファイル形式は、次の段の「出力形式の選択」で選べます。

TXT、JSONだけでも嬉しいんですが。

XMLやTEIも選べます。

それとは別に、画像内の文字の位置の範囲を認識したJPGファイルなども生成されます。

で、実際に処理を通してみましたがー。

おっと！？正常に処理されませんでした。

一応、読み込んだ文章を載せますか。・・・汚い字ですみませんが。

手書き文字などにも実験的に対応しているとのことなので、ザーッと書いて読み込ませて見た感じです。

文字として認識はしてくれてるみたいですが。

手書き文字を検出する精度は・・・まぁしょうがないですね。

最初に、紙に印刷された資料をPDFにしたものを処理してみたら。

しっかりと文字起こしできてたので、少し気がはやってしまいましたかね。

そちらの画像は・・・あ、タイトルなら良いか。

こんな感じです。一文字惜しいですが・・・まぁ、認識枠のついた画像を読み込ませたので、そのせいだと思います。

なので、PDF化した紙資料をデジタル化、テキストファイル化するのには高精度だと言えます。

しかも、138ページがほぼ一瞬で処理されてました。

なので、それなりの精度で高速にちゃんと動作していると言えるでしょう。

これは便利。

他のAIにもしっかりと注意したい

ここ最近は生成AIの情報をどうしても集めてしまいますが。

物体認識や検知、音声認識などの技術もしっかりとキャッチアップしないとなと。

そんなことを思った今回です。

データの重要性は、AIの登場でますます高まりますし。

既存のアナログデータをどのようにデジタル化するか。

問題に感じている方もいるのかなとは、思います。

こういった技術をうまく組み合わせて利用して。

個人としても便利にAIを使って行きたいですね。

このブログや記事の内容について、疑問に思っている事はありますか？

もしあれば、どんなことでも構いませんので、コメントを残していただくか、問い合わせフォームよりご連絡ください。

**無料オンライン相談を申し込む**

著者プロフィール

ぽんぞう@勉強中

はじめまして、「ぽんぞう＠勉強中」です。
小企業に一人情報部員として働いている40代のおじさんです。IT技術での課題解決を仕事にしていますが、それだけでは解決できない問題にも直面。テクノロジーと心の両面から寄り添えるブログでありたいと、日々運営しています。詳しくはプロフィールページへ！

学習ログAI関連

Posted by ぽんぞう@…勉強中…

Home

生成したものをNotionで管理すると良いんじゃない？