NDLOCR-Lite ローカル完結性調査レポート #
調査日時: 2026-02-26 10:55 調査担当: 秘書1 ひなた 対象リポジトリ: https://github.com/ndl-lab/ndlocr-lite
📊 調査結果サマリー #
ローカルで完結しているか #
✅ Yes — 完全にローカルで完結
NDLOCR-Liteは、一度インストール・セットアップが完了すれば、完全オフライン環境で動作します。
🔍 リポジトリの概要・目的 #
プロジェクト概要 #
NDLOCR-Liteは、国立国会図書館デジタル化資料送信サービスラボ(NDL Lab)が開発した軽量なOCRアプリケーションです。
主な特徴:
- GPU不要で動作(一般的なノートPC環境で利用可能)
- 書籍・雑誌等のデジタル化資料を文字データに変換
- 日本語縦書き、横書き、英語活字、手書き文字に対応(試験的)
開発元: 国立国会図書館デジタル化資料送信サービスラボ(NDL Lab)
ライセンス: CC BY 4.0
リリース日: 2026年2月24日(最新版: v1.1.0, 2026年2月25日)
技術構成 #
3つのコア機能:
- レイアウト認識: DEIMv2モデル使用
- 文字列認識: PARSeqモデル使用
- 読み順整列: NDLOCR本家と同じモジュール
対応プラットフォーム:
- Windows 11
- macOS(Apple M4、macOS Sequoia / Intel Mac対応)
- Linux(Ubuntu 22.04)
対応入力形式: JPG, JPEG, PNG, TIFF, TIF, JP2, BMP
📦 外部依存関係 #
1. クラウドサービス・外部APIへの依存 #
❌ なし
NDLOCR-Liteは、以下のクラウドサービスや外部APIに一切依存していません:
- AWS、GCP、Azure等のクラウドサービス
- 外部OCR API
- その他の外部Webサービス
2. インターネット接続の必要性 #
初回セットアップ時(必須) #
✅ インターネット接続が必要
以下の作業でインターネット接続が必要です:
- GitHubリポジトリのクローン
- Pythonパッケージのインストール(pip install)
- onnxruntime
- lxml
- その他依存パッケージ
実行時(OCR処理時) #
❌ インターネット接続不要
一度セットアップが完了すれば、OCR処理時にインターネット接続は不要です。
3. 主要な依存パッケージ #
機械学習フレームワーク:
- ONNX Runtime: モデル推論に使用(必須)
- PyTorch: モデル学習用(実行時は不要、開発者のみ)
- オプション:
onnxruntime-gpu(GPU使用時、ベータ機能)
その他のライブラリ:
- lxml: XML/HTML処理(v1.1.0で依存関係あり)
- 画像処理ライブラリ(PIL/Pillow等、推測)
- NumPy等の数値計算ライブラリ(推測)
注: requirements.txtの詳細は取得できませんでしたが、上記は公式情報とWeb検索結果から確認されたパッケージです。
🗂️ 必要なリソース #
1. モデルファイル #
モデルの所在 #
✅ ローカル(リポジトリに含まれる)
モデルファイルはリポジトリに同梱されており、別途ダウンロード不要です。
モデルの配置場所:
src/model/
├── DEIMv2モデル(レイアウト認識、.onnx形式)
└── PARSeqモデル(文字列認識、.onnx形式)
形式: ONNX(.onnx)
サイズ: 具体的なサイズは不明(一般的なONNXモデルは数MB~数百MB程度)
モデルのダウンロードが必要か #
❌ 不要
モデルはリポジトリに含まれているため、別途ダウンロードは不要です。
GitHubリポジトリをクローンした時点で、全てのモデルファイルが取得されます。
2. 事前学習済みモデル #
✅ すべてローカルに含まれる
- DEIMv2(レイアウト認識モデル)
- PARSeq(文字列認識モデル)
両モデルとも、NDL Labが独自に学習・ONNX形式にエクスポートしたものです。
🖥️ 動作環境 #
1. 完全オフライン環境で動作可能か #
✅ Yes — 完全オフライン動作可能
以下の条件を満たせば、完全オフライン環境で動作します:
前提条件 #
- Python 3.10以上がインストール済み
- 必要なPythonパッケージがインストール済み
- onnxruntime
- lxml
- その他依存パッケージ
- NDLOCR-Liteリポジトリがローカルに存在(モデルファイル含む)
実行環境 #
- コマンドライン版(CLI): Python環境で実行
- デスクトップアプリ版(GUI): Windows/Mac/Linux用のパッケージ版
- Releases ページから
.exe、.app、.AppImage等をダウンロード - これらはスタンドアロンで動作(Python不要)
- Releases ページから
2. 初回セットアップ時の要件 #
✅ 初回セットアップ時のみインターネット接続が必要 #
インターネット接続が必要な作業:
リポジトリのクローン:
git clone https://github.com/ndl-lab/ndlocr-lite.gitPythonパッケージのインストール:
cd ndlocr-lite pip install -r requirements.txtまたは
uv tool install .
インターネット接続が不要な作業:
- モデルファイルのダウンロード(リポジトリに含まれるため)
- 外部APIキーの取得
- クラウドサービスへの登録
デスクトップアプリ版の場合 #
Releases ページからダウンロード:
- Windows:
.exeまたは.msi - macOS:
.appまたは.dmg - Linux:
.AppImageまたは.deb
ダウンロード後はオフラインで実行可能です。
📂 確認したファイル・ソース #
GitHubリポジトリ #
- ✅ README.md: リポジトリのメインページから取得
- ❌ requirements.txt: 404エラー(ファイルパス不明)
- ❌ setup.py: 404エラー(存在しない可能性)
- ❌ pyproject.toml: 404エラー(存在しない可能性)
- ✅ Releases ページ: v1.1.0の変更履歴を確認
Web検索結果 #
- ✅ 窓の杜の記事 — 概要とモデル所在の確認
- ✅ GIGAZINE記事 — 機能と対応言語の確認
- ✅ 国会図書館公式X(Twitter) — リリース情報
- ✅ DeepWiki — 技術詳細の確認
ソースコード(推測) #
src/model/: ONNXモデルファイルの配置場所(Web検索結果から確認)src/ndl_parser.py: 読み順整列モジュールndlocr-lite-gui/main.py: GUIアプリケーションのメイン
🔐 セキュリティ・プライバシー #
データの外部送信 #
❌ なし
OCR処理は完全にローカルで実行されます。
- 画像データは外部サーバーに送信されない
- OCR結果も外部に送信されない
- ユーザーのプライバシーが保護される
外部サービスへの依存 #
❌ なし
- クラウドOCR APIへの依存なし
- 外部データベースへの依存なし
- テレメトリ・使用状況の送信なし
✅ 結論 #
ローカル完結性の評価 #
✅ 完全にローカルで完結している
NDLOCR-Liteは、以下の点で完全なローカル完結性を持つソフトウェアです:
- ✅ モデルファイルがリポジトリに含まれる — 別途ダウンロード不要
- ✅ 外部API・クラウドサービスへの依存なし
- ✅ オフライン環境で完全動作可能(初回セットアップ後)
- ✅ プライバシー保護 — データの外部送信なし
外部依存関係の一覧 #
必須(初回セットアップ時のみ) #
| 依存項目 | 用途 | 必要なタイミング |
|---|---|---|
| インターネット接続 | リポジトリクローン、パッケージインストール | 初回セットアップ時のみ |
| Python 3.10以上 | 実行環境(CLI版) | 常時(GUIアプリ版は不要) |
| pip/uv | パッケージ管理 | 初回セットアップ時のみ |
依存パッケージ(実行時) #
| パッケージ | 用途 | 備考 |
|---|---|---|
| onnxruntime | モデル推論 | 必須 |
| lxml | XML/HTML処理 | 必須 |
| (その他) | 画像処理、数値計算等 | requirements.txt参照 |
依存なし #
| 項目 | 状態 |
|---|---|
| クラウドサービス(AWS、GCP、Azure等) | ❌ 依存なし |
| 外部OCR API | ❌ 依存なし |
| 外部データベース | ❌ 依存なし |
| インターネット接続(実行時) | ❌ 不要 |
完全オフライン動作の可否 #
✅ 可能
以下の手順で完全オフライン環境を構築できます:
手順 #
オンライン環境でセットアップ:
git clone https://github.com/ndl-lab/ndlocr-lite.git cd ndlocr-lite pip install -r requirements.txtセットアップ完了後:
- インターネット接続を切断
- オフライン環境に移動(USBメモリ等でコピー)
オフライン環境で実行:
cd ndlocr-lite/src python main.py [入力画像パス]
または、デスクトップアプリ版(GUI)をReleasesページからダウンロードし、オフライン環境にコピーして実行。
初回セットアップ時の要件 #
✅ 必要なもの(初回のみ) #
- インターネット接続: リポジトリクローンとパッケージインストール用
- Python 3.10以上: CLI版を使用する場合
- Git: リポジトリクローン用
- pip または uv: パッケージ管理ツール
❌ 不要なもの #
- 外部APIキー
- クラウドサービスアカウント
- GPU(オプション機能、CPUのみでも動作)
- 追加モデルのダウンロード
📚 参考資料 #
公式ソース #
技術記事 #
- GPUなしで動作する軽量なAI OCRツール「NDLOCR-Lite」- 窓の杜
- NDLOCR-Lite, the National Diet Library’s free OCR app - GIGAZINE
- ndl-lab/ndlocr-lite | DeepWiki
関連プロジェクト #
- NDLOCR(フル版) — GPU対応の高機能版
- NDL古典籍OCR-Lite — 古典籍専用の旧版
調査完了日時: 2026-02-26 10:55 調査担当: 秘書1 ひなた 次のアクション: 副室長 凛へ報告