NDLOCR-Lite ローカル完結性調査レポート

NDLOCR-Lite ローカル完結性調査レポート

NDLOCR-Lite ローカル完結性調査レポート #

調査日時: 2026-02-26 10:55 調査担当: 秘書1 ひなた 対象リポジトリ: https://github.com/ndl-lab/ndlocr-lite


📊 調査結果サマリー #

ローカルで完結しているか #

✅ Yes — 完全にローカルで完結

NDLOCR-Liteは、一度インストール・セットアップが完了すれば、完全オフライン環境で動作します。


🔍 リポジトリの概要・目的 #

プロジェクト概要 #

NDLOCR-Liteは、国立国会図書館デジタル化資料送信サービスラボ(NDL Lab)が開発した軽量なOCRアプリケーションです。

主な特徴:

  • GPU不要で動作(一般的なノートPC環境で利用可能)
  • 書籍・雑誌等のデジタル化資料を文字データに変換
  • 日本語縦書き、横書き、英語活字、手書き文字に対応(試験的)

開発元: 国立国会図書館デジタル化資料送信サービスラボ(NDL Lab)

ライセンス: CC BY 4.0

リリース日: 2026年2月24日(最新版: v1.1.0, 2026年2月25日)

技術構成 #

3つのコア機能:

  1. レイアウト認識: DEIMv2モデル使用
  2. 文字列認識: PARSeqモデル使用
  3. 読み順整列: NDLOCR本家と同じモジュール

対応プラットフォーム:

  • Windows 11
  • macOS(Apple M4、macOS Sequoia / Intel Mac対応)
  • Linux(Ubuntu 22.04)

対応入力形式: JPG, JPEG, PNG, TIFF, TIF, JP2, BMP


📦 外部依存関係 #

1. クラウドサービス・外部APIへの依存 #

❌ なし

NDLOCR-Liteは、以下のクラウドサービスや外部APIに一切依存していません:

  • AWS、GCP、Azure等のクラウドサービス
  • 外部OCR API
  • その他の外部Webサービス

2. インターネット接続の必要性 #

初回セットアップ時(必須) #

✅ インターネット接続が必要

以下の作業でインターネット接続が必要です:

  • GitHubリポジトリのクローン
  • Pythonパッケージのインストール(pip install)
    • onnxruntime
    • lxml
    • その他依存パッケージ

実行時(OCR処理時) #

❌ インターネット接続不要

一度セットアップが完了すれば、OCR処理時にインターネット接続は不要です。

3. 主要な依存パッケージ #

機械学習フレームワーク:

  • ONNX Runtime: モデル推論に使用(必須)
  • PyTorch: モデル学習用(実行時は不要、開発者のみ)
  • オプション: onnxruntime-gpu(GPU使用時、ベータ機能)

その他のライブラリ:

  • lxml: XML/HTML処理(v1.1.0で依存関係あり)
  • 画像処理ライブラリ(PIL/Pillow等、推測)
  • NumPy等の数値計算ライブラリ(推測)

: requirements.txtの詳細は取得できませんでしたが、上記は公式情報とWeb検索結果から確認されたパッケージです。


🗂️ 必要なリソース #

1. モデルファイル #

モデルの所在 #

✅ ローカル(リポジトリに含まれる)

モデルファイルはリポジトリに同梱されており、別途ダウンロード不要です。

モデルの配置場所:

src/model/
├── DEIMv2モデル(レイアウト認識、.onnx形式)
└── PARSeqモデル(文字列認識、.onnx形式)

形式: ONNX(.onnx)

サイズ: 具体的なサイズは不明(一般的なONNXモデルは数MB~数百MB程度)

モデルのダウンロードが必要か #

❌ 不要

モデルはリポジトリに含まれているため、別途ダウンロードは不要です。

GitHubリポジトリをクローンした時点で、全てのモデルファイルが取得されます。

2. 事前学習済みモデル #

✅ すべてローカルに含まれる

  • DEIMv2(レイアウト認識モデル)
  • PARSeq(文字列認識モデル)

両モデルとも、NDL Labが独自に学習・ONNX形式にエクスポートしたものです。


🖥️ 動作環境 #

1. 完全オフライン環境で動作可能か #

✅ Yes — 完全オフライン動作可能

以下の条件を満たせば、完全オフライン環境で動作します:

前提条件 #

  1. Python 3.10以上がインストール済み
  2. 必要なPythonパッケージがインストール済み
    • onnxruntime
    • lxml
    • その他依存パッケージ
  3. NDLOCR-Liteリポジトリがローカルに存在(モデルファイル含む)

実行環境 #

  • コマンドライン版(CLI): Python環境で実行
  • デスクトップアプリ版(GUI): Windows/Mac/Linux用のパッケージ版
    • Releases ページから .exe.app.AppImage 等をダウンロード
    • これらはスタンドアロンで動作(Python不要)

2. 初回セットアップ時の要件 #

✅ 初回セットアップ時のみインターネット接続が必要 #

インターネット接続が必要な作業:

  1. リポジトリのクローン:

    git clone https://github.com/ndl-lab/ndlocr-lite.git
    
  2. Pythonパッケージのインストール:

    cd ndlocr-lite
    pip install -r requirements.txt
    

    または

    uv tool install .
    

インターネット接続が不要な作業:

  • モデルファイルのダウンロード(リポジトリに含まれるため)
  • 外部APIキーの取得
  • クラウドサービスへの登録

デスクトップアプリ版の場合 #

Releases ページからダウンロード:

  • Windows: .exeまたは.msi
  • macOS: .appまたは.dmg
  • Linux: .AppImageまたは.deb

ダウンロード後はオフラインで実行可能です。


📂 確認したファイル・ソース #

GitHubリポジトリ #

  1. README.md: リポジトリのメインページから取得
  2. requirements.txt: 404エラー(ファイルパス不明)
  3. setup.py: 404エラー(存在しない可能性)
  4. pyproject.toml: 404エラー(存在しない可能性)
  5. Releases ページ: v1.1.0の変更履歴を確認

Web検索結果 #

  1. 窓の杜の記事 — 概要とモデル所在の確認
  2. GIGAZINE記事 — 機能と対応言語の確認
  3. 国会図書館公式X(Twitter) — リリース情報
  4. DeepWiki — 技術詳細の確認

ソースコード(推測) #

  • src/model/: ONNXモデルファイルの配置場所(Web検索結果から確認)
  • src/ndl_parser.py: 読み順整列モジュール
  • ndlocr-lite-gui/main.py: GUIアプリケーションのメイン

🔐 セキュリティ・プライバシー #

データの外部送信 #

❌ なし

OCR処理は完全にローカルで実行されます。

  • 画像データは外部サーバーに送信されない
  • OCR結果も外部に送信されない
  • ユーザーのプライバシーが保護される

外部サービスへの依存 #

❌ なし

  • クラウドOCR APIへの依存なし
  • 外部データベースへの依存なし
  • テレメトリ・使用状況の送信なし

✅ 結論 #

ローカル完結性の評価 #

✅ 完全にローカルで完結している

NDLOCR-Liteは、以下の点で完全なローカル完結性を持つソフトウェアです:

  1. モデルファイルがリポジトリに含まれる — 別途ダウンロード不要
  2. 外部API・クラウドサービスへの依存なし
  3. オフライン環境で完全動作可能(初回セットアップ後)
  4. プライバシー保護 — データの外部送信なし

外部依存関係の一覧 #

必須(初回セットアップ時のみ) #

依存項目用途必要なタイミング
インターネット接続リポジトリクローン、パッケージインストール初回セットアップ時のみ
Python 3.10以上実行環境(CLI版)常時(GUIアプリ版は不要)
pip/uvパッケージ管理初回セットアップ時のみ

依存パッケージ(実行時) #

パッケージ用途備考
onnxruntimeモデル推論必須
lxmlXML/HTML処理必須
(その他)画像処理、数値計算等requirements.txt参照

依存なし #

項目状態
クラウドサービス(AWS、GCP、Azure等)❌ 依存なし
外部OCR API❌ 依存なし
外部データベース❌ 依存なし
インターネット接続(実行時)❌ 不要

完全オフライン動作の可否 #

✅ 可能

以下の手順で完全オフライン環境を構築できます:

手順 #

  1. オンライン環境でセットアップ:

    git clone https://github.com/ndl-lab/ndlocr-lite.git
    cd ndlocr-lite
    pip install -r requirements.txt
    
  2. セットアップ完了後:

    • インターネット接続を切断
    • オフライン環境に移動(USBメモリ等でコピー)
  3. オフライン環境で実行:

    cd ndlocr-lite/src
    python main.py [入力画像パス]
    

または、デスクトップアプリ版(GUI)をReleasesページからダウンロードし、オフライン環境にコピーして実行。

初回セットアップ時の要件 #

✅ 必要なもの(初回のみ) #

  1. インターネット接続: リポジトリクローンとパッケージインストール用
  2. Python 3.10以上: CLI版を使用する場合
  3. Git: リポジトリクローン用
  4. pip または uv: パッケージ管理ツール

❌ 不要なもの #

  1. 外部APIキー
  2. クラウドサービスアカウント
  3. GPU(オプション機能、CPUのみでも動作)
  4. 追加モデルのダウンロード

📚 参考資料 #

公式ソース #

  1. GitHub - ndl-lab/ndlocr-lite
  2. Releases · ndl-lab/ndlocr-lite
  3. 国立国会図書館 NDL 公式X(Twitter)

技術記事 #

  1. GPUなしで動作する軽量なAI OCRツール「NDLOCR-Lite」- 窓の杜
  2. NDLOCR-Lite, the National Diet Library’s free OCR app - GIGAZINE
  3. ndl-lab/ndlocr-lite | DeepWiki

関連プロジェクト #

  1. NDLOCR(フル版) — GPU対応の高機能版
  2. NDL古典籍OCR-Lite — 古典籍専用の旧版

調査完了日時: 2026-02-26 10:55 調査担当: 秘書1 ひなた 次のアクション: 副室長 凛へ報告