📄 PDF内の画像も読み取れるAI文書処理アプリの使い方

AWS

AWS BedrockとClaude Sonnet 4を使った「bedrock_pdf_app」の使い方をご紹介します。従来のPDF処理ツールとの大きな違いは、テキストだけでなく画像・図表も理解できる点です。

🔧 セットアップ方法

必要な環境

  • Python 3.11以上
  • AWS Bedrockのアクセス権限
  • justuv(パッケージマネージャー)

インストール手順

# 1. 必要ツールのインストール
brew install just uv  # macOS
# Windows: scoop install just && curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. リポジトリクローン
git clone https://github.com/Sunwood-ai-labs/bedrock_pdf_app.git
cd bedrock_pdf_app

# 3. 依存関係インストール
just setup

# 4. AWS認証情報設定
export AWS_ACCESS_KEY_ID="your_access_key"
export AWS_SECRET_ACCESS_KEY="your_secret_key"

# 5. アプリ起動
just run

Docker版(推奨)

# 1. 環境設定ファイル作成
cp .env.example .env
# .envファイルにAWS認証情報を記入

# 2. Docker Composeで起動
docker compose up

起動後、ブラウザで http://localhost:7860 にアクセスします。

📋 基本的な使い方

1. PDFファイルのアップロード

  • 左側の「PDFファイル」エリアにファイルをドラッグ&ドロップ
  • または「Browse files」をクリックしてファイル選択
  • 対応サイズ: 4.5MB以下

2. 質問の入力

  • 「質問」テキストボックスに聞きたいことを入力
  • 日本語での質問に対応

3. 分析実行

  • 「🚀 分析開始」ボタンをクリック
  • 数秒〜数十秒で結果が表示されます

💡 効果的な質問の仕方

テキスト部分への質問

✅ 良い例:
「この契約書の有効期限はいつまでですか?」
「第3章の要点を教えてください」
「リスク要因として挙げられているものは?」

画像・図表への質問(ここがポイント!)

✅ 画像認識を活用した質問:
「このグラフで最も売上が高い月は?」
「組織図でマーケティング部の人数は?」
「フローチャートの最初のステップは?」
「この表で利益率が最も高い商品は?」

質問のコツ

  • 具体的に: 「この資料について」より「第2章の売上データについて」
  • 画像を指定: 「グラフで」「表で」「図で」と明示する
  • 複数の質問: 一度に複数聞いても大丈夫

📊 実際の活用例

ビジネス資料の分析

売上レポートの場合:

質問: 「このグラフで前年同月比の成長率が最も高い商品は?」

回答例: 「グラフを確認したところ、商品Aが前年同月比150%の成長率を示しており、
最も高い成長を記録しています。特に7-9月期の伸びが顕著です。」

組織図の確認:

質問: 「この組織図で開発部門の構成を教えて」

回答例: 「開発部門は部長1名の下に、フロントエンド、バックエンド、
インフラの3チームに分かれており、各チーム3-4名の構成となっています。」

技術文書の理解

システム構成図:

質問: 「このシステム構成図でデータベースへの接続経路は?」

回答例: 「アプリケーションサーバーからロードバランサーを経由し、
プライベートサブネット内のRDSインスタンスに接続される構成になっています。」

学術・研究資料

グラフ・データ分析:

質問: 「この実験結果のグラフから統計的に有意な差はありますか?」

回答例: 「グラフ上のエラーバーと p値(p<0.01)の表示から、
グループAとBの間には統計的に有意な差があることが確認できます。」

🎯 従来ツールとの違い

処理内容 従来のPDF処理 bedrock_pdf_app
テキスト抽出 ✅ 対応 ✅ 対応
表の理解 △ 構造が崩れがち ✅ 正確に理解
グラフ読み取り ❌ 不可 数値まで読み取り
図解の説明 ❌ 不可 内容を理解
画像内文字 ❌ 不可 OCR機能

🔍 便利な機能

Citations機能

回答の根拠となる部分を明示してくれるため、情報の信頼性を確認できます。

ファイル情報の自動表示

アップロード時にファイル名の処理情報が表示され、特殊文字が含まれる場合は自動で調整されます。

トークン使用量の表示

処理後に使用したトークン数が表示されるため、コスト管理の参考になります。

⚠️ 注意点・制限事項

  • ファイルサイズ: 4.5MB以下のPDFのみ対応
  • リージョン: ap-northeast-1での利用を推奨
  • 認証: AWS Bedrockでのクオード(Claude)モデルへのアクセス権限が必要
  • 処理時間: 複雑な画像が多いPDFは処理に時間がかかる場合があります

🛠️ トラブルシューティング

よくあるエラーと対処法

「AWS APIエラー」が出る場合:

  • AWS認証情報の確認
  • Bedrockでのモデルアクセス権限の確認

「ファイルが大きすぎます」の場合:

  • PDFを4.5MB以下に圧縮
  • ページ数を分割して処理

画像が認識されない場合:

  • 画像の解像度を確認(低解像度だと認識精度が下がります)
  • 「この画像で」「このグラフで」など明示的に指定

📚 活用のヒント

  1. 段階的に質問: まず全体の概要を聞いてから、詳細を深掘り
  2. 画像を活用: テキストだけでなく図表からの情報抽出を積極的に
  3. 複数の角度: 同じデータでも異なる視点から質問してみる
  4. 結果の確認: Citations機能で回答の根拠を確認する習慣を

この使い方をマスターすれば、PDF内のあらゆる情報を効率的に活用できるようになります。特に図表が多いビジネス資料や技術文書での威力は絶大です。

ぜひ試してみてください!

リポジトリ

GitHub - Sunwood-ai-labs/bedrock_pdf_app
Contribute to Sunwood-ai-labs/bedrock_pdf_app development by creating an account on GitHub.

コメント

タイトルとURLをコピーしました