📄 PDF内の画像も読み取れるAI文書処理アプリの使い方

AWS BedrockとClaude Sonnet 4を使った「bedrock_pdf_app」の使い方をご紹介します。従来のPDF処理ツールとの大きな違いは、テキストだけでなく画像・図表も理解できる点です。

🔧 セットアップ方法

BedrockがやっとPDFサポートしたのでアプリ作ってみた！
これで社内でもPDF内の画像も加味したチャットBotが作れる！！！ https://t.co/Gep4ZWZZ2w pic.twitter.com/a3vMQBTHbG

— Maki@Sunwood AI Labs. (@hAru_mAki_ch) July 23, 2025

必要な環境

Python 3.11以上
AWS Bedrockのアクセス権限
justとuv（パッケージマネージャー）

インストール手順

# 1. 必要ツールのインストール
brew install just uv  # macOS
# Windows: scoop install just && curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. リポジトリクローン
git clone https://github.com/Sunwood-ai-labs/bedrock_pdf_app.git
cd bedrock_pdf_app

# 3. 依存関係インストール
just setup

# 4. AWS認証情報設定
export AWS_ACCESS_KEY_ID="your_access_key"
export AWS_SECRET_ACCESS_KEY="your_secret_key"

# 5. アプリ起動
just run

Docker版（推奨）

# 1. 環境設定ファイル作成
cp .env.example .env
# .envファイルにAWS認証情報を記入

# 2. Docker Composeで起動
docker compose up

起動後、ブラウザで http://localhost:7860 にアクセスします。

📋 基本的な使い方

1. PDFファイルのアップロード

左側の「PDFファイル」エリアにファイルをドラッグ&ドロップ
または「Browse files」をクリックしてファイル選択
対応サイズ: 4.5MB以下

2. 質問の入力

「質問」テキストボックスに聞きたいことを入力
日本語での質問に対応

3. 分析実行

「🚀 分析開始」ボタンをクリック
数秒〜数十秒で結果が表示されます

💡 効果的な質問の仕方

テキスト部分への質問

&#x2705; 良い例：
「この契約書の有効期限はいつまでですか？」
「第3章の要点を教えてください」
「リスク要因として挙げられているものは？」

画像・図表への質問（ここがポイント！）

&#x2705; 画像認識を活用した質問：
「このグラフで最も売上が高い月は？」
「組織図でマーケティング部の人数は？」
「フローチャートの最初のステップは？」
「この表で利益率が最も高い商品は？」

質問のコツ

具体的に: 「この資料について」より「第2章の売上データについて」
画像を指定: 「グラフで」「表で」「図で」と明示する
複数の質問: 一度に複数聞いても大丈夫

📊 実際の活用例

ビジネス資料の分析

売上レポートの場合:

質問: 「このグラフで前年同月比の成長率が最も高い商品は？」

回答例: 「グラフを確認したところ、商品Aが前年同月比150%の成長率を示しており、
最も高い成長を記録しています。特に7-9月期の伸びが顕著です。」

組織図の確認:

質問: 「この組織図で開発部門の構成を教えて」

回答例: 「開発部門は部長1名の下に、フロントエンド、バックエンド、
インフラの3チームに分かれており、各チーム3-4名の構成となっています。」

技術文書の理解

システム構成図:

質問: 「このシステム構成図でデータベースへの接続経路は？」

回答例: 「アプリケーションサーバーからロードバランサーを経由し、
プライベートサブネット内のRDSインスタンスに接続される構成になっています。」

学術・研究資料

グラフ・データ分析:

質問: 「この実験結果のグラフから統計的に有意な差はありますか？」

回答例: 「グラフ上のエラーバーと p値（p<0.01）の表示から、
グループAとBの間には統計的に有意な差があることが確認できます。」

🎯 従来ツールとの違い

処理内容	従来のPDF処理	bedrock_pdf_app
テキスト抽出	✅ 対応	✅ 対応
表の理解	△ 構造が崩れがち	✅ 正確に理解
グラフ読み取り	❌ 不可	✅ 数値まで読み取り
図解の説明	❌ 不可	✅ 内容を理解
画像内文字	❌ 不可	✅ OCR機能

🔍 便利な機能

Citations機能

回答の根拠となる部分を明示してくれるため、情報の信頼性を確認できます。

ファイル情報の自動表示

アップロード時にファイル名の処理情報が表示され、特殊文字が含まれる場合は自動で調整されます。

トークン使用量の表示

処理後に使用したトークン数が表示されるため、コスト管理の参考になります。

⚠️ 注意点・制限事項

ファイルサイズ: 4.5MB以下のPDFのみ対応
リージョン: ap-northeast-1での利用を推奨
認証: AWS Bedrockでのクオード（Claude）モデルへのアクセス権限が必要
処理時間: 複雑な画像が多いPDFは処理に時間がかかる場合があります

🛠️ トラブルシューティング

よくあるエラーと対処法

「AWS APIエラー」が出る場合:

AWS認証情報の確認
Bedrockでのモデルアクセス権限の確認

「ファイルが大きすぎます」の場合:

PDFを4.5MB以下に圧縮
ページ数を分割して処理

画像が認識されない場合:

画像の解像度を確認（低解像度だと認識精度が下がります）
「この画像で」「このグラフで」など明示的に指定

📚 活用のヒント

段階的に質問: まず全体の概要を聞いてから、詳細を深掘り
画像を活用: テキストだけでなく図表からの情報抽出を積極的に
複数の角度: 同じデータでも異なる視点から質問してみる
結果の確認: Citations機能で回答の根拠を確認する習慣を

この使い方をマスターすれば、PDF内のあらゆる情報を効率的に活用できるようになります。特に図表が多いビジネス資料や技術文書での威力は絶大です。

ぜひ試してみてください！

リポジトリ

GitHub - Sunwood-ai-labs/bedrock_pdf_app

Contribute to Sunwood-ai-labs/bedrock_pdf_app development by creating an account on GitHub.