AWS BedrockとClaude Sonnet 4を使った「bedrock_pdf_app」の使い方をご紹介します。従来のPDF処理ツールとの大きな違いは、テキストだけでなく画像・図表も理解できる点です。
🔧 セットアップ方法
BedrockがやっとPDFサポートしたのでアプリ作ってみた!
これで社内でもPDF内の画像も加味したチャットBotが作れる!!! https://t.co/Gep4ZWZZ2w pic.twitter.com/a3vMQBTHbG— Maki@Sunwood AI Labs. (@hAru_mAki_ch) July 23, 2025
必要な環境
- Python 3.11以上
- AWS Bedrockのアクセス権限
just
とuv
(パッケージマネージャー)
インストール手順
# 1. 必要ツールのインストール
brew install just uv # macOS
# Windows: scoop install just && curl -LsSf https://astral.sh/uv/install.sh | sh
# 2. リポジトリクローン
git clone https://github.com/Sunwood-ai-labs/bedrock_pdf_app.git
cd bedrock_pdf_app
# 3. 依存関係インストール
just setup
# 4. AWS認証情報設定
export AWS_ACCESS_KEY_ID="your_access_key"
export AWS_SECRET_ACCESS_KEY="your_secret_key"
# 5. アプリ起動
just run
Docker版(推奨)
# 1. 環境設定ファイル作成
cp .env.example .env
# .envファイルにAWS認証情報を記入
# 2. Docker Composeで起動
docker compose up
起動後、ブラウザで http://localhost:7860
にアクセスします。
📋 基本的な使い方
1. PDFファイルのアップロード
- 左側の「PDFファイル」エリアにファイルをドラッグ&ドロップ
- または「Browse files」をクリックしてファイル選択
- 対応サイズ: 4.5MB以下
2. 質問の入力
- 「質問」テキストボックスに聞きたいことを入力
- 日本語での質問に対応
3. 分析実行
- 「🚀 分析開始」ボタンをクリック
- 数秒〜数十秒で結果が表示されます
💡 効果的な質問の仕方
テキスト部分への質問
✅ 良い例:
「この契約書の有効期限はいつまでですか?」
「第3章の要点を教えてください」
「リスク要因として挙げられているものは?」
画像・図表への質問(ここがポイント!)
✅ 画像認識を活用した質問:
「このグラフで最も売上が高い月は?」
「組織図でマーケティング部の人数は?」
「フローチャートの最初のステップは?」
「この表で利益率が最も高い商品は?」
質問のコツ
- 具体的に: 「この資料について」より「第2章の売上データについて」
- 画像を指定: 「グラフで」「表で」「図で」と明示する
- 複数の質問: 一度に複数聞いても大丈夫
📊 実際の活用例
ビジネス資料の分析
売上レポートの場合:
質問: 「このグラフで前年同月比の成長率が最も高い商品は?」
回答例: 「グラフを確認したところ、商品Aが前年同月比150%の成長率を示しており、
最も高い成長を記録しています。特に7-9月期の伸びが顕著です。」
組織図の確認:
質問: 「この組織図で開発部門の構成を教えて」
回答例: 「開発部門は部長1名の下に、フロントエンド、バックエンド、
インフラの3チームに分かれており、各チーム3-4名の構成となっています。」
技術文書の理解
システム構成図:
質問: 「このシステム構成図でデータベースへの接続経路は?」
回答例: 「アプリケーションサーバーからロードバランサーを経由し、
プライベートサブネット内のRDSインスタンスに接続される構成になっています。」
学術・研究資料
グラフ・データ分析:
質問: 「この実験結果のグラフから統計的に有意な差はありますか?」
回答例: 「グラフ上のエラーバーと p値(p<0.01)の表示から、
グループAとBの間には統計的に有意な差があることが確認できます。」
🎯 従来ツールとの違い
処理内容 | 従来のPDF処理 | bedrock_pdf_app |
---|---|---|
テキスト抽出 | ✅ 対応 | ✅ 対応 |
表の理解 | △ 構造が崩れがち | ✅ 正確に理解 |
グラフ読み取り | ❌ 不可 | ✅ 数値まで読み取り |
図解の説明 | ❌ 不可 | ✅ 内容を理解 |
画像内文字 | ❌ 不可 | ✅ OCR機能 |
🔍 便利な機能
Citations機能
回答の根拠となる部分を明示してくれるため、情報の信頼性を確認できます。
ファイル情報の自動表示
アップロード時にファイル名の処理情報が表示され、特殊文字が含まれる場合は自動で調整されます。
トークン使用量の表示
処理後に使用したトークン数が表示されるため、コスト管理の参考になります。
⚠️ 注意点・制限事項
- ファイルサイズ: 4.5MB以下のPDFのみ対応
- リージョン: ap-northeast-1での利用を推奨
- 認証: AWS Bedrockでのクオード(Claude)モデルへのアクセス権限が必要
- 処理時間: 複雑な画像が多いPDFは処理に時間がかかる場合があります
🛠️ トラブルシューティング
よくあるエラーと対処法
「AWS APIエラー」が出る場合:
- AWS認証情報の確認
- Bedrockでのモデルアクセス権限の確認
「ファイルが大きすぎます」の場合:
- PDFを4.5MB以下に圧縮
- ページ数を分割して処理
画像が認識されない場合:
- 画像の解像度を確認(低解像度だと認識精度が下がります)
- 「この画像で」「このグラフで」など明示的に指定
📚 活用のヒント
- 段階的に質問: まず全体の概要を聞いてから、詳細を深掘り
- 画像を活用: テキストだけでなく図表からの情報抽出を積極的に
- 複数の角度: 同じデータでも異なる視点から質問してみる
- 結果の確認: Citations機能で回答の根拠を確認する習慣を
この使い方をマスターすれば、PDF内のあらゆる情報を効率的に活用できるようになります。特に図表が多いビジネス資料や技術文書での威力は絶大です。
ぜひ試してみてください!
リポジトリ
GitHub - Sunwood-ai-labs/bedrock_pdf_app
Contribute to Sunwood-ai-labs/bedrock_pdf_app development by creating an account on GitHub.
コメント