エージェント向け PDF トリアージ
まず低コストなネイティブテキストとページごとの品質シグナルを見て、レンダリング、OCR、検索、クロップの必要性を判断できます。
多くの PDF 抽出ツールは、エージェントに 1 本の文字列だけを渡し、その結果を信頼することを前提にします。現実の PDF ではそれだけでは壊れます。2 段組みの論文、意味が図形に埋まったスライド、グラフや表を含むレポート、政府系フォーム、OCR の残骸を含むスキャン、互換字形や文字化けを含む多言語 PDF では、テキストだけでは根拠が足りません。
pdfvision は次のループを前提にしています。
これは人間が PDF を読む流れに近いものです。ページをざっと見て、視覚的なページと抽出テキストが食い違う場所に気づき、グラフやフォーム欄を拡大し、検証できる元の根拠を残します。
pdfvision は、エージェントが必要とする PDF 信号を CLI と TypeScript ライブラリの両方で提供します。
インストールせずに実行します。
npx pdfvision document.pdfマルチモーダルモデル向けにページ画像をレンダリングします。
npx pdfvision document.pdf --renderURL から PDF を取得して JSON で抽出します。
npx pdfvision --remote https://raw.githubusercontent.com/mozilla/pdf.js-sample-files/master/tracemonkey.pdf --format json根拠を検索し、一致領域だけをクロップします。
npx pdfvision report.pdf --search "revenue" --json
npx pdfvision report.pdf --pages 3 --render --render-region 120,180,360,140 --render-output ./crops --json全ページをレンダリングせずに視覚構造を調べます。
npx pdfvision slides.pdf --layout --image-boxes --vector-boxes --visual-regions --json
npx pdfvision slides.pdf --render-visual-regions --render-output ./regions --json