提示詞範例

在產生 pdfvision Markdown、XML、JSON 或 TOON 輸出後，可以使用這些提示詞。

這些提示詞假設模型應把 pdfvision 輸出當作證據，而不是最終答案。多數工作流程中，模型應判斷 PDF 是否需要下一輪 layout、rendering、OCR、search 或 region crops。

PDF 初步檢查

text

請逐頁審查這份 pdfvision 輸出。

對每一頁：
1. 總結可見內容。
2. 在信任原生文字之前檢查 overview quality 欄位和 warnings。
3. 找出需要 render、OCR 或區域級檢查的頁面。
4. 回傳簡潔的行動計畫，並給出下一步要執行的 pdfvision 參數。

依賴版面的擷取

text

請使用 pdfvision layout blocks 和 warnings 重建人類閱讀順序。

重點關注：
1. 標題和章節層級。
2. 多欄閱讀順序。
3. 含義依賴位置關係的表格或表單標籤。
4. 表示原生文字順序與視覺順序不一致的警告。

存在 layout warnings 時，不要只依賴 pages[].text。

Evidence-First Summary

text

請使用 pdfvision 輸出作為證據總結這個 PDF。

規則：
1. 從 overview quality fields 和 page warnings 開始。
2. 對原生文字 empty、sparse 或 glyph-corrupted 的頁面，不要在不說明缺失證據的情況下總結。
3. 當結論依賴表格、表單欄位、圖表或圖片時，引用 page 和 bbox，或建議 crop command。
4. 區分可由文字確認的結論和需要視覺驗證的結論。

表格審查

text

請從這份 pdfvision JSON 中擷取表格。

對每個表格：
1. 優先使用 pages[].layout.tables。
2. 保留行列關係。
3. 標出含義不明確或需要渲染裁切圖確認的儲存格。
4. 包含頁碼和 bbox 證據。

財務指標驗證

text

請使用這份 pdfvision 輸出驗證財務指標。

對每個請求的指標：
1. 在 pages[].matches 或 layout table labels 中尋找候選。
2. 確定 page、row/column context 和 bbox evidence。
3. 檢查 table flattening、reading-order divergence、dense vectors 或 raster-only content warnings。
4. 如果值是視覺編碼的或不明確，回傳用於產生最小可用裁切的 pdfvision --render-region 命令。
5. 當 row 或 column alignment 不清楚時，不要從附近文字編造數值。

掃描文件 OCR

text

請比較這份 pdfvision 輸出中的 native text 和 OCR text。

對每一頁：
1. 使用 quality.nativeTextStatus 和 quality.visualStatus 對頁面分類。
2. 只有 native text 可用時才優先使用它。
3. 只有 native text empty、sparse 或 glyph-corrupted 時才優先使用 OCR。
4. 標出 low-confidence OCR 或需要更高解析度 render 的頁面。

表單分析

text

請使用 pdfvision form fields 和 layout data 分析這個 PDF 表單。

回傳：
1. 可見欄位的標籤、值和欄位類型。
2. 核取方塊或單選按鈕群組及其選取狀態。
3. hidden、read-only、required 或 no-view 欄位。
4. 標籤關係不明確、需要裁切圖確認的欄位。

視覺報告審查

text

請使用 pdfvision 輸出審查這份視覺 PDF 報告。

重點關注：
1. imageCount 或 vectorCount 較高的頁面。
2. pages[].visualRegions 及其 associated text。
3. 表示 visual-only labels、dense charts 或 sparse native text 的 warnings。
4. 驗證重要 chart、diagram 或 screenshot 所需的最小 region crops。

在做視覺結論之前，先回傳建議的 crop commands。

搜尋後放大證據檢查

text

請使用這份 pdfvision JSON 中的 pages[].matches 選擇最合適的證據位置。

對每個相關 match：
1. 回報 page、query、source、matched text 和 bbox。
2. 判斷是否需要視覺驗證。
3. 如果需要，回傳包含 --pages、--render 和 --render-region 的精確 pdfvision 命令。
4. 裁切圖產生後，將其與原生文字、OCR 文字和附近 layout blocks 對照。

模型特定說明

需要精確欄位的工具和代理使用 JSON。
目標模型適合明確標籤時使用 XML。
structured arrays 很大且 token budget 重要時使用 TOON。
人類可讀的第一遍使用 Markdown。
當結論依賴視覺頁面而不只是 text layer 時，使用 rendered crops。

提示詞範例 ​

PDF 初步檢查 ​

依賴版面的擷取 ​

Evidence-First Summary ​

表格審查 ​

財務指標驗證 ​

掃描文件 OCR ​

表單分析 ​

視覺報告審查 ​

搜尋後放大證據檢查 ​

模型特定說明 ​

提示詞範例

PDF 初步檢查

依賴版面的擷取

Evidence-First Summary

表格審查

財務指標驗證

掃描文件 OCR

表單分析

視覺報告審查

搜尋後放大證據檢查

模型特定說明