Skip to content

提示詞範例

在產生 pdfvision Markdown、XML、JSON 或 TOON 輸出後,可以使用這些提示詞。

這些提示詞假設模型應把 pdfvision 輸出當作證據,而不是最終答案。多數工作流程中,模型應判斷 PDF 是否需要下一輪 layout、rendering、OCR、search 或 region crops。

PDF 初步檢查

text
請逐頁審查這份 pdfvision 輸出。

對每一頁:
1. 總結可見內容。
2. 在信任原生文字之前檢查 overview quality 欄位和 warnings。
3. 找出需要 render、OCR 或區域級檢查的頁面。
4. 回傳簡潔的行動計畫,並給出下一步要執行的 pdfvision 參數。

依賴版面的擷取

text
請使用 pdfvision layout blocks 和 warnings 重建人類閱讀順序。

重點關注:
1. 標題和章節層級。
2. 多欄閱讀順序。
3. 含義依賴位置關係的表格或表單標籤。
4. 表示原生文字順序與視覺順序不一致的警告。

存在 layout warnings 時,不要只依賴 pages[].text。

Evidence-First Summary

text
請使用 pdfvision 輸出作為證據總結這個 PDF。

規則:
1. 從 overview quality fields 和 page warnings 開始。
2. 對原生文字 empty、sparse 或 glyph-corrupted 的頁面,不要在不說明缺失證據的情況下總結。
3. 當結論依賴表格、表單欄位、圖表或圖片時,引用 page 和 bbox,或建議 crop command。
4. 區分可由文字確認的結論和需要視覺驗證的結論。

表格審查

text
請從這份 pdfvision JSON 中擷取表格。

對每個表格:
1. 優先使用 pages[].layout.tables。
2. 保留行列關係。
3. 標出含義不明確或需要渲染裁切圖確認的儲存格。
4. 包含頁碼和 bbox 證據。

財務指標驗證

text
請使用這份 pdfvision 輸出驗證財務指標。

對每個請求的指標:
1. 在 pages[].matches 或 layout table labels 中尋找候選。
2. 確定 page、row/column context 和 bbox evidence。
3. 檢查 table flattening、reading-order divergence、dense vectors 或 raster-only content warnings。
4. 如果值是視覺編碼的或不明確,回傳用於產生最小可用裁切的 pdfvision --render-region 命令。
5. 當 row 或 column alignment 不清楚時,不要從附近文字編造數值。

掃描文件 OCR

text
請比較這份 pdfvision 輸出中的 native text 和 OCR text。

對每一頁:
1. 使用 quality.nativeTextStatus 和 quality.visualStatus 對頁面分類。
2. 只有 native text 可用時才優先使用它。
3. 只有 native text empty、sparse 或 glyph-corrupted 時才優先使用 OCR。
4. 標出 low-confidence OCR 或需要更高解析度 render 的頁面。

表單分析

text
請使用 pdfvision form fields 和 layout data 分析這個 PDF 表單。

回傳:
1. 可見欄位的標籤、值和欄位類型。
2. 核取方塊或單選按鈕群組及其選取狀態。
3. hidden、read-only、required 或 no-view 欄位。
4. 標籤關係不明確、需要裁切圖確認的欄位。

視覺報告審查

text
請使用 pdfvision 輸出審查這份視覺 PDF 報告。

重點關注:
1. imageCount 或 vectorCount 較高的頁面。
2. pages[].visualRegions 及其 associated text。
3. 表示 visual-only labels、dense charts 或 sparse native text 的 warnings。
4. 驗證重要 chart、diagram 或 screenshot 所需的最小 region crops。

在做視覺結論之前,先回傳建議的 crop commands。

搜尋後放大證據檢查

text
請使用這份 pdfvision JSON 中的 pages[].matches 選擇最合適的證據位置。

對每個相關 match:
1. 回報 page、query、source、matched text 和 bbox。
2. 判斷是否需要視覺驗證。
3. 如果需要,回傳包含 --pages、--render 和 --render-region 的精確 pdfvision 命令。
4. 裁切圖產生後,將其與原生文字、OCR 文字和附近 layout blocks 對照。

模型特定說明

  • 需要精確欄位的工具和代理使用 JSON。
  • 目標模型適合明確標籤時使用 XML。
  • structured arrays 很大且 token budget 重要時使用 TOON。
  • 人類可讀的第一遍使用 Markdown。
  • 當結論依賴視覺頁面而不只是 text layer 時,使用 rendered crops。

Released under the MIT License.