布局与警告

PDF 的含义常常存在于位置关系中：分栏、标题、表单标签、表格、脚注、图、链接、注释、重复页眉或页脚都会影响阅读方式。--layout 保留这些信号，而不是把页面压平成一个文本流。

对于 AI 智能体，这一点很重要，因为看似合理的文本流仍然可能是错的。双栏论文可能被跨栏读取，财务表可能丢失行边界，表单值可能离开标签，页脚可能被误当正文。pdfvision 暴露布局和 warning 信号，让智能体能发现这些情况。

布局重建

bash

pdfvision document.pdf --layout --format json

布局输出包括：

当原生文本流与视觉阅读顺序不同，Markdown 输出可以使用恢复后的 layout order。

需要 layout 的场景：

layout.blocks 不是为了隐藏原生文本。它给智能体提供带 geometry 和 role hints 的另一种 reading-order view，同时 pages[].text 仍可用于比较。

bash

pdfvision document.pdf --geometry --format json

--geometry 在 pages[].spans 中输出更底层的文本项、bbox 和字号。可用于搜索高亮、覆盖层和证据映射。

bash

pdfvision document.pdf --layout --image-boxes --vector-boxes --visual-regions --format json

重要字段：

当智能体只需要检查这些区域时，使用 --render-visual-regions。

这是“把一切抽成文本”和“查看 PDF”之间的关键差异。幻灯片图表、签名框、标注图或表格网格可能没有多少有用原生文本，但其 image/vector geometry 会告诉智能体应该看哪里。

visual regions 可以作为到多模态模型的桥梁：

pages[].warnings 描述在信任原生文本前应该检查的异常。

常见警告包括：

警告不是最终判断，而是告诉智能体下一步应检查哪里。

把 warning 当作 routing signal：

重要习惯不是让整个提取失败，而是让智能体选择下一步观察。pdfvision 会返回足够的证据来支持这个选择。