如何将 PDF 文件中的文本提取为 YAML(教程)
这篇博客文章将向你展示如何将 PDF 转换为 YAML,通过提取带有结构标签的标记内容来实现。
什么是结构化 PDF?
一些 PDF 文件包含结构化内容,也称为带标签(tagged)或标记内容(marked content),这是一种语义信息,为文件的结构提供了意义。这类似于 HTML,文本被标签包裹,这些标签指示了文本的含义。
什么是 YAML?
YAML 是一种数据序列化格式,与 JSON 类似,因此在系统之间传输内容时非常有用。
与 JSON 和 XML 等其他标记语言相比,YAML 的一个关键区别在于:YAML 使用缩进而不是括号或标签来定义层级结构。
我可以将 PDF 转换为 YAML 吗?
如果一个 PDF 文件包含标记内容(如何判断?),那么你就可以处理这些结构标签并生成 YAML 输出。
我们的 PDF 库 JPedal 支持将带标签的 PDF 转换为 YAML 格式。你可以使用以下代码片段实现这一功能:
ExtractStructuredTextProperties properties = new ExtractStructuredTextProperties();
properties.setFileOutputMode(OutputModes.YAML);
ExtractStructuredText.
writeAllStructuredTextOutlinesToDir("inputFile.pdf", password, "outputFolder", null, null);
下载 Jar 包
如果你对 PDF 有更深入的兴趣,欢迎阅读我们的其他文章——我们已经与这种格式打交道超过十年!
我们的主页:PDF 转 HTML5、Java 图像库、Java PDF SDK - IDRsolutions
(图片来源网络,侵删)
(图片来源网络,侵删)
(图片来源网络,侵删)
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们。