iText生成PDF文件

2024-05-09 1506阅读

温馨提示:这篇文章已超过372天没有更新,请注意相关的内容是否还可用!

导语:

        本文基于 iText7 :7.1.16 生成。 官方文档链接:iText

iText生成PDF文件

        从版本入口可进入到下面页面 

iText生成PDF文件

一、引言

         常见生成PDF文件的有两种方法,一是先生成 word文档,然后将word转换成PDF文件;另一种则是直接生成PDF文件。

1.1.word转换PDF

1.1.1.技术介绍 

        生成Word文件并将其转换为PDF文件,可以使用多种Java库和JAR包。以下是一些常用的库和JAR包:

  1. Apache POI:这是一个用于操作Microsoft Office格式文件的Java库。你可以使用它来创建和编辑Word文档(.doc或.docx)。
  2. Spire.Doc for Java:这是一个功能强大的Java库,用于创建、编辑、转换和打印Word文档。它支持将Word文档转换为PDF格式。Spire.Doc for Java的JAR包可以直接添加到你的Java项目中。
  3. Aspose.Words for Java:Aspose.Words是一个用于处理Word文档的Java库,它提供了丰富的API来创建、编辑和转换Word文档。这个库也支持将Word文档转换为PDF。
  4. iText:虽然iText主要用于处理PDF文件,但它也可以与其他库(如Apache POI或Spire.Doc)结合使用,以实现从Word到PDF的转换。iText的JAR包可用于在Java项目中添加PDF处理功能。

        而Word到PDF转换的步骤如下所示:

  1. 生成Word文件并保存:使用Apache POI或Spire.Doc的API创建或编辑Word文档。将编辑后的Word文档保存到磁盘上的某个位置。
  2. 转换Word为PDF并保存:使用Spire.Doc或Aspose.Words的API将Word文档转换为PDF格式。这通常涉及读取Word文档、创建一个PDF文档,然后将Word文档的内容复制到PDF文档中。将转换后的PDF文档保存到磁盘上的指定位置。

 1.1.2.补充说明

        由上述说明可知,生成一次PDF文件需要保存两次,这极大的浪费了系统的内存;同时,word转换PDF有限制,只能转换少量页数,当大文件转换时,就需要进入收费阶段了。种种限制,让这种方法变得并不实用。 

1.2.iText7 生成PDF 

        iText是一个开源库,用于创建和操作PDF文件。本文则主要用 iText 7 进行测试与文件生成。pom核心jar文件: 

        
            com.itextpdf
            itext7-core
            7.1.16
            pom
        

        
            org.projectlombok
            lombok
            1.18.20
            compile
        

        
            org.mybatis.spring.boot
            mybatis-spring-boot-starter
            1.1.1
        

二、工具类

2.1.代码示例 

import com.itextpdf.io.font.PdfEncodings;
import com.itextpdf.kernel.font.PdfFont;
import com.itextpdf.kernel.font.PdfFontFactory;
import com.itextpdf.kernel.geom.PageSize;
import com.itextpdf.kernel.pdf.PdfDocument;
import com.itextpdf.kernel.pdf.PdfWriter;
import com.itextpdf.layout.Document;
import com.itextpdf.layout.element.*;
import com.itextpdf.layout.property.HorizontalAlignment;
import com.itextpdf.layout.property.TextAlignment;
import lombok.extern.slf4j.Slf4j;
import org.springframework.stereotype.Component;
//import com.itextpdf.layout.property.UnitValue;
import java.io.IOException;
import java.util.List;
@Slf4j
@Component
public class PdfGenerator {
    public void createPdf(String fileName, String title, String titleRow, String[] headerText, List data) throws IOException {
        PdfDocument pdfDoc = new PdfDocument(new PdfWriter(fileName));
        Document doc = new Document(pdfDoc, PageSize.A4);
        // 设置字体  simhei.ttf黑体  SimSun宋体
        PdfFont font = PdfFontFactory.createFont("simhei.ttf", PdfEncodings.IDENTITY_H, true);
//        PdfFont font = PdfFontFactory.createFont("SimSun", "UniGB-UCS2-H", false);
//        String text = "文章内容";
//        if (null != text){
//            txtSet(doc,text,font);
//        }
        // 设置标题
        if (null != title){
            titleSet(doc,title,font);
        }
        // 创建表格
        int numColumns = (null == headerText) ? data.get(0).length : headerText.length;
        Table table = new Table(numColumns);
//        table.setWidth(UnitValue.createPercentValue(100)); // 表格宽度设置为100%  
//        table.setFixedPosition(1, 1, 1); // 设置表格在页面上的位置(可选)  
        if (!(null == titleRow)){
            titleCell(table,titleRow,headerText.length,font);     // 添加标题行
        }
        // 添加表头
        for (int i = 0; i  

 2.2.示例解释

2.2.1.字体 

         PdfFont font = PdfFontFactory.createFont("simhei.ttf", PdfEncodings.IDENTITY_H, false);同PdfFontFactory.createFont(new File("path/to/font.ttf"), PdfEncodings.IDENTITY_H, true)。

        这行代码的主要目的是加载一个名为“simhei.ttf”的字体文件,并使用Unicode编码方式,但不将其嵌入到生成的PDF文档中。

        PdfFontFactory.createFont(): PdfFontFactory是iText库中的一个工具类,用于创建PdfFont对象。它的createFont()方法是创建新字体的主要方法。

        "simhei.ttf": 这是字体文件的路径或名称。在这个例子中,它指的是“黑体”字体的TrueType字体文件(.ttf)。你需要确保这个字体文件在你的项目路径下是可用的,或者提供完整的文件路径。该字体在网上容易下载,所以本文没有提供。实在找不到的,可以使用下面的宋体(SimSun)。字体很重要,因为个别时候会中文乱码。

        PdfEncodings.IDENTITY_H: 这是字体的编码方式。PdfEncodings.IDENTITY_H通常用于Unicode字体,确保在PDF文档中正确地表示和显示字符。

        false: 这个布尔值参数通常用于指示字体是否应该被嵌入到生成的PDF文档中。设置为false意味着字体不会被嵌入,这通常在你确定阅读PDF的客户端已经安装了该字体时是可行的。但是,为了确保最大的兼容性,通常建议将字体嵌入到PDF中,因此你可能会将这个值设置为true。

        值得一提的是,iText5 和 iText7 创建字体所用的方法不一样。

        iText5: 

BaseFont baseFont = BaseFont.createFont("path/to/simhei.ttf", 
BaseFont.IDENTITY_H, BaseFont.EMBEDDED);  
Font font = new Font(baseFont, 12);

        iText7: 

PdfFont font = PdfFontFactory.createFont("path/to/simhei.ttf", 
PdfEncodings.IDENTITY_H, true);

2.2.2.文章内容 

         “文章内容” 被注掉了,该内容本应由方法入口传入,但我这里为测试大数据生成文件,所以正文由表格组成。把注释放开,并把内容加到方法入口,该工具类使用起来就就更全面。

2.2.3. div标签的使用 

        在 iText 7 中,并没有表格居中的设置,所以如果需要表格居中,通常使用div。在iText 7中,设置表格居中通常涉及设置表格的对齐属性或者将表格放置在一个容器元素中,如Div,并设置该容器的对齐属性。

        Div元素允许您将多个内容元素(如段落、表格、图像等)组合在一起,并设置这些元素的整体属性,比如对齐方式、边距、填充等。这对于创建具有特定布局和样式的内容块非常有用。

        如果您在尝试使用Div元素时遇到问题,可能是因为您没有正确地导入相关的包或类。请确保您的项目中包含了iText 7的依赖,并且您已经导入了com.itextpdf.layout.element.Div类。

2.3.测试结果

        测试一日志打印: 

: /data/NFS/bypay\20240417\20240417_6a9c1b1b_1.pdfPdf文件创建成功!
: 表格数据字节数1191974,运行时间97951ms

        测试一文件展示:(表格行数3.8W)

iText生成PDF文件

         测试二日志打印:

: /data/NFS/bypay\20240422\20240422_27ccb22b_1.pdfPdf文件创建成功!
: 表格数据字节数3760636,运行时间917214ms

        测试二文件展示:(表格行数12W+)

iText生成PDF文件

        测试三日志打印:

: /data/NFS/bypay\20240407\20240407_a60bda47_1.pdfPdf文件创建成功!
: 表格数据字节数4916250,运行时间1602610ms

         测试三文件展示:(表格行数17W+)

iText生成PDF文件

2.4.缺点分析 

        由上述示例可知,仅仅几M 大小的文件,就需要10min+来处理数据,而10M+的数据,更是用了26min+,这严重占用了系统内存,生成效率更是低下。

        第一、回顾测试工具类,发现在每添加一个单元格,都会新建一个Cell单元格对象,每个Cell里还会添加一个Paragraph段落对象,7*17W*2 ≈ 240W,这些对象都会被分配在堆内存中,因为对象实例总是存储在堆中。因此,这个操作会对堆内存造成显著影响。如果堆内存不足以容纳这么多对象,程序可能会抛出OutOfMemoryError。

        第二,可以看到,每创建一个Cell,都会进行一次I/O操作,这也严重影响了系统性能。

        第三, fileName 如果涉及未创建目录,也会抛出 java.io.FileNotFoundException,所以,还需要对方法进行改造。

三、方法优化 

        方法优化犹如解决千军万马过独木桥时,如何顺利、快速通过的问题。 

3.1.优化思路 

3.1.1.分块处理数据

        核心思想:错峰出行。不要都选择8点过桥,可以每隔一定时间过一批。 

        不要一次性加载所有数据到内存中。相反,你应该分块或分页加载数据,并为每块或每页数据创建PDF内容。这样,你可以控制内存使用,减少内存使用峰值,提高应用程序的响应性,并可能减少垃圾收集的频率和开销,并避免因内存溢出而导致的错误。

3.1.2.使用流式API

        核心思想:优化流程。清晰明确的过桥流程,可以减少无效的工作。 

        iText7提供了流式API,允许你逐步构建PDF文档,而不是一次性将所有内容加载到内存中。这对于处理大量数据特别有用。我上面的创建方式就是流式API,其核心思路就是:

  1. 创建Document对象:首先,你需要创建一个Document对象,它代表你要生成的PDF文档。

  2. 使用Table类:在流式API中,你仍然使用Table类来创建表格,但是你会以不同的方式添加内容。

  3. 创建Cell对象:对于每个单元格,你可以创建一个Cell对象,并设置其内容和样式。

  4. 添加Cell到Table:然后,将单元格的Cell对象添加到Table中。

  5. 将Table添加到Document:最后,将表格添加到文档中。

3.1.3.优化字体和图像的使用

        如果你在PDF中使用了大量字体或图像,确保它们被有效地重用,而不是为每个页面或每个元素都加载一个新的实例。

3.1.4.减少复杂的布局和格式

        核心思想:减轻负重。放弃不必要的东西。 

        复杂的布局和格式可能会增加PDF生成的时间和内存使用。尽量使用简单的布局和格式,或考虑在必要时使用分页和表格来组织数据。

3.1.5.使用缓存

        核心思想: 重复利用。将一部分东西集中管理,重复利用。

        对于重复使用的对象(如字体、颜色、样式等),考虑使用缓存来减少内存分配和垃圾收集的开销。

3.1.6.异步处理或多线程

        核心思想:拓路建桥。一座桥不够用,那就多建几座。 

        如果可能的话,你可以考虑使用异步处理或多线程来并行处理数据。这样,你可以同时处理多个数据项,而不是一个接一个地顺序处理。但请注意,多线程操作可能会增加代码的复杂性,并需要处理线程安全和同步问题。

3.1.7.监控和调优

        使用性能分析工具来监控你的代码,并找出可能的瓶颈。根据分析结果,对代码进行调优,以提高PDF生成的速度和效率。

3.1.8.考虑其他解决方案

        如果iText7无法满足你的性能需求,你可能需要考虑其他解决方案,如使用数据库报告工具或专门的PDF生成库(如Aspose.PDF、FOP等)。

3.1.9.升级硬件和配置

        确保你的服务器或开发机器具有足够的RAM和CPU资源来处理大量数据。根据需要调整JVM参数,如堆大小(Xmx),以优化内存使用。

3.1.10.测试和验证

        在将解决方案部署到生产环境之前,确保在测试环境中充分测试你的代码。验证生成的PDF文件的准确性和完整性,并测试在不同数据量和配置下的性能。

3.2.工具类优化之数据分块

3.2.1.代码 

package com.task.utils.abcUtils;
import com.itextpdf.io.font.PdfEncodings;
import com.itextpdf.kernel.font.PdfFont;
import com.itextpdf.kernel.font.PdfFontFactory;
import com.itextpdf.kernel.geom.PageSize;
import com.itextpdf.kernel.pdf.PdfDocument;
import com.itextpdf.kernel.pdf.PdfWriter;
import com.itextpdf.layout.Document;
import com.itextpdf.layout.element.*;
import com.itextpdf.layout.property.AreaBreakType;
import com.itextpdf.layout.property.HorizontalAlignment;
import com.itextpdf.layout.property.TextAlignment;
import com.itextpdf.layout.property.UnitValue;
import lombok.extern.slf4j.Slf4j;
import org.springframework.stereotype.Component;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.List;
@Slf4j
@Component
public class PdfGenerator {
    private static final int SEP_NUM = 1000;
    public void createPdf(String fileName, String title, String titleRow, String[] headerText, List data) throws IOException {
        Path filePath = Paths.get(fileName);
        // 检查父目录是否存在,如果不存在则创建
        Path parentDir = filePath.getParent();
        if (parentDir != null && !Files.exists(parentDir)) {
            try {
                Files.createDirectories(parentDir);
            } catch (IOException e) {
                log.error("无法创建目录: " + parentDir);
                e.printStackTrace();
                return;
            }
        }
        final PdfDocument pdfDoc = new PdfDocument(new PdfWriter(filePath.toFile()));
        Document doc = new Document(pdfDoc, PageSize.A4);
        // 加载字体
        PdfFont font = PdfFontFactory.createFont("simhei.ttf", PdfEncodings.IDENTITY_H, true);
        // 设置标题
        if (null != title){
            titleSet(doc,title,font);
        }
        if (0 == data.size()){
            log.error("生成"+fileName+"失败,data数据为空!");
            return;
        }
        // 创建表格
        int numColumns = (null == headerText) ? data.get(0).length : headerText.length;
        Table table = new Table(numColumns)
                .setWidth(UnitValue.createPercentValue(100))
                .setTextAlignment(TextAlignment.CENTER)
                .setHorizontalAlignment(HorizontalAlignment.CENTER);
        if (!(null == titleRow)){
            titleCell(table,titleRow,headerText.length,font);     // 添加标题行
        }
        // 添加表头
        for (int i = 0; i  

3.2.1.测试结果 

 测试一日志打印: 

: /data/NFS/bypay\20240417\20240417_bd949b03_1.pdfPdf文件创建成功!
: 表格数据字节数1191973,运行时间11060ms

        测试一文件展示:(表格行数3.8W)

iText生成PDF文件

         测试二日志打印:

: /data/NFS/bypay\20240422\20240422_2f3dfd18_1.pdfPdf文件创建成功!
: 表格数据字节数3760639,运行时间34029ms

        测试二文件展示:(表格行数12W+)

iText生成PDF文件

        测试三日志打印:

: /data/NFS/bypay\20240407\20240407_abbcc4b3_1.pdfPdf文件创建成功!
: 表格数据字节数4916250,运行时间44355ms

         测试三文件展示:(表格行数17W+)

iText生成PDF文件

 3.2.3.缺点分析

         采用【自动分配列宽】,受表头影响,第一次创建的表格,单元格宽度可能与后面表格的单元格宽度不一致。如下

iText生成PDF文件

        如果采用【均分列宽】,倒是能让所有单元格格式统一,但又会导致部分超长的字段显示不完全。核心代码如下: 

片段一、
    float[] floats = generateFloatArray(numColumns);
    Table table = new Table(UnitValue.createPercentArray(floats))
                .setWidth(UnitValue.createPercentValue(100))
                .setTextAlignment(TextAlignment.CENTER)
                .setHorizontalAlignment(HorizontalAlignment.CENTER);
片段二、
public static float[] generateFloatArray(int size) {
    if (size 
VPS购买请点击我

免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

目录[+]