如何通过Java代码将 PDF文档转为 HTML格式

科技资讯 投稿 7300 0 评论

如何通过Java代码将 PDF文档转为 HTML格式

    将PDF文档转换为HTML文件
  • 将PDF文档转换为嵌入SVG的HTML文件
  • 将PDF文档转换为HTML流

代码编译环境:

PDF Jar包:Free Spire.PDF for Java 5.1.0

引入jar

手动引入。将Free Spire.PDF for Java下载到本地,解压,找到lib文件夹下的Spire.PDF.jar文件。在IDEA中打开如下界面,将本地路径中的jar文件引入Java程序:

<repositories>

        <repository>

            <id>com.e-iceblue</id>

            <url>https://repo.e-iceblue.cn/repository/maven-public/</url>

        </repository>

    </repositories>

<dependencies>

    <dependency>

        <groupId>e-iceblue</groupId>

        <artifactId>spire.pdf.free</artifactId>

        <version>5.1.0</version>

    </dependency>

</dependencies>

将PDF文档转换为HTML文件

我们可以使用 PdfDocument.saveToFile(String filename, FileFormat.HTML) 方法,可以直接将PDF文档转换为HTML文件。具体步骤如下。

    创建PdfDocument的对象。
  • 使用PdfDocument.loadFromFile() 方法加载PDF文件。
  • 使用PdfDocument.saveToFle() 方法将PDF文件另存为HTML文件。

完整代码

import com.spire.pdf.*;

public class convertPDFToHTML {
    public static void main(String[] args) {

        //创建PdfDocument的对象
        PdfDocument pdf = new PdfDocument();

        //加载PDF文件
        pdf.loadFromFile("郁金香.pdf");

        //将PDF文件保存为HTML文件
        pdf.saveToFile("PDFToHTML.html",FileFormat.HTML);
        pdf.close();
    }
}

PDF文档转换为嵌入SVGHTML文件

PdfDocument.getConvertOptions().setPdfToHtmlOptions(true) 方法,可以在转换时嵌入SVG。将PDF文件转换为嵌入SVG的HTML文件的详细步骤如下。

    创建PdfDocument的对象。
  • 使用PdfDocument.loadFromFile() 方法加载PDF文件。
  • 使用PdfDocument.getConvertOptions().setPdfToHtmlOptions(true) 方法启用嵌入SVG。
  • 使用PdfDocument.saveToFle() 方法将PDF文件另存为HTML文件。

完整代码

import com.spire.pdf.*;

public class convertPDFToHTMLEmbeddingSVG {
    public static void main(String[] args) {

        //创建PdfDocument的对象
        PdfDocument doc = new PdfDocument();

        //加载PDF文件
        doc.loadFromFile("郁金香.pdf");

        //设置嵌入SVG
        doc.getConvertOptions().setPdfToHtmlOptions(true);

        //将PDF文件另存为HTML文件
        doc.saveToFile("PDFToHTMLEmbeddingSVG.html", FileFormat.HTML);
        doc.close();
    }
}

将PDF文档转换为HTML流

Spire.PDF for Java还支持将PDF文档转换为HTML流。具体步骤如下。

    创建PdfDocument的对象。
  • 使用PdfDocument.loadFromFile() 方法加载PDF文件。
  • 使用PdfDocument.saveToStream() 方法将PDF文件保存为HTML流。

完整代码

import com.spire.pdf.*;

import java.io.*;


public class convertPDFToHTMLStream {
    public static void main(String[] args) throws FileNotFoundException {

        //创建PdfDocument的对象
        PdfDocument pdf = new PdfDocument();

        //加载PDF文件
        pdf.loadFromFile("郁金香.pdf");

        //将PDF文件另存为HTML流
        File outFile = new File("PDFToHTMLStream.html");
        OutputStream outputStream = new FileOutputStream(outFile);
        pdf.saveToStream(outputStream, FileFormat.HTML);
        pdf.close();
    }
}

效果图

—本文完—

编程笔记 » 如何通过Java代码将 PDF文档转为 HTML格式

赞同 (35) or 分享 (0)
游客 发表我的评论   换个身份
取消评论

表情
(0)个小伙伴在吐槽