利用python拆分本地pdf文件的方法

少儿编程
2025-07-03
802

之前分享过利用在线文件格式转换工具来拆分PDF文件的方法，昨天遇到一个尴尬的问题，利用在线转换的时候，上传速度很快，拆分也没有报错，然而拆分后的压缩包总计32M，而下载速度却只有可怜的30k，这就有点不能忍了。于是在下载进度条第一次报错后，博主开始尝试利用python来进行本地的拆分。

博主的python版本是2.7.18，在Python 2.7中，我们可以使用PyPDF2库来拆分PDF文件，如果之前没有使用过类似的功能，那么首先当然是先安装这个库，该库独立性较强，没有多余的分支任务，所以下载速度也比较快：

pip install PyPDF2

拆分方式

方法1：按页数拆分PDF

import os
from PyPDF2 import PdfFileReader, PdfFileWriter

def split_pdf_by_pages(input_pdf_path, output_folder, pages_per_split):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    input_pdf = PdfFileReader(open(input_pdf_path, "rb"))
    total_pages = input_pdf.getNumPages()
    
    for i in range(0, total_pages, pages_per_split):
        output = PdfFileWriter()
        for j in range(i, min(i + pages_per_split, total_pages)):
            output.addPage(input_pdf.getPage(j))
        
        output_filename = os.path.join(
            output_folder, 
            "split_{}-{}.pdf".format(i+1, min(i + pages_per_split, total_pages))
        )
        with open(output_filename, "wb") as output_stream:
            output.write(output_stream)
        print "Created: {}".format(output_filename)

# 使用示例
split_pdf_by_pages("input.pdf", "output_folder", 5)  # 每5页拆分为一个PDF

方法2：拆分为单页PDF

def split_pdf_to_single_pages(input_pdf_path, output_folder):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    input_pdf = PdfFileReader(open(input_pdf_path, "rb"))
    
    for i in range(input_pdf.getNumPages()):
        output = PdfFileWriter()
        output.addPage(input_pdf.getPage(i))
        
        output_filename = os.path.join(output_folder, "page_{}.pdf".format(i+1))
        with open(output_filename, "wb") as output_stream:
            output.write(output_stream)
        print "Created: {}".format(output_filename)

# 使用示例
split_pdf_to_single_pages("input.pdf", "single_pages")

方法3：按页码范围拆分

def split_pdf_by_range(input_pdf_path, output_path, start_page, end_page):
    input_pdf = PdfFileReader(open(input_pdf_path, "rb"))
    output = PdfFileWriter()
    
    for i in range(start_page-1, end_page):
        output.addPage(input_pdf.getPage(i))
    
    with open(output_path, "wb") as output_stream:
        output.write(output_stream)
    print "Created: {}".format(output_path)

# 使用示例
split_pdf_by_range("input.pdf", "pages_3-7.pdf", 3, 7)

博主自用代码

因为博主希望拆分后的页面命名简单规律方便批量导入，所以对文件命名进行了一点修改。

import os
from PyPDF2 import PdfFileReader, PdfFileWriter

def split_pdf_by_pages(input_pdf_path, output_folder, pages_per_split):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    input_pdf = PdfFileReader(open(input_pdf_path, "rb"))
    total_pages = input_pdf.getNumPages()
    
    for i in range(0, total_pages, pages_per_split):
        output = PdfFileWriter()
        for j in range(i, min(i + pages_per_split, total_pages)):
            output.addPage(input_pdf.getPage(j))
        
        output_filename = os.path.join(
            output_folder, 
            "{}.pdf".format(i+1)
        )
        with open(output_filename, "wb") as output_stream:
            output.write(output_stream)
        print "Created: {}".format(output_filename)

# 使用示例
split_pdf_by_pages("需要拆分的文件.pdf", "output", 1)

标签: python

移动端可扫我直达哦~

本文作者：Alphonse

本文链接：利用python拆分本地pdf文件的方法 - https://www.abddb.com/The_method_of_splitting_local_PDF_files_using_Python.html

尝试利用PYTHON扫描电视盒子ip地址上的开放端口

起因是闲鱼购入了一台小米盒子3S, 想尝试利用WIFI连接ABD调试, 结果开心电视助手报错说对方设备积极拒绝。博主前后购入了两台小米3S, 前一台并没有发现这样的问题。于是就想看一下是否是5555端口没有正确被打开。DeepSeek...

少儿编程 python

2026-01-08

让python程序后台运行的方案

前台运行的程序影响了服务器的使用，但又希望该程序能一直运行，所以就考虑在后台跑这个PYTHON服务。使用&在Linux/Mac终端后台运行python your_script.py &程序会在后台运行按回车返回终端使用jobs...

建站相关 python

2025-12-27

利用python批量下载图片

在贴吧找到一组图片，记录了皇骑隐藏宝物的地址，但手机端访问的时候总是提示要求下载贴吧的app，博主用的64g内存的手机，光一个千牛就占了12g，实在没有太多空间来安装多余的app，所以就想把图片转载到自己的博客上。首先是审查元素提取图...

少儿编程 python

2025-10-09

python扫描电话手表的开放端口

手头上有台闲置的米兔2S电话手表，固件版本是T13开头的，想看看ip地址有没有什么端口是开放便于调试的，所以利用python扫了一下，程序利用deepseek生成，结果扫一遍下来用了10分钟，答案是一个端口也没有开放：import s...

少儿编程 python

2025-10-09

PYTHON 通过按键来中止循环程序运行

用python实现了一个类似按键精灵的功能，在一个可修改的pdf里依次输入序列号并打印，序列号多的时候结束程序很难被点到，所以想设置一个快捷键来中止程序。程序基与python 2.7.18, 需要调用 keyboard 库，如果没有的...

少儿编程 python

2025-07-23

利用python2.7.18解密pdf文件

之前介绍过在线移除pdf密码的方式，但在线的方式多少有些安全隐患，而且当pdf过大时，下载的速度也堪忧。所以就补充一个利用python来解密的方案。博主的python版本是python2.7.18。解密需要用到python的PyPDF...

少儿编程 python

2025-05-29

利用python来提取typecho安装包中的待翻译项

都说“人生苦短，我用python。”，如果还觉得太短，那就加一点deepseek，测试了自己改的typecho主题中的翻译功能，发现主题内容是被正确翻译了，但typecho的界面仍旧是中文的，这些待翻译内容分布在typehco系统文件...

少儿编程 python

2025-03-29

利用python压缩扫描图片格式的pdf文件

扫描了一份52页的银行流水，需要提交到某个网站，但该站点限制最大文件不超过10M，博主的扫描件大小总计38M，用夸克浏览器扫描得到，即便选择瘦身模式，最终的大小也超过了30M。之前有找过压缩pdf的在线站点，博主在博客内也有提及，有兴...

少儿编程 python

2025-01-07

利用python3查找文件夹内所有文件内容

学习wp主题的时候看到了几个自定义的action，因为主题文件较多，随手点了几个都不对，逐渐红温，忽然想起来python可能会有对应的模块吧，毕竟“人生苦短，我用python”嘛。要说ai搜索这东西，方便确实是方便，一搜索直接把示例程...

少儿编程 python

2024-06-28

python中print函数的格式控制符号

%字符：标记转换说明符的开始;转换标志：- 表示左对齐；+ 表示在转换值之前要加上正负号；“” （空白字符）表示正数之前保留空格；0表示转换值若位数不够则用0填充;最小字段宽度：转换后的字符串至少应该具有该值指定的宽度。如果是*，则宽...

少儿编程 python

2024-06-27

小鸟数据python基础算法速查

先进先出算法|FIFO# -*- coding: utf-8 -*- def fifo(x): queue=[i for i in range(x, 0, -1)] while len(queue) > 0: ...

少儿编程 python

2024-06-27

小鸟数据python语法速查表

Python对大小写敏感，使用半角符号，变量命名采用“_”、数字或字母的组合，建议采用规范的命名方式，比如使用驼峰式命名方式，编程过程中多写注释。基础语法数据类型：整数，浮点，字符串，逻辑值运算符号：+，-，*，/, % , // ,...

少儿编程 python

网站信息
Website	小鸟数据
Theme By	Alphonse
ICP备案号	浙ICP备19013381号-3

利用python拆分本地pdf文件的方法

拆分方式

方法1：按页数拆分PDF

方法2：拆分为单页PDF

方法3：按页码范围拆分

博主自用代码

推荐阅读