Как объединить файлы pdf с помощью python, не сохраняя их в локальном каталоге

У меня есть несколько файлов pdf, которые загружены на удаленный сервер. У меня есть URL для каждого файла, и мы можем скачать эти PDF файлы, посетив эти URL.

Мой вопрос в том,

Я хочу объединить все pdf файлы в один файл (но, не сохраняя эти файлы в локальной директории). Как я могу это сделать (в модуле python 'PyPDF2')?

Пожалуйста, переместитесь в pypdf. По сути это то же самое, что и PyPDF2, но разработка будет продолжаться там (я являюсь сопровождающим обоих проектов).

На ваш вопрос есть ответ в документации:

https://pypdf.readthedocs.io/en/latest/user/streaming-data.html

Вместо записи в файл, вы пишете в io.ByteIO поток:

from io import ByteIO

# e.g. writer = PdfWriter()
# ... do what you want to do with the PDFs

with BytesIO() as bytes_stream:
    writer.write(bytes_stream)
    bytes_stream.seek(0)
    data = bytes_stream.read()  # that is now the "bytes" represention

Чтобы объединить PDF файлы без сохранения их локально, вы можете использовать библиотеку requests для загрузки содержимого каждого файла, а затем передать содержимое классу PdfFileReader в библиотеке PyPDF2.

import requests
import PyPDF2
from io import BytesIO

def merge_pdfs_remotely(urls, output_filename):
    # Create a list of file-like objects from the URLs
    file_streams = [BytesIO(requests.get(url).content) for url in urls]
    
    # Create the PDF merger object
    merger = PyPDF2.PdfFileMerger()
    
    # Add each PDF file to the merger
    for stream in file_streams:
        merger.append(PyPDF2.PdfFileReader(stream))

Вернуться на верх

Последние вопросы и ответы

Why does StaticLiveServerTestCase breaks fixtures when dynamically generating tests beside TestCase does not?

HMR Module replacement is disabled

Django Allauth login/signup fails with SMTPAuthenticationError (535) in production

Why does using a set() snapshot for deduplication still allow duplicate records in my Django/Outlook integration?

Looking for Real-World Problems to Build a Web Application Around [closed]

Are Enviornment Variables Still Considered a Secure Choice for Production?

How can I send a POST request with a CSRF Token and a JSON body to a Django endpoint?

How to configure/debug Python chat application on a production Ubuntu system

ImportError in old migrations (django.utils.timezone.utc) after upgrading Python and Django

Django tests in GitLab CI always use PostgreSQL instead of SQLite despite APP_ENV override

Как объединить файлы pdf с помощью python, не сохраняя их в локальном каталоге

Последние вопросы и ответы

Рекомендуемые записи по теме