Converti PDF in Excel in Python

2024-01-17 01:19:06 Tesia tian

Convertire PDF in Excel significa estrarre dati tabulari da un documento PDF e convertirli in un formato di foglio di calcolo modificabile e strutturato. Ciò rende molto più semplice lavorare con i dati PDF, eseguire calcoli e analizzare le informazioni poiché MS Excel fornisce funzionalità avanzate di elaborazione dei dati.

Quando è necessario convertire in Excel un numero elevato di file PDF, è possibile implementare la conversione batch tramite la programmazione, che aiuta ad automatizzare il processo di conversione da PDF a Excel, risparmiando così tempo e fatica. Questo articolo ti guiderà su come farlo a livello di codice convertire PDF in Excel in Python.

Convertitore da PDF a Excel di Python

Per utilizzare Python per la conversione da PDF a Excel, avremo bisogno della libreria Spire.PDF for Python. Questa libreria PDF Python offre un grande potenziale agli sviluppatori per lavorare in modo efficiente con i file PDF nei programmi Python. Supporta la creazione di PDF, l'elaborazione di file PDF esistenti e la conversione di PDF in Word, PDF in immagini, PDF in Excel, PDF in HTML e altro ancora.

Per installare il convertitore da PDF a Excel, utilizza semplicemente il seguente comando pip per eseguire l'installazione da PyPI:

pip install Spire.PDF

Come convertire PDF in Excel in Python

Prima di iniziare, diamo un'occhiata alle classi e ai metodi principali per convertire file PDF in Excel utilizzando la libreria Spire.PDF for Python.

  • Classe PdfDocument: rappresenta un modello di documento PDF.
  • Classe XlsxLineLayoutOptions: utilizzata per specificare le opzioni di conversione per controllare come il tuo PDF verrà convertito in Excel. Il costruttore della classe XlsxLineLayoutOptions accetta i cinque parametri seguenti:
    • convertToMultipleSheet (bool): specifica se convertire ogni pagina in un foglio di lavoro diverso nello stesso Excel. Se impostato su False, tutte le pagine di un file PDF verranno convertite in un singolo foglio di lavoro Excel.
    • ruotatoText (bool): specifica se visualizzare il testo ruotato.
    • splitCell (bool): specifica se convertire il testo in una cella PDF (che si estende su più di due righe) in una cella Excel o in più celle.
    • wrapText (bool): specifica se mandare a capo il testo in una cella di Excel.
    • sovrapposizioneText (bool): specifica se visualizzare il testo sovrapposto.
  • Metodo PdfDocument.ConvertOptions.SetPdfToXlsxOptions() : applica l'opzione di conversione.
  • Metodo PdfDocument.SaveToFile(string nome file, FileFormat.XLSX): salva il PDF in formato Excel XLSX.

Di seguito sono riportati i passaggi principali che mostrano come convertire PDF in Excel in Python.

  • 1. Installa Spire.PDF for Python.
  • 2. Importare i moduli richiesti.
  • 3. Creare un oggetto della classe PdfDocument.
  • 4. Caricare un file PDF tramite il metodo PdfDocument.LoadFromFile().
  • 5. Se è necessario impostare le opzioni di conversione, creare un oggetto della classe XlsxLineLayoutOptions e passare i parametri corrispondenti al suo costruttore.
  • 6. Applicare le opzioni di conversione tramite il metodo PdfDocument.ConvertOptions.SetPdfToXlsxOptions().
  • 7. Chiama il metodo PdfDocument.SaveToFile() per convertire PDF in Excel.

Converti PDF in Excel XLSX in Python

È abbastanza semplice convertire PDF in Excel utilizzando Spire.PDF for Python. Dobbiamo solo caricare un file PDF e quindi salvarlo in formato XLSX. Sono necessarie solo tre righe di codice per una semplice conversione da PDF a Excel in Python.

  • Python
from spire.pdf.common import *
    from spire.pdf import *
    
    inputFile = "Invoice.pdf"
    outputFile = "PdfToExcel.xlsx"
    
    # Create a PdfDocument object
    pdf = PdfDocument()
    
    # Load a PDF document
    pdf.LoadFromFile(inputFile)
    
    # Save the PDF file to Excel XLSX format
    pdf.SaveToFile(outputFile, FileFormat.XLSX)
    pdf.Close()

Convert PDF to Excel in Python

Converti un PDF multipagina in un foglio Excel in Python

Oltre al semplice metodo di conversione, Spire.PDF for Python ci consente anche di personalizzare le opzioni di conversione tramite la classe XlsxLineLayoutOptions durante la conversione da PDF a Excel. Come introdotto sopra, possiamo impostare il primo parametro del suo costruttore – convertToMultipleSheet – su False per convertire più pagine PDF in un foglio Excel.

  • Python
from spire.pdf.common import *
    from spire.pdf import *
    
    inputFile = "Invoice Details.pdf"
    outputFile = "PdfToExcelwithOptions.xlsx"
    
    # Create a PdfDocument object
    pdf = PdfDocument()
    
    # Load a PDF document
    pdf.LoadFromFile(inputFile)
    
    # Create an XlsxLineLayoutOptions object to specify the conversion options
    # Parameters: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
    pdf.ConvertOptions.SetPdfToXlsxOptions(XlsxLineLayoutOptions(False, True, False, True, False))
    
    # Save the PDF file to Excel xlsx format
    pdf.SaveToFile(outputFile, FileFormat.XLSX)
    pdf.Close()

Convert PDF to Excel in Python

Licenza gratuita per il convertitore da PDF a Excel

Per utilizzare Spire.PDF for Python per la conversione da PDF a Excel senza filigrane e limitazioni, richiedi una licenza temporanea gratuita di 1 mese.

Conclusione

Questo articolo fornisce passaggi dettagliati ed esempi di codice per dimostrare come convertire PDF in Excel utilizzando Python. Utilizzando la classe XlsxLineLayoutOptions di Spire.PDF for Python, possiamo personalizzare le opzioni di conversione da PDF a Excel per ottenere l'effetto di conversione desiderato, come convertire un PDF multipagina in un foglio di lavoro Excel, avvolgere il testo nella cella Excel convertita, mostrare /nascondi testo ruotato, ecc.

Sentiti libero di esplorare altre funzionalità di elaborazione e conversione PDF della libreria Spire.PDF for Python utilizzando il file documentazione. Per qualsiasi problema durante il test, contatta il nostro team di supporto tecnico tramite e-mail o forum.

Guarda anche