import os
from PyPDF2 import PdfReader
import pandas as pd

# Nome del file PDF
pdf_file = "21-11-2024.pdf"

# Controlla se il file esiste
if not os.path.exists(pdf_file):
    print(f"Errore: Il file '{pdf_file}' non esiste nella directory corrente.")
    exit(1)

# Lettura del PDF
reader = PdfReader(pdf_file)

# Lista per salvare i dati estratti
data = []

# Itera sulle pagine del PDF
for page in reader.pages:
    text = page.extract_text()
    lines = text.split("\n")
    
    for line in lines:
        # Individua righe che contengono le colonne target
        parts = line.split()
        if len(parts) >= 9:  # Deve avere almeno 9 colonne
            cognome = parts[0]
            nome = parts[1]
            firme_entrata_reale = parts[-3]  # Terzultima colonna
            firme_uscita_reale = parts[-2]  # Penultima colonna

            data.append({
                "Cognome": cognome,
                "Nome": nome,
                "Firme Entrata Reale": firme_entrata_reale,
                "Firme Uscita Reale": firme_uscita_reale
            })

# Converti i dati in un DataFrame pandas per visualizzarli in tabella
df = pd.DataFrame(data)

# Mostra i dati estratti
print(df)

# Salva i dati in un file CSV per ulteriore verifica
output_file = "estratti_dati.csv"
df.to_csv(output_file, index=False)
print(f"I dati sono stati salvati nel file '{output_file}'.")
