[DOMANDA] PDF

  • 11 Dicembre, ore 15:00, è prevista una manutenzione del server. Alcuni dati (messaggi, like etc... ) potranno non essere memorizzati.
    Scopri di più
#1
Buona sera,

ho questa esigenza, ho un file PDF di una fattura, avrei bisogno di manipolarlo al fine di archiviare i dati imponibile, iva, totale, in un files tipo excel,

posso creare un programmino che mi acquisisce i dati?

Quale linguaggio devo usare?

Non devo modificare il pdf, ma solo trascrivere i dati in un archivio.

grazie.

buonasera
 

rctimelines

Utente Attivo
2,894
734
Hardware Utente
CPU
i7 3770
Dissipatore
stock intel
Scheda Madre
Gigabyte GA-H67A-UD3H-B3
Hard Disk
SSD SAMSUNG 850EVO 250GB + HDD WD GREEN CAVIAR 2TB
RAM
16GB = Corsair XMS3 4x4GB DDR3 1600MHz CL9
Scheda Video
ATI Firepro V7900 2GB
Scheda Audio
Soundblaster X-Fi
Monitor
HP 27'' + Benq 19''
Sistema Operativo
Windows10-pro64/OpenSUSE-QL42.3/Manjaro-17.0.2-KDE
#2
Buona sera,

ho questa esigenza, ho un file PDF di una fattura, avrei bisogno di manipolarlo al fine di archiviare i dati imponibile, iva, totale, in un files tipo excel,

posso creare un programmino che mi acquisisce i dati?

Quale linguaggio devo usare?

Non devo modificare il pdf, ma solo trascrivere i dati in un archivio.

grazie.

buonasera
Si, un file PDF è scritto in linguaggio postscript, ma non credo che valga la pena cimentarsi in un'impresa simile visto che esistono infinità di software che permettono di fare queste cose.


Inviato dal mio Nexus 5 utilizzando Tapatalk
 

Andretti60

Utente Attivo
2,718
1,786
Hardware Utente
#3
Non hai specificato che sistema operativo usi e che linguaggio vuoi usare.

Esistono molte applicazioni che convertono un file PDF in un semplice file di testo, estraendo il testo e scartando la formattazione. Il formato PDF e' proprieta' di Adobe, quindi se cambiano il formato e' possibile che quelle applicaziono non funzionino piu'. Se pero' il file e' uno scan di un documento, il formato e' una immagine e quindi occorrono programmi piu' sofisticati che includono un algoritmo OCR (optical character recognition).
Esistono anche librerie che fanno quel lavoro, per esempio PyPDF2 e textract per Python. Poi ovviamenete devi scrivere un po' di codice per "trovare" e esportare i dati che vuoi. Non per nulla ho citato Python, e' un linguaggio apposta per questo tipo di operazioni.

Se il documento e' un documento di testo, puoi aprirlo con un qualsiasi Adobe PDF Reader, selezioni il testo che vuoi con il mouse e fai taglia e cuci su Excel :)

Insomma, in teoria e' possibile, ma non sara' certo un "programmino" di due righe.
 
Mi Piace: enricovela

rctimelines

Utente Attivo
2,894
734
Hardware Utente
CPU
i7 3770
Dissipatore
stock intel
Scheda Madre
Gigabyte GA-H67A-UD3H-B3
Hard Disk
SSD SAMSUNG 850EVO 250GB + HDD WD GREEN CAVIAR 2TB
RAM
16GB = Corsair XMS3 4x4GB DDR3 1600MHz CL9
Scheda Video
ATI Firepro V7900 2GB
Scheda Audio
Soundblaster X-Fi
Monitor
HP 27'' + Benq 19''
Sistema Operativo
Windows10-pro64/OpenSUSE-QL42.3/Manjaro-17.0.2-KDE
#4
Il PDF è comunque un formato aperto e standard ISO (per volontà e interesse di Adobe che lo ha inventato e che ne possiede brevetti) per cui il problema di modifiche o cambiamenti radicali lo vedo molto remoto se non impossibile.

Le immagini vengono codificate semplicemente in jpg e, in effetti, se il documento viene prodotto da scanner la trasformazione diventa più difficile, anche se le capacità degli OCR oggi sono davvero notevoli e molti software di lettura di PDF li incorporano. Ci sono anche molti servizi online gratuiti per la conversione.

Personalmente sono anni che, per esigenze di lavoro, utilizzo Adobe Acrobat (che però costa un occhio) e ho tutte le funzionalità che mi servono senza alcuna limitazione. Mi capita spesso anche di aprire disegni in PDF con illustrator per convertirli in vettoriali per CAD.

Inviato dal mio Nexus 5 utilizzando Tapatalk
 
#5
Il linguaggio che ti consiglio, per questo tipo di programmi, è Python perché ci sono moltissime librerie facili da utilizzare e soprattutto documentate. Se il file in questione contiene del testo e non immagini (in quel caso come ti hanno detto sopra devi usare gli OCR), puoi utilizzare pdfminer (qui) per estrarre dati.
 
#6
Il files sono pdf che contengono fatture, da cui dovrei estrapolare imponibile, iva, totale, trattandosi di fatture di bollette o bisogno di estrapolare dati della fornitura, storico consumi, ecc.

Si puo' fare anche in java o vb? o solo python?
Grazie.
 
#7
Il programma puoi farlo con qualsiasi linguaggio di programmazione. La cosa che devi attenzionare nel tuo caso è la libreria esterna che utilizzerai per estrarre questi dati dal file pdf. Nel caso di Python ce ne sono molte e sono ampiamente documentate. Nel caso di java ho trovato la libreria pdfbox (qui), ma ti consiglio comunque di fare una ricerca su google per avere una panoramica generale (cerca "java pdf text extractor library" o qualcosa del genere)