DOMANDA Aiuto per convertire file HTML in JSON/CSV/XLSX

Xmas83

Utente Attivo
89
2
CPU
Pentium IV 2,8 GHz
Scheda Madre
Asus P4S8X-X
Hard Disk
80 + 320 GB
RAM
2 GB DDR
Scheda Video
ATI Radeon 9200
Scheda Audio
Creative
Monitor
Samsun SyncMaster 2032BW
Alimentatore
600 Watt
Case
Uno qualunque
Sistema Operativo
Windows XP Pro sp3
Ciao a tutti!
Ho un file HTML con domande a risposta multipla (una sola corretta) che vorrei convertire in un file JSON.
Nel file HTML i dati importanti sono:
- colonna TEXT in cui c'è la domanda (ad esempio, la prima: 1. In una polmonite da Staphylococcus aureus...);
- colonne TEXT in cui ci sono 5 risposte (a, b, c, d, e);
- colonna OK in cui c'è un numero da 1 a 5 che corrisponde alla risposta corretta tra le 5.

Ciò di cui avrei bisogno è convertire quel file HTML in un JSON con le regole di quello allegato (che riporta le prime due domande come esempio).
Se convertire in JSON è complicato, in alternativa si potrebbe convertire in CSV o in XLSX.
E' una cosa fattibile? Considerate che io proprio non saprei da dove iniziare...

P.S.: non riesco ad allegare i file, quindi potete scaricarli da qui.
 

cdtux

Utente Èlite
1,722
764
CPU
I7 3770
Scheda Madre
Asrock Z77 Extreme 4
Hard Disk
Samsung 850 pro 250GB
RAM
Corsair Vengeance LP 16GB
Scheda Video
EVGA GTX670 SC
Monitor
Dell U2412M
Alimentatore
Corsair TX850M
Case
Corsair Graphite 760T
Sistema Operativo
Debian / Kali Linux / Win
Puoi utilizzare un web scraper. Ad esempio per python c'è scrapy
Una volta estratti i dati che ti servono li puoi convertire in qualsiasi formato.
 

Xmas83

Utente Attivo
89
2
CPU
Pentium IV 2,8 GHz
Scheda Madre
Asus P4S8X-X
Hard Disk
80 + 320 GB
RAM
2 GB DDR
Scheda Video
ATI Radeon 9200
Scheda Audio
Creative
Monitor
Samsun SyncMaster 2032BW
Alimentatore
600 Watt
Case
Uno qualunque
Sistema Operativo
Windows XP Pro sp3
Purtroppo non sono proprio in grado di farlo... :(
 

cdtux

Utente Èlite
1,722
764
CPU
I7 3770
Scheda Madre
Asrock Z77 Extreme 4
Hard Disk
Samsung 850 pro 250GB
RAM
Corsair Vengeance LP 16GB
Scheda Video
EVGA GTX670 SC
Monitor
Dell U2412M
Alimentatore
Corsair TX850M
Case
Corsair Graphite 760T
Sistema Operativo
Debian / Kali Linux / Win
Allora mi sa tanto che o lo fai a mano, oppure paghi/trovi qualcuno che lo implementi per te.
 
  • Mi piace
Reactions: Xmas83

Silvio HW

Utente Attivo
418
66
CPU
FX9590 @5GHZ
Dissipatore
THERMALRIGHT SILVER ARROW
Scheda Madre
SABERTOOTH 990FX REV.1
Hard Disk
SSD 250GB WIN + 120 DATI
RAM
CORSAIR VEGANCE 4X4GB 1600MHZ CL9
Scheda Video
SLI GTX 580 1536MB PHANTOM
Alimentatore
CORSAIR RM1000I
Case
CORSAIR VEGANCE C70
Sistema Operativo
Windows 10 x64 ENTERPRISE
Purtroppo non sono proprio in grado di farlo... :(
Ciao potresti usare javascript , puoi prendere i dati partendo dall'elemento <tbody> per ogni riga("child") <tr> eliminando le prime due nel ciclo che esegui pre tutti i child dell'elemento.
ovviamente nel ciclo ti leggi i dati a sua volta delle colonne e te li salvi in un json e a fine ciclo scrivi il json in un file.

Non ho visto attentamente il json ma indifferentemente sta a te formattare i dati poi nei cicli o formattarli in seguito(dipende dalla tua esigenza).
 

Entra

oppure Accedi utilizzando

Discussioni Simili

Hot del momento