Aiuto per convertire file HTML in JSON/CSV/XLSX

Stato
Discussione chiusa ad ulteriori risposte.

Xmas83

Utente Attivo
96
2
CPU
Pentium IV 2,8 GHz
Scheda Madre
Asus P4S8X-X
HDD
80 + 320 GB
RAM
2 GB DDR
GPU
ATI Radeon 9200
Audio
Creative
Monitor
Samsun SyncMaster 2032BW
PSU
600 Watt
Case
Uno qualunque
OS
Windows XP Pro sp3
Ciao a tutti!
Ho un file HTML con domande a risposta multipla (una sola corretta) che vorrei convertire in un file JSON.
Nel file HTML i dati importanti sono:
- colonna TEXT in cui c'è la domanda (ad esempio, la prima: 1. In una polmonite da Staphylococcus aureus...);
- colonne TEXT in cui ci sono 5 risposte (a, b, c, d, e);
- colonna OK in cui c'è un numero da 1 a 5 che corrisponde alla risposta corretta tra le 5.

Ciò di cui avrei bisogno è convertire quel file HTML in un JSON con le regole di quello allegato (che riporta le prime due domande come esempio).
Se convertire in JSON è complicato, in alternativa si potrebbe convertire in CSV o in XLSX.
E' una cosa fattibile? Considerate che io proprio non saprei da dove iniziare...

P.S.: non riesco ad allegare i file, quindi potete scaricarli da qui.
 

cdtux

Utente Èlite
1,829
911
CPU
I7 3770
Scheda Madre
Asrock Z77 Extreme 4
HDD
Samsung 850 pro 250GB
RAM
Corsair Vengeance LP 16GB
GPU
Gigabyte GTX1060 6GB
Monitor
Dell U2412M
PSU
Seasonic Focus Plus 650
Case
Corsair Graphite 760T
OS
Debian / Ubuntu
Puoi utilizzare un web scraper. Ad esempio per python c'è scrapy
Una volta estratti i dati che ti servono li puoi convertire in qualsiasi formato.
 

Xmas83

Utente Attivo
96
2
CPU
Pentium IV 2,8 GHz
Scheda Madre
Asus P4S8X-X
HDD
80 + 320 GB
RAM
2 GB DDR
GPU
ATI Radeon 9200
Audio
Creative
Monitor
Samsun SyncMaster 2032BW
PSU
600 Watt
Case
Uno qualunque
OS
Windows XP Pro sp3
Purtroppo non sono proprio in grado di farlo... :(
 

cdtux

Utente Èlite
1,829
911
CPU
I7 3770
Scheda Madre
Asrock Z77 Extreme 4
HDD
Samsung 850 pro 250GB
RAM
Corsair Vengeance LP 16GB
GPU
Gigabyte GTX1060 6GB
Monitor
Dell U2412M
PSU
Seasonic Focus Plus 650
Case
Corsair Graphite 760T
OS
Debian / Ubuntu
Allora mi sa tanto che o lo fai a mano, oppure paghi/trovi qualcuno che lo implementi per te.
 
  • Mi piace
Reazioni: Xmas83

Silvio HW

Utente Attivo
418
66
CPU
FX9590 @5GHZ
Dissipatore
THERMALRIGHT SILVER ARROW
Scheda Madre
SABERTOOTH 990FX REV.1
HDD
SSD 250GB WIN + 120 DATI
RAM
CORSAIR VEGANCE 4X4GB 1600MHZ CL9
GPU
SLI GTX 580 1536MB PHANTOM
PSU
CORSAIR RM1000I
Case
CORSAIR VEGANCE C70
OS
Windows 10 x64 ENTERPRISE
Purtroppo non sono proprio in grado di farlo... :(
Ciao potresti usare javascript , puoi prendere i dati partendo dall'elemento <tbody> per ogni riga("child") <tr> eliminando le prime due nel ciclo che esegui pre tutti i child dell'elemento.
ovviamente nel ciclo ti leggi i dati a sua volta delle colonne e te li salvi in un json e a fine ciclo scrivi il json in un file.

Non ho visto attentamente il json ma indifferentemente sta a te formattare i dati poi nei cicli o formattarli in seguito(dipende dalla tua esigenza).
 
Stato
Discussione chiusa ad ulteriori risposte.

Entra

oppure Accedi utilizzando
Discord Ufficiale Entra ora!