Scaricare intero sito web

lalalla

Nuovo Utente
Buongiorno a tutti,

come da titolo ho la necessità di scaricare un intero sito web (o meglio una grossa parte di esso). In pratica devo farne una copia locale.
Dalle mie ricerche in rete ho notato che ci sono alcuni programmi che lo fanno. Non ho potuto però risolvere queste problematche.

- Il sito di cui vorrei fare una copia locale è protetto da accesso username/password (di cui dispongo l'accesso). Per tanto devo "autenticare il programma"
- Il download non dovrebbe avvenire "tutto in un colpo solo" poichè -presumo che- il sito web sia protetto da sistemi "anti-copia"
- Vorrei limitare il download a tutti i link (e sottolink) presenti in una specifica parte della pagina web. (si tratta di ca. 1000 link principali)

Ringrazio anticipatamente per il vostro aiuto.
 

rctimelines

Utente Èlite
4,459
1,510
Hardware Utente
CPU
AMD Ryzen 7 2700X | INTEL i5-6600k | INTEL i5-4460... altri
Dissipatore
wraith MAX | Arctic Freezer 11LP | stock
Scheda Madre
Asrock Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
Hard Disk
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
Scheda Video
RadeonPro WX3100 4G | KFA2 GTX 970 4G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | Acer 24" FHD | Benq 19" FHD
Sistema Operativo
Windows10-pro64/OpenSUSE-QL42.3/Manjaro-17.0.2-KDE
Ma è un sito di tua proprietà e di cui sei autorizzato all'accesso? In ogni caso, se è un sito dinamico senza i database non fai molto.

Inviato dal mio Nexus 6P utilizzando Tapatalk
 

lalalla

Nuovo Utente
Il sito non è di mia proprietà, e sono autorizzato all'accesso.
Non è propriamente dinamico. In pratica il contenuto che mi interessa viene caricato. Si tratta di testo. Il problema è che sono davvero tante pagine con altrettanti riinvii interni.

io in pratica vorrei fare una copia offline di (una grossa parte) delle pagine.
 

rctimelines

Utente Èlite
4,459
1,510
Hardware Utente
CPU
AMD Ryzen 7 2700X | INTEL i5-6600k | INTEL i5-4460... altri
Dissipatore
wraith MAX | Arctic Freezer 11LP | stock
Scheda Madre
Asrock Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
Hard Disk
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
Scheda Video
RadeonPro WX3100 4G | KFA2 GTX 970 4G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | Acer 24" FHD | Benq 19" FHD
Sistema Operativo
Windows10-pro64/OpenSUSE-QL42.3/Manjaro-17.0.2-KDE
Prova intanto con qualche "spider" che ti tira giù le pagine staticamente e vedi se ti è sufficiente. Cerca "spider" tra i plugin di Firefox, un tempo c'era anche Spiderzilla, ma non so come funzionano ora, sono anni che non li uso.

Inviato dal mio Nexus 6P utilizzando Tapatalk
 

lalalla

Nuovo Utente
Se ti danno i dati di accesso scarichi tutto in ftp,scarichi il database e te lo metti in locale su xampp o simili
Sfortunatamente non ho accesso ftp

Prova intanto con qualche "spider" che ti tira giù le pagine staticamente e vedi se ti è sufficiente. Cerca "spider" tra i plugin di Firefox, un tempo c'era anche Spiderzilla, ma non so come funzionano ora, sono anni che non li uso.
Ho cercato tra i plugin ma con il termine "spider" non ho trovato niente. Ho trovato un plug-in (sempre per firefox) "Save Page WE" (idem "SingleFile | Save a page as a single HTML file") che fa esattamente quello di cui ho bisogno, ma sfortunatamente limitato alla pagina aperta in quel istatne (mentre io necessito di salvare in locale una grossa quantità di pagine, con ripettivi collegamenti [link]).
 

rctimelines

Utente Èlite
4,459
1,510
Hardware Utente
CPU
AMD Ryzen 7 2700X | INTEL i5-6600k | INTEL i5-4460... altri
Dissipatore
wraith MAX | Arctic Freezer 11LP | stock
Scheda Madre
Asrock Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
Hard Disk
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
Scheda Video
RadeonPro WX3100 4G | KFA2 GTX 970 4G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | Acer 24" FHD | Benq 19" FHD
Sistema Operativo
Windows10-pro64/OpenSUSE-QL42.3/Manjaro-17.0.2-KDE
In effetti Spiderzilla non c'è più da una decina d'anni. Prova

www.httrack.com è un "website copier"

Inviato dal mio Nexus 6P utilizzando Tapatalk
 
  • Mi piace
Reactions: Waveharp

Blume.

UTENTE LEGGENDARIO
Utente Èlite
19,908
8,542
Hardware Utente
CPU
I7 8700K
Dissipatore
Silent loop B-Quiet 360
Scheda Madre
Fatal1ty Z370 Gaming K6
Hard Disk
3 Tera su Western Digital 3 Tera su Toshiba p300 3Ssd da 500Gb
RAM
Corsair Vengeance DDR4 LPX 4X4Gb 2666Mhz
Scheda Video
Msi Gtx 1080Ti Gaming Trio X
Scheda Audio
Integrata
Monitor
SyncMaster P2470HD
Alimentatore
Evga Supernova 650W G2
Case
Dark Base 700 B-Quiet
Internet
100/50 Ftth Fastweb
Sistema Operativo
Windows 10Pro. 64Bit
Sono in formato pdf con protezione DRM?
 

Blume.

UTENTE LEGGENDARIO
Utente Èlite
19,908
8,542
Hardware Utente
CPU
I7 8700K
Dissipatore
Silent loop B-Quiet 360
Scheda Madre
Fatal1ty Z370 Gaming K6
Hard Disk
3 Tera su Western Digital 3 Tera su Toshiba p300 3Ssd da 500Gb
RAM
Corsair Vengeance DDR4 LPX 4X4Gb 2666Mhz
Scheda Video
Msi Gtx 1080Ti Gaming Trio X
Scheda Audio
Integrata
Monitor
SyncMaster P2470HD
Alimentatore
Evga Supernova 650W G2
Case
Dark Base 700 B-Quiet
Internet
100/50 Ftth Fastweb
Sistema Operativo
Windows 10Pro. 64Bit
  • Mi piace
Reactions: lalalla

rctimelines

Utente Èlite
4,459
1,510
Hardware Utente
CPU
AMD Ryzen 7 2700X | INTEL i5-6600k | INTEL i5-4460... altri
Dissipatore
wraith MAX | Arctic Freezer 11LP | stock
Scheda Madre
Asrock Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
Hard Disk
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
Scheda Video
RadeonPro WX3100 4G | KFA2 GTX 970 4G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | Acer 24" FHD | Benq 19" FHD
Sistema Operativo
Windows10-pro64/OpenSUSE-QL42.3/Manjaro-17.0.2-KDE
Ho già avuto modo di provarlo. Sfortunatamente non risesco a risolvere la problematica dell'autenticazione per l'accessio al sito web e per tanto non riesco a scaricare niente.
Cosa c'entra l'autenticazione? Hai detto che sei autorizzato ad accedere al sito.

Inviato dal mio Nexus 6P utilizzando Tapatalk
 

lalalla

Nuovo Utente
Cosa c'entra l'autenticazione? Hai detto che sei autorizzato ad accedere al sito.

Inviato dal mio Nexus 6P utilizzando Tapatalk
Confermo. Io sono autorizzato ad accedere al sito. Il problema consiste nell'autorizzazione del programma ad accedere (loggarsi) al sito, per poter scaricarne il contenuto. In pratica devo istruire il programma per eseguire il login (senza che lo faccia manualmente io), altrimenti non posso scaricare nulla in automatico
 

rctimelines

Utente Èlite
4,459
1,510
Hardware Utente
CPU
AMD Ryzen 7 2700X | INTEL i5-6600k | INTEL i5-4460... altri
Dissipatore
wraith MAX | Arctic Freezer 11LP | stock
Scheda Madre
Asrock Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
Hard Disk
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
Scheda Video
RadeonPro WX3100 4G | KFA2 GTX 970 4G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | Acer 24" FHD | Benq 19" FHD
Sistema Operativo
Windows10-pro64/OpenSUSE-QL42.3/Manjaro-17.0.2-KDE
No, era per dire che "webcopy" funziona allo stesso modo. Inoltre se vedi nella definizione del progetto è prevista la possibilità di fare il login automatico.. ma cosa hai provato?!?

Almeno, io l'ho provato per curiosità visti che c'è pure una versione portable, e mi funziona tranquillamente anche su sito dove è richiesto l'accesso.
Si, è un po' spartano. Ma va

Cyotek webcopy ha un'interfaccia decisamente migliore e più opzioni. Mi ha anche dato più errori però, e anche un sito piuttosto semplice semplice non è riuscito a completarlo.

Inviato dal mio Nexus 6P utilizzando Tapatalk
 
Ultima modifica:

Entra

oppure Accedi utilizzando