Scaricare intero sito web

lalalla

Nuovo Utente
33
3
Buongiorno a tutti,

come da titolo ho la necessità di scaricare un intero sito web (o meglio una grossa parte di esso). In pratica devo farne una copia locale.
Dalle mie ricerche in rete ho notato che ci sono alcuni programmi che lo fanno. Non ho potuto però risolvere queste problematche.

- Il sito di cui vorrei fare una copia locale è protetto da accesso username/password (di cui dispongo l'accesso). Per tanto devo "autenticare il programma"
- Il download non dovrebbe avvenire "tutto in un colpo solo" poichè -presumo che- il sito web sia protetto da sistemi "anti-copia"
- Vorrei limitare il download a tutti i link (e sottolink) presenti in una specifica parte della pagina web. (si tratta di ca. 1000 link principali)

Ringrazio anticipatamente per il vostro aiuto.
 

rctimelines

Utente Èlite
5,144
2,023
CPU
Ryzen 7 2700X | i7-6700k@4.5 | i5-4460... altri
Dissipatore
wraith MAX | Scythe Katana2|Arctic Freezer 11LP
Scheda Madre
Asrock B450 Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
HDD
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
GPU
RadeonPro WX3100 4G | ZOTAC GTX 1070 8G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | LG Ultrawide 27''
Net
fibra 1000
OS
Windows10-pro64/OpenSUSE-QL15.1/Debian 10.3
Ma è un sito di tua proprietà e di cui sei autorizzato all'accesso? In ogni caso, se è un sito dinamico senza i database non fai molto.

Inviato dal mio Nexus 6P utilizzando Tapatalk
 

lalalla

Nuovo Utente
33
3
Il sito non è di mia proprietà, e sono autorizzato all'accesso.
Non è propriamente dinamico. In pratica il contenuto che mi interessa viene caricato. Si tratta di testo. Il problema è che sono davvero tante pagine con altrettanti riinvii interni.

io in pratica vorrei fare una copia offline di (una grossa parte) delle pagine.
 

r3dl4nce

Utente Èlite
16,851
9,208
Se ti danno i dati di accesso scarichi tutto in ftp,scarichi il database e te lo metti in locale su xampp o simili
 

rctimelines

Utente Èlite
5,144
2,023
CPU
Ryzen 7 2700X | i7-6700k@4.5 | i5-4460... altri
Dissipatore
wraith MAX | Scythe Katana2|Arctic Freezer 11LP
Scheda Madre
Asrock B450 Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
HDD
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
GPU
RadeonPro WX3100 4G | ZOTAC GTX 1070 8G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | LG Ultrawide 27''
Net
fibra 1000
OS
Windows10-pro64/OpenSUSE-QL15.1/Debian 10.3
Prova intanto con qualche "spider" che ti tira giù le pagine staticamente e vedi se ti è sufficiente. Cerca "spider" tra i plugin di Firefox, un tempo c'era anche Spiderzilla, ma non so come funzionano ora, sono anni che non li uso.

Inviato dal mio Nexus 6P utilizzando Tapatalk
 

lalalla

Nuovo Utente
33
3
Se ti danno i dati di accesso scarichi tutto in ftp,scarichi il database e te lo metti in locale su xampp o simili
Sfortunatamente non ho accesso ftp

Prova intanto con qualche "spider" che ti tira giù le pagine staticamente e vedi se ti è sufficiente. Cerca "spider" tra i plugin di Firefox, un tempo c'era anche Spiderzilla, ma non so come funzionano ora, sono anni che non li uso.

Ho cercato tra i plugin ma con il termine "spider" non ho trovato niente. Ho trovato un plug-in (sempre per firefox) "Save Page WE" (idem "SingleFile | Save a page as a single HTML file") che fa esattamente quello di cui ho bisogno, ma sfortunatamente limitato alla pagina aperta in quel istatne (mentre io necessito di salvare in locale una grossa quantità di pagine, con ripettivi collegamenti [link]).
 

rctimelines

Utente Èlite
5,144
2,023
CPU
Ryzen 7 2700X | i7-6700k@4.5 | i5-4460... altri
Dissipatore
wraith MAX | Scythe Katana2|Arctic Freezer 11LP
Scheda Madre
Asrock B450 Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
HDD
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
GPU
RadeonPro WX3100 4G | ZOTAC GTX 1070 8G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | LG Ultrawide 27''
Net
fibra 1000
OS
Windows10-pro64/OpenSUSE-QL15.1/Debian 10.3
In effetti Spiderzilla non c'è più da una decina d'anni. Prova

www.httrack.com è un "website copier"

Inviato dal mio Nexus 6P utilizzando Tapatalk
 

Blume.

Moderatore
Staff Forum
Utente Èlite
24,435
11,267
CPU
I7 8700K
Dissipatore
Silent loop B-Quiet 360
Scheda Madre
Fatal1ty Z370 Gaming K6
HDD
3 Tera su Western Digital 3 Tera su Toshiba p300 3Ssd da 500Gb
RAM
Corsair Vengeance DDR4 LPX 4X4Gb 2666Mhz
GPU
Msi Gtx 1080Ti Gaming Trio X
Audio
Integrata
Monitor
SyncMaster P2470HD
PSU
Evga Supernova 650W G2
Case
Dark Base 700 B-Quiet
Net
100/50 Ftth Fastweb
OS
Windows 10Pro. 64Bit
Sono in formato pdf con protezione DRM?
 

lalalla

Nuovo Utente
33
3
Sono in formato pdf con protezione DRM?

No si tratta proprio di un sito web, con molte pagine. Non si tratta di PDF con protezione DRM.
Il sito continene - per altro- a sua volta dei file pdf, i quali però non sono protetti da DRM.
è il sito stesso a essere protetto (login + accesso in proxy)
 

Blume.

Moderatore
Staff Forum
Utente Èlite
24,435
11,267
CPU
I7 8700K
Dissipatore
Silent loop B-Quiet 360
Scheda Madre
Fatal1ty Z370 Gaming K6
HDD
3 Tera su Western Digital 3 Tera su Toshiba p300 3Ssd da 500Gb
RAM
Corsair Vengeance DDR4 LPX 4X4Gb 2666Mhz
GPU
Msi Gtx 1080Ti Gaming Trio X
Audio
Integrata
Monitor
SyncMaster P2470HD
PSU
Evga Supernova 650W G2
Case
Dark Base 700 B-Quiet
Net
100/50 Ftth Fastweb
OS
Windows 10Pro. 64Bit
  • Mi piace
Reazioni: lalalla

rctimelines

Utente Èlite
5,144
2,023
CPU
Ryzen 7 2700X | i7-6700k@4.5 | i5-4460... altri
Dissipatore
wraith MAX | Scythe Katana2|Arctic Freezer 11LP
Scheda Madre
Asrock B450 Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
HDD
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
GPU
RadeonPro WX3100 4G | ZOTAC GTX 1070 8G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | LG Ultrawide 27''
Net
fibra 1000
OS
Windows10-pro64/OpenSUSE-QL15.1/Debian 10.3
Ho già avuto modo di provarlo. Sfortunatamente non risesco a risolvere la problematica dell'autenticazione per l'accessio al sito web e per tanto non riesco a scaricare niente.
Cosa c'entra l'autenticazione? Hai detto che sei autorizzato ad accedere al sito.

Inviato dal mio Nexus 6P utilizzando Tapatalk
 

lalalla

Nuovo Utente
33
3
Cosa c'entra l'autenticazione? Hai detto che sei autorizzato ad accedere al sito.

Inviato dal mio Nexus 6P utilizzando Tapatalk
Confermo. Io sono autorizzato ad accedere al sito. Il problema consiste nell'autorizzazione del programma ad accedere (loggarsi) al sito, per poter scaricarne il contenuto. In pratica devo istruire il programma per eseguire il login (senza che lo faccia manualmente io), altrimenti non posso scaricare nulla in automatico
 

rctimelines

Utente Èlite
5,144
2,023
CPU
Ryzen 7 2700X | i7-6700k@4.5 | i5-4460... altri
Dissipatore
wraith MAX | Scythe Katana2|Arctic Freezer 11LP
Scheda Madre
Asrock B450 Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
HDD
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
GPU
RadeonPro WX3100 4G | ZOTAC GTX 1070 8G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | LG Ultrawide 27''
Net
fibra 1000
OS
Windows10-pro64/OpenSUSE-QL15.1/Debian 10.3
No, era per dire che "webcopy" funziona allo stesso modo. Inoltre se vedi nella definizione del progetto è prevista la possibilità di fare il login automatico.. ma cosa hai provato?!?

Almeno, io l'ho provato per curiosità visti che c'è pure una versione portable, e mi funziona tranquillamente anche su sito dove è richiesto l'accesso.
Si, è un po' spartano. Ma va

Cyotek webcopy ha un'interfaccia decisamente migliore e più opzioni. Mi ha anche dato più errori però, e anche un sito piuttosto semplice semplice non è riuscito a completarlo.

Inviato dal mio Nexus 6P utilizzando Tapatalk
 
Ultima modifica:

Entra

oppure Accedi utilizzando
Discord Ufficiale Entra ora!