Heghemòn
Utente Attivo
- Messaggi
- 942
- Reazioni
- 158
- Punteggio
- 70
Salve,
sto affrontando un corso di laura in Statistica per l'analisi dei dati. Quello che farò, sarà analizzare quantità molto grandi di dati (un mio professore raccontava di aver lavorato su una matrice di dati 1.000.000 x 1.000.000). Questi dati dovranno essere combinati, elaborati e testati tramite diversi indici matematici che, nonostante i computer siano ottimi calcolatori, sono pesanti anche per un pc (delle volte alcuni risultati vengono restituiti dopo più di un giorno).
L'analisi verrà effettuata su software specifici quali R, che sono veri e propri linguaggi di programmazione statistica.
Vi faccio un esempio: oggi (con la configurazione del mio profilo) ho simulato un'analisi banalissima, generando un set di 1.000.000 di dati da una distribuzione di probabilità, e ho chiesto al software SOLAMENTE di rappresentare il grafico della distribuzione. Il pc è stato un 5/6 minuti bloccato, dopo ha interrotto e chiuso il programma, senza darmi nessun risultato. Inoltre, chiedendo una generazione consistente di dati, mi viene restituito il seguente messaggio:
La mia domanda è la seguente: immagino che per poter lavorare, non potrò cavarmela con un pc qualunque, soprattutto perchè non potrò aspettare troppo tempo per alcuni risultati.
Quali sono i punti sulla quale devo spendere maggiormente il mio budget che stanzierò?
sto affrontando un corso di laura in Statistica per l'analisi dei dati. Quello che farò, sarà analizzare quantità molto grandi di dati (un mio professore raccontava di aver lavorato su una matrice di dati 1.000.000 x 1.000.000). Questi dati dovranno essere combinati, elaborati e testati tramite diversi indici matematici che, nonostante i computer siano ottimi calcolatori, sono pesanti anche per un pc (delle volte alcuni risultati vengono restituiti dopo più di un giorno).
L'analisi verrà effettuata su software specifici quali R, che sono veri e propri linguaggi di programmazione statistica.
Vi faccio un esempio: oggi (con la configurazione del mio profilo) ho simulato un'analisi banalissima, generando un set di 1.000.000 di dati da una distribuzione di probabilità, e ho chiesto al software SOLAMENTE di rappresentare il grafico della distribuzione. Il pc è stato un 5/6 minuti bloccato, dopo ha interrotto e chiuso il programma, senza darmi nessun risultato. Inoltre, chiedendo una generazione consistente di dati, mi viene restituito il seguente messaggio:
Errore: cannot allocate vector of size 7.5 Gb
Inoltre: Warning messages:
1: In rnorm(1e+09) :
Reached total allocation of 4060Mb
Inoltre: Warning messages:
1: In rnorm(1e+09) :
Reached total allocation of 4060Mb
La mia domanda è la seguente: immagino che per poter lavorare, non potrò cavarmela con un pc qualunque, soprattutto perchè non potrò aspettare troppo tempo per alcuni risultati.
Quali sono i punti sulla quale devo spendere maggiormente il mio budget che stanzierò?