Ragazzi, non è un progetto così assurdo come pensavamo e anche se non si autorizza inferenza in cloud, il modello specializzato sarà ugualmente valido e anzi ho idea che mi stupirà. Riassumendo, la paura è che l'addestramento a 4 bit non fosse preciso e questo è sacrosanto. Per questa ragione pensavo più ad un RAG in modo che l'inferenza avesse sempre a disposizione informazioni pertinenti nel contesto. Poi mi sono reso conto che la specializzazione del modello è uno strato a 16bit. Il peso in VRAM aumenta in maniera trascurabile perchè il grosso generalista è congelato in 4bit, ma la specializzazione la sta stratificando in 16bit con inferenza maggiormente precisa proprio per il dominio che mi interessa. A questo punto miglioro il dataset con qualche altro migliaio di Q/A, codici e libri e per me il RAG diventerà il minimo indispensabile per evitare di fare qlora troppo frequenti.
Sempre grazie
Sempre grazie