Google a lansat recent modelele Gemma 4, iar un detaliu tehnic important atrage atenția: acestea folosesc un truc de antrenament numit quantization-aware training (QAT) pentru a reduce semnificativ amprenta de memorie atunci când rulează local, pe dispozitive.
Ce este quantization-aware training?
Quantization-aware training este o tehnică prin care modelul este antrenat să funcționeze bine chiar și după ce valorile numerice (ponderi și activări) sunt reduse de la 32 de biți (floating point) la 8 sau 4 biți. Spre deosebire de cuantizarea post-antrenament, care poate degrada acuratețea, QAT integrează acest „zgomot” încă din faza de instruire, astfel încât modelul învață să compenseze pierderile de precizie.
De ce contează acest lucru?
Modelele AI tradiționale necesită multă memorie RAM și putere de calcul, ceea ce le face greu de utilizat pe telefoane, laptopuri sau dispozitive IoT. Prin aplicarea QAT, Gemma 4 poate rula mai eficient pe hardware modest, fără a sacrifica prea mult din calitatea răspunsurilor. Pentru utilizatori, asta înseamnă aplicații AI mai rapide, mai puțin consum de baterie și posibilitatea de a folosi modele avansate chiar și fără conexiune la internet.
Implicații practice
Reducerea memoriei necesare permite integrarea acestor modele în asistenți vocali, aplicații de productivitate sau chiar sisteme embedded. Dezvoltatorii pot astfel oferi funcții AI puternice fără a forța hardware-ul utilizatorilor. De asemenea, performanța rămâne competitivă: testele interne arată că modelele QAT ale Gemma 4 păstrează o acuratețe similară cu versiunile necuantizate, dar ocupă de până la 4 ori mai puțin spațiu în memorie.
Concluzie
Cu acest truc de antrenament, Gemma 4 devine un candidat puternic pentru AI-ul pe dispozitiv. Rămâne de văzut cât de repede vor adopta și alte companii această tehnică, dar direcția este clară: modele mai ușoare, mai rapide și mai accesibile.