În era agenților AI, capacitatea unui model de limbaj de a apela corect instrumente externe (tool-calling) face diferența între un asistent util și unul care greșește constant. Amazon Web Services arată, într-un articol recent, cum poți îmbunătăți semnificativ această abilitate la modelele mici (SLM) folosind două tehnici complementare: Supervised Fine-Tuning (SFT) și Direct Preference Optimization (DPO). Totul, pe Amazon SageMaker AI, fără să-ți bați capul cu infrastructura.
Problema: modelele mici greșesc des la tool-calling
Modelele de limbaj mici sunt populare pentru costuri reduse și viteză, dar au dificultăți în a identifica corect ce instrument să apeleze și cu ce parametri. De exemplu, un agent care trebuie să caute în baza de date sau să trimită un email poate alege greșit funcția sau poate completa parametri eronați. Aici intervin SFT și DPO.
Cum funcționează SFT și DPO împreună
Supervised Fine-Tuning (SFT) învață modelul pe exemple etichetate de apeluri corecte de instrumente. Practic, i se arată perechi (întrebare, apel corect) și se ajustează ponderile. Direct Preference Optimization (DPO) merge mai departe: în loc să eticheteze fiecare răspuns, compară două variante – una corectă și una greșită – și învață modelul să prefere cea corectă. Combinarea celor două oferă un salt în acuratețe, mai ales în scenarii unde datele etichetate sunt puține.
Implementare pe Amazon SageMaker AI
Amazon SageMaker AI simplifică tot procesul. Poți lansa joburi de training fără să gestionezi servere, iar articolul oferă cod Python gata de folosit. Se pleacă de la un SLM de bază (de exemplu, un model Llama 2 7B), se aplică SFT pe un set de date cu exemple de tool-calling, apoi DPO pe preferințe generate automat. Evaluarea se face cu metrici personalizate care măsoară cât de des modelul alege instrumentul corect și completează corect parametrii.
Rezultate: creștere semnificativă a acurateții
Testele arată că fine-tuningul combinat SFT+DPO îmbunătățește acuratețea tool-calling cu până la 20-30% față de modelul de bază, în funcție de complexitatea sarcinilor. Mai important, modelul rămâne suficient de mic pentru a rula rapid, făcându-l potrivit pentru aplicații real-time.
Concluzie practică pentru dezvoltatori
Dacă construiești agenți AI cu modele mici și ai nevoie de tool-calling de încredere, SFT+DPO pe SageMaker AI este o soluție testată. Tot ce ai nevoie sunt date de antrenament și acces la serviciu. Rezultatul: un agent mai precis, care nu mai confundă funcțiile și îți scutește ore de debugging.