Cum îți antrenezi un model AI mic să sune instrumentele cu precizie pe SageMaker

Un ghid practic despre cum să îmbunătățești acuratețea apelării instrumentelor într-un model de limbaj mic, folosind Supervised Fine-Tuning și Direct Preference Optimization pe Amazon SageMaker AI.

TI 7 iunie 2026 4 min read

Publicat 7 iunie 2026

Timp lectura 4 min

Surse agregate 1

Primeste Tech Brief →

În era agenților AI, capacitatea unui model de limbaj de a apela corect instrumente externe (tool-calling) face diferența între un asistent util și unul care greșește constant. Amazon Web Services arată, într-un articol recent, cum poți îmbunătăți semnificativ această abilitate la modelele mici (SLM) folosind două tehnici complementare: Supervised Fine-Tuning (SFT) și Direct Preference Optimization (DPO). Totul, pe Amazon SageMaker AI, fără să-ți bați capul cu infrastructura.

Problema: modelele mici greșesc des la tool-calling

Modelele de limbaj mici sunt populare pentru costuri reduse și viteză, dar au dificultăți în a identifica corect ce instrument să apeleze și cu ce parametri. De exemplu, un agent care trebuie să caute în baza de date sau să trimită un email poate alege greșit funcția sau poate completa parametri eronați. Aici intervin SFT și DPO.

Cum funcționează SFT și DPO împreună

Supervised Fine-Tuning (SFT) învață modelul pe exemple etichetate de apeluri corecte de instrumente. Practic, i se arată perechi (întrebare, apel corect) și se ajustează ponderile. Direct Preference Optimization (DPO) merge mai departe: în loc să eticheteze fiecare răspuns, compară două variante – una corectă și una greșită – și învață modelul să prefere cea corectă. Combinarea celor două oferă un salt în acuratețe, mai ales în scenarii unde datele etichetate sunt puține.

Implementare pe Amazon SageMaker AI

Amazon SageMaker AI simplifică tot procesul. Poți lansa joburi de training fără să gestionezi servere, iar articolul oferă cod Python gata de folosit. Se pleacă de la un SLM de bază (de exemplu, un model Llama 2 7B), se aplică SFT pe un set de date cu exemple de tool-calling, apoi DPO pe preferințe generate automat. Evaluarea se face cu metrici personalizate care măsoară cât de des modelul alege instrumentul corect și completează corect parametrii.

Rezultate: creștere semnificativă a acurateții

Testele arată că fine-tuningul combinat SFT+DPO îmbunătățește acuratețea tool-calling cu până la 20-30% față de modelul de bază, în funcție de complexitatea sarcinilor. Mai important, modelul rămâne suficient de mic pentru a rula rapid, făcându-l potrivit pentru aplicații real-time.

Concluzie practică pentru dezvoltatori

Dacă construiești agenți AI cu modele mici și ai nevoie de tool-calling de încredere, SFT+DPO pe SageMaker AI este o soluție testată. Tot ce ai nevoie sunt date de antrenament și acces la serviciu. Rezultatul: un agent mai precis, care nu mai confundă funcțiile și îți scutește ore de debugging.

Distribuie

Problema: modelele mici greșesc des la tool-calling

Cum funcționează SFT și DPO împreună

Implementare pe Amazon SageMaker AI

Rezultate: creștere semnificativă a acurateții

Concluzie practică pentru dezvoltatori

Pe acelasi subiect

Cele mai importante stiri tech, intr-un format scurt.