Vajadzēja būt 2025 gads "AI aģenti," Pēc NVIDIA izpilddirektora Jensena Huanga un citu AI nozares darbinieku teiktā. Un tas daudzējādā ziņā ir bijis daudzi vadošie AI modeļu pakalpojumu sniedzēji, piemēram, Openai, Google un pat ķīniešu konkurenti, piemēram, Alibaba, izlaižot precīzi pielāgotus AI modeļus vai lietojumprogrammas, kas paredzētas, lai koncentrētos uz šauru uzdevumu kopumu, piemēram, tīmekļa meklēšanu un ziņojumu rakstīšanu.
Guess viens liels šķērslis ļoti veiksmīgu, uzticamu AI aģentu nākotnei joprojām ir: liek viņiem palikt pie uzdevuma, kad uzdevums paplašinās vairākās darbībās. Trešās puses etalona testi Parādiet pat visspēcīgākos AI modeļus, kas piedzīvo augstāku kļūmju līmeni, jo vairāk pasākumu viņi veic, lai veiktu uzdevumu, un jo ilgāks laiks tam pavada (pārsniedzot stundas).
Izšķirt Jauns akadēmiskais ietvars ar nosaukumu Eaglet Ierosina praktisku un efektīvu metodi, lai uzlabotu tālsatiksmes uzdevumu veiktspēju LLM balstītos aģentos-bez nepieciešamības pēc manuālas datu marķēšanas vai pārkvalifikācijas.
Izstrādājis pētnieki no Tsinghua universitātes, Pekinas universitātes, Deeplangas AI un Ilinoisas Urbana-Champaign universitātes, Eaglet piedāvā a "globālais plānotājs" To var integrēt esošajā aģenta darbplūsmā, lai samazinātu halucinācijas un uzlabotu uzdevuma efektivitāti.
EAGLET ir precīzi noregulēts valodas modelis, kas interpretē uzdevumu instrukcijas-parasti kā lietotāja vai aģenta darbības vides piedāvātās uzvednes-un ģenerē augsta līmeņa plānu aģentam (kuru darbina pats LLM). Tas neiejaucas izpildes laikā, wager tā sākotnējie norādījumi palīdz samazināt plānošanas kļūdas un uzlabot uzdevuma pabeigšanas likmes.
Plānošanas problēmas risināšana tālsatiksmes aģentos
Daudzi LLM balstīti aģenti cīnās ar tālsatiksmes uzdevumiem, jo viņi paļaujas uz reaktīvu, soli pa solim argumentāciju. Šī pieeja bieži noved pie izmēģinājumu un kļūdu izturēšanās, halucināciju plānošanas un neefektīvām trajektorijām.
Eaglet risina šo ierobežojumu, ieviešot a Globālais plānošanas modulis Tas darbojas līdzās izpildītāja aģentam.
Tā vietā, lai sajauktu plānošanu un darbības ģenerēšanu vienā modelī, Eaglet tos atdala, ļaujot saskaņotākām, uzdevuma līmeņa stratēģijām.
Divpakāpju apmācības cauruļvads bez cilvēka anotācijām
Eaglet plānotājs ir apmācīts, izmantojot divpakāpju procesu, kurā nav nepieciešami cilvēku rakstīti plāni vai anotācijas.
Pirmais posms ietver sintētisko plānu ģenerēšanu ar augstas spējas LLM, piemēram, GPT-5 un DeepSeek-V3.1-Domink.
Pēc tam šie plāni tiek filtrēti, izmantojot jaunu stratēģiju ar nosaukumu Homologic Consensus Filtrating, kas saglabā tikai tos, kas uzlabo uzdevuma izpildi gan ekspertu, gan iesācēju izpildītāju aģentiem.
Otrajā posmā uz noteikumiem balstīts pastiprināšanas mācību course of vēl vairāk uzlabo plānotāju, izmantojot pasūtījuma izstrādātu atlīdzības funkciju, lai novērtētu, cik daudz katrs plāns palīdz vairākiem aģentiem gūt panākumus.
Iepazīstinām ar izpildītāja spēju ieguvumu atlīdzību (ECGR)
Viens no Eaglet galvenajiem jauninājumiem ir izpildītāja spēju ieguvuma atlīdzība (ECGR).
Šī atlīdzība mēra ģenerētā plāna vērtību, pārbaudot, vai tas palīdz gan veiksmīgāk un ar mazāk soļu veiksmīgāku, gan zemas spējas aģentiem veikt uzdevumus.
Tas ietver arī sabrukšanas koeficientu, lai atbalstītu īsākas, efektīvākas uzdevuma trajektorijas. Šī pieeja ļauj izvairīties no pārmērīgas atalgojuma plāniem, kas ir noderīgi tikai jau konkurences aģentiem un veicina vispārināmus plānošanas norādījumus.
Savietojams ar esošajiem aģentiem un modeļiem
Eaglet Planner ir veidots kā modulārs un "spraudnis un play," Nozīmē, ka to var ievietot esošajos aģenta cauruļvados, nepieprasot izpildītāja pārkvalifikāciju.
Novērtējumos plānotājs palielināja veiktspēju dažādos pamatos, ieskaitot GPT-4.1, GPT-5, LMAM-3.1 un QWEN2.5.
Tas arī izrādījās efektīvs neatkarīgi no pamudināšanas stratēģijas, labi darbojoties ar standarta reakcijas stila pamudinājumiem, kā arī tādām pieejām kā refleksija.
Modernākais sniegums starp etaloniem
Eaglet tika pārbaudīts uz trim plaši izmantotiem etaloniem tālsatiksmes aģentu uzdevumiem: Scienceworld, kas imitē zinātniskus eksperimentus uz tekstu balstītā laboratorijas vidē; Alfworld, kas prasa aģentiem ar mājsaimniecības aktivitāšu pabeigšanu, izmantojot dabisko valodu, simulētā mājas apstākļos; un Webshop, kas novērtē uz mērķi balstītu uzvedību reālistiskā tiešsaistes iepirkšanās saskarnē.
Visos trīs izpildītāju aģenti, kas aprīkoti ar Eaglet, pārspēja viņu kolēģus, kas nav plāni, un citas plānošanas bāzes līnijas, ieskaitot MPO un Knowagent.
Eksperimentos ar atvērtā pirmkoda LLAMA-3,1-8B instrukcijas modeli Eaglet palielināja vidējo veiktspēju no 39,5 līdz 59,4, +19,9 punktu pieaugums dažādos uzdevumos.
Par zinātnes pasaules neredzētiem scenārijiem tas izvirzīja sniegumu no 42,2 līdz 61,6.
Alfworld redzamajos scenārijos Eaglet uzlaboja rezultātus no 22,9 līdz 54,3, kas ir vairāk nekā 2,3 × veiktspējas pieaugums.
Pat spēcīgāki ieguvumi tika novēroti ar spējīgākiem modeļiem.
Piemēram, GPT-4.1 uzlabojās no 75,5 līdz 82,2 vidējam rezultātam ar Eaglet, un GPT-5 pieauga no 84,5 līdz 88,1, neskatoties uz to, ka jau bija spēcīgi izpildītāji.
Dažos etalonos veiktspējas pieaugums bija pat +11,8 punkti, piemēram, kad Eaglet apvieno ar ETO izpildītāja metodi Alfworld neredzētiem uzdevumiem.
Salīdzinot ar citām plānošanas bāzes līnijām, piemēram, MPO, Eaglet konsekventi nodrošināja augstāku uzdevumu pabeigšanas līmeni. Piemēram, Alfworld neredzētos uzdevumos ar GPT-4.1 MPO sasniedza 79,1, wager Eaglet ieguva 83,6-+4,5 punktu priekšrocību.
Turklāt papīrs ziņo, ka aģenti, kas izmanto Eaglet pilnīgus uzdevumus vidēji mazākos soļos. Ar GPT-4.1 kā izpildītāju vidējais pakāpienu skaits samazinājās no 13,0 (nav plānotājs) līdz 11,1 (Eaglet). Ar GPT-5 tas samazinājās no 11,4 līdz 9,4, atbalstot prasību par uzlabotu izpildes efektivitāti.
Efektivitātes pieaugums apmācībā un izpildē
Salīdzinot ar RL balstītām metodēm, piemēram, GIGPO, kurām var būt nepieciešami simtiem apmācības iterāciju, Eaglet sasniedza labākus vai salīdzināmus rezultātus ar aptuveni vienu astoto vietu apmācības centieniem.
Šī efektivitāte tiek veikta arī izpilde: aģentiem, kas izmanto Eaglet, uzdevumu veikšanai parasti bija nepieciešams mazāk darbību. Tas nozīmē samazinātu secinājumu laiku un aprēķināšanas izmaksas ražošanas scenārijos.
Nav publiska kodeksa – vēl
Sākot ar ARXIV iesniegto versiju, autori nav izlaiduši Eaglet atvērtā koda ieviešanu. Nav skaidrs, vai vai kad kods tiks izlaists, ar kādu licenci vai kā tas tiks uzturēts, kas var ierobežot uzņēmuma izvietošanas sistēmas tuvības lietderību.
VentureBeat ir sazinājies ar autoriem, lai precizētu šos punktus, un atjauninās šo darbu, kad dzirdēsim atpakaļ.
Uzņēmuma izvietošanas jautājumi paliek
Lai gan plānotājs tiek raksturots kā spraudnis un spēlētājs, joprojām nav skaidrs, vai Eaglet var viegli integrēt populārajos uzņēmumu aģenta ietvaros, piemēram, Langchain vai autogen, vai arī tam ir nepieciešama pielāgota kaudze, lai atbalstītu plāna izpildi.
Tāpat apmācības iestatīšana izmanto vairākus izpildītāju aģentus, kurus var būt grūti atkārtot uzņēmuma vidē ar ierobežotu piekļuvi modelim. VentureBeat pētniekiem ir jautājis, vai homologo vienprātības filtrēšanas metodi var pielāgot komandām, kurām ir piekļuve tikai vienam izpildītāja modelim vai ierobežotiem aprēķināšanas resursiem.
Eaglet autori ziņo par panākumiem visos modeļa un izmēros, taču vēl nav zināms, kāda ir minimālā dzīvotspējīgā modeļa skala praktiskai izvietošanai. Piemēram, vai uzņēmumu komandas var efektīvi izmantot plānotāju ar apakšt-10b parametru atvērtiem modeļiem latentuma jutīgā vidē? Turklāt ietvars var piedāvāt nozarei specifisku vērtību tādās domēnos kā klientu atbalsts vai IT automatizācija, taču joprojām ir jāredz, cik viegli plānotāju var precīzi noregulēt vai pielāgot šādām vertikālēm.
Reāllaika salīdzinājumā ar iepriekš ģenerētu plānošanu
Vēl viens atklāts jautājums ir, kā Eaglet tiek vislabāk izvietots praksē. Vai plānotājam vajadzētu darboties reāllaikā līdztekus izpildītājiem cilpā, vai arī to labāk izmanto bezsaistē, lai pirms ģenerētiem globāliem plāniem būtu zināmi uzdevumu veidi? Katrai pieejai ir latentuma, izmaksu un darbības sarežģītības ietekme. VentureBeat ir uzdevis šo jautājumu autoriem un ziņos par visām ieskatām, kas parādās.
Stratēģiski kompromisi uzņēmumu komandām
Tehniskajiem vadītājiem vidējā līdz lielos uzņēmumos Eaglet ir pārliecinošs pierādījums koncepcijai, lai uzlabotu LLM aģentu uzticamību un efektivitāti. Guess bez publiskām instrumentu vai ieviešanas vadlīnijām pamatnostādnei joprojām ir lēmums par būvniecību. Uzņēmumiem ir jāsver potenciālais ieguvums uzdevuma veiktspējā un efektivitātei, salīdzinot ar apmācības procesa reproducēšanas vai tuvināšanas izmaksām.
Potenciālie lietošanas gadījumi uzņēmuma iestatījumos
Uzņēmumiem, kas izstrādā aģentu AI sistēmas, it īpaši vidē, kurai nepieciešama pakāpeniska plānošana, piemēram, IT automatizācija, klientu atbalsts vai tiešsaistes mijiedarbība -, Ēlets piedāvā veidni, kā iekļaut plānošanu bez pārkvalifikācijas. Tās spēja vadīt gan atvērtā, gan slēgtā avota modeļus, kā arī efektīvā apmācības metode, var padarīt to par pievilcīgu sākumpunktu komandām, kuras cenšas uzlabot aģenta sniegumu ar minimālu pieskaitāmu izmaksām.