Home Tehnoloģija Inside Ring-1T: skudru inženieri atrisina pastiprināšanas mācību vājās vietas triljonu mērogā

Inside Ring-1T: skudru inženieri atrisina pastiprināšanas mācību vājās vietas triljonu mērogā

32
0

Ķīnas Skudru grupaAlibaba filiāle, detalizēta tehniskā informācija par tā jauno modeli, Gredzens-1Tkas, pēc uzņēmuma vārdiem, ir “pirmais atvērtā pirmkoda spriešanas modelis ar vienu triljonu kopējo parametru”.

Ring-1T mērķis ir konkurēt ar citiem spriešanas modeļiem, piemēram, GPT-5 un o sēriju no OpenAIkā arī Google‘s Gemini 2.5. Ar jaunākā modeļa jauno izlaidumu Ant paplašina ģeopolitiskās debates par to, kurš to darīs dominēt AI sacīkstēs: Ķīna vai ASV.

Ant Group teica, ka Ring-1T ir optimizēts matemātiskām un loģiskām problēmām, kodu ģenerēšanai un zinātnisku problēmu risināšanai.

“Ar aptuveni 50 miljardiem aktivizētu parametru uz vienu marķieri, Ring-1T sasniedz vismodernāko veiktspēju vairākos izaicinošos etalonos, neskatoties uz to, ka tas paļaujas tikai uz dabiskās valodas argumentācijas iespējām,” sacīja Ant. papīrs.

Ring-1T, kas pirmo reizi tika izlaists priekšskatījumā septembrī, izmanto tādu pašu arhitektūru kā Ling 2.0 un apmācīts uz Ling-1T bāzes modeli, ko uzņēmums izlaida šī mēneša sākumā. Ant teica, ka tas ļauj modelim atbalstīt līdz 128 000 žetonu.

Lai apmācītu tik lielu modeli kā Ring-1T, pētniekiem bija jāizstrādā jaunas metodes, lai palielinātu pastiprināšanas mācīšanos (RL).

Jaunas apmācības metodes

Ant Group izstrādāja trīs “savstarpēji saistītus jauninājumus”, lai atbalstītu RL un Ring-1T apmācību, kas ir izaicinājums, ņemot vērā modeļa izmēru un ar to saistītās parasti lielās skaitļošanas prasības. Šie trīs ir IcePop, C3PO++ un ASystem.

IcePop noņem trokšņainos gradienta atjauninājumus, lai stabilizētu treniņu, nepalēninot secinājumus. Tas palīdz novērst katastrofālu apmācību secinājumu novirzi RL. Pētnieki atzīmēja, ka, apmācot modeļus, īpaši tos, kuros tiek izmantota ekspertu kombinācija (MoE) arhitektūra, piemēram, Ring-1T, varbūtības aprēķinos bieži var būt neatbilstības.

“Šī problēma ir īpaši izteikta EM modeļu apmācībā ar RL, jo tiek izmantots dinamiskais maršrutēšanas mehānisms. Turklāt garos CoT iestatījumos šīs neatbilstības var pakāpeniski uzkrāties iterāciju laikā un vēl vairāk pastiprināties,” sacīja pētnieki.

IcePop “apspiež nestabilus treniņu atjauninājumus, izmantojot abpusēju maskēšanas kalibrēšanu”.

Nākamā jaunā metode, kas pētniekiem bija jāizstrādā, ir C3PO++, uzlabota C3PO sistēmas versija, ko Ant iepriekš izveidoja. Šī metode pārvalda to, kā Ring-1T un citi īpaši lielu parametru modeļi ģenerē un apstrādā apmācības piemērus vai to sauc par izlaišanu, lai GPU nestāvētu dīkstāvē.

Veids, kādā tas darbojas, izlaižot darbu sadalīs gabalos, lai tos apstrādātu paralēli. Viena grupa ir secinājumu kopums, kas ģenerē jaunus datus, guess otra ir apmācības kopa, kas apkopo rezultātus, lai atjauninātu modeli. C3PO++ izveido marķiera budžetu, lai kontrolētu, cik daudz datu tiek apstrādāts, nodrošinot grafisko procesoru efektīvu izmantošanu.

Pēdējā jaunā metode ASystem izmanto SingleController+SPMD (viena programma, vairāki dati) arhitektūru, lai iespējotu asinhronās darbības.

Etalona rezultāti

Skudra norādīja Ring-1T uz etaloniem, kas mēra veiktspēju matemātikā, kodēšanā, loģiskā spriešanā un vispārīgos uzdevumos. Viņi to pārbaudīja ar tādiem modeļiem kā DeepSeek-V3.1-Terminus-Considering, Qwen-35B-A22B-Considering-2507, Gemini 2.5 Professional un GPT-5 Considering.

Etalona testēšanā Ring-1T uzrādīja labus rezultātus, ierindojoties otrajā vietā pēc OpenAI GPT-5 lielākajā daļā etalonu. Ant teica, ka Ring-1T uzrādīja vislabāko veiktspēju starp visiem tā testētajiem atvērtā svara modeļiem.

Modelis AIME 25 līderu sarakstā ievietoja 93,4% rezultātu, kas ir otrajā vietā aiz GPT-5. Kodēšanas jomā Ring-1T pārspēja gan DeepSeek, gan Qwen.

“Tas norāda, ka mūsu rūpīgi sintezētā datu kopa veido Ring-1T spēcīgo veiktspēju programmēšanas lietojumprogrammās, kas veido spēcīgu pamatu turpmākajiem centieniem saistībā ar aģentu lietojumprogrammām,” sacīja uzņēmums.

Ring-1T parāda, cik daudz Ķīnas uzņēmumi iegulda modeļos

Ring-1T ir tikai jaunākais modelis no Ķīnas, kura mērķis ir gāzt no troņa GPT-5 un Gemini.

Kopš negaidītās DeepSeek palaišanas janvārī Ķīnas uzņēmumi ir izlaiduši iespaidīgus modeļus ātrā tempā. Ant mātes uzņēmums, Alibabanesen izlaists Qwen3-Omnimultimodāls modelis, kas dabiski apvieno tekstu, attēlu, audio un video. DeepSeek arī turpināja uzlabot savus modeļus un šī mēneša sākumā, palaida DeepSeek-OCR. Šis jaunais modelis pārdomā, kā modeļi apstrādā informāciju.

Tā kā Ring-1T un Ant izstrādā jaunas metodes īpaši lielu modeļu apmācīšanai un mērogošanai, cīņa par mākslīgā intelekta dominēšanu starp ASV un Ķīnu turpina saasināt.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here