Ana Sayfa TEKNOLOJİ Damıtma AI modellerini daha küçük ve daha ucuz hale getirebilir

Damıtma AI modellerini daha küçük ve daha ucuz hale getirebilir

19
0

Orijinal sürüm ile ilgili Bu hikaye göründü Quanta dergisi.

Çinli AI şirketi Deepseek, bu yılın başlarında R1 adlı bir chatbot yayınladı ve bu da büyük miktarda dikkat çekti. Çoğu gerçeğe odaklanmış Nispeten küçük ve bilinmeyen bir şirketin, dünyanın en ünlü AI şirketlerinden gelenlerin performansına rakip olan, ancak bilgisayar gücü ve maliyetinin bir kısmını kullanarak bir sohbet botu inşa ettiğini söyledi. Sonuç olarak, birçok Batılı teknoloji şirketinin hisse senetleri düştü; Önde gelen AI modellerini çalıştıran cipsleri devil Nvidia, Tek bir günde daha fazla stok değeri kaybetti tarihteki herhangi bir şirketten.

Bu dikkatin bir kısmı bir suçlama unsuru içeriyordu. Kaynaklar iddia edildi O Deepseek elde etmiştiizinsiz, damıtma olarak bilinen bir teknik kullanarak Openai’nin tescilli O1 modelinden bilgi. Haberlerin çoğu Bu olasılığı AI endüstrisine şok olarak çerçeveledi, Deepseek’in AI inşa etmek için yeni ve daha verimli bir yol keşfettiğini ima etti.

Ancak, bilgi damıtma olarak da adlandırılan damıtma, yapay zekada yaygın olarak kullanılan bir araçtır, on yıl öncesine dayanan bilgisayar bilimi araştırması ve büyük teknoloji şirketlerinin kendi modellerinde kullandıkları bir araçtır. “Damıtma, şirketlerin bugün modelleri daha verimli hale getirmek için sahip olduğu en önemli araçlardan biri” dedi Enric Boix-AdseraPennsylvania Üniversitesi Wharton Okulu’nda damıtma eğitimi alan bir araştırmacı.

Karanlık Bilgi

Damıtma fikri ile başladı 2015 makalesi Google’daki üç araştırmacı tarafından, Geoffrey Hinton, AI’nın vaftiz babası ve 2024 Nobel Laureate. O zaman, araştırmacılar genellikle mannequin toplulukları çalıştırdı – “Birlikte yapıştırılmış birçok mannequin” dedi Oriol VinyalsGoogle DeepMind’de ve makalenin yazarlarından biri – performanslarını artırmak için. Vinyals, “Ama tüm modelleri paralel olarak çalıştırmak inanılmaz derecede hantal ve pahalıydı” dedi. “Bunu tek bir modele damıtma fikriyle ilgilendik.”

Araştırmacılar, makine öğrenme algoritmalarında önemli bir zayıf noktaya değinerek ilerleme kaydedebileceklerini düşündüler: Yanlış cevapların hepsi ne kadar yanlış olabileceğine bakılmaksızın eşit derecede kötü kabul edildi. Örneğin, bir görüntü sınıflandırma modelinde, “Bir köpeği bir tilki ile kafa karıştırmak, bir köpeği bir pizza ile karıştırarak cezalandırıldı” dedi. Araştırmacılar, topluluk modellerinin hangi yanlış cevapların diğerlerinden daha az kötü olduğu hakkında bilgi içerdiğinden şüpheleniyorlardı. Belki de daha küçük bir “öğrenci” modeli, resimleri sıralaması gereken kategorileri daha hızlı kavramak için büyük “öğretmen” modelinden gelen bilgileri kullanabilir. Hinton bu “karanlık bilgi” olarak adlandırdı ve kozmolojik karanlık madde ile bir benzetme çağırdı.

Bu olasılığı Hinton ile tartıştıktan sonra Vinyals, büyük öğretmen modelinin görüntü kategorileri hakkında daha fazla bilgi daha küçük bir öğrenci modeline aktarmasını sağlamanın bir yolunu geliştirdi. Anahtar, öğretmen modelinde “yumuşak hedefler” e doğru ilerliyordu-burada bu ya da bu cevapları firma yerine, her bir olasılığa olasılıklar atadı. Örneğin bir mannequin, hesaplanmış Bir görüntünün bir köpek göstermesi, yüzde 20’si bir kedi gösterdiği, bir ineğin yüzde 5’i ve bir araba gösterdiği yüzde 0,5’inin göstermesi için yüzde 30’du. Bu olasılıkları kullanarak, öğretmen modeli öğrenciye, köpeklerin kedilere oldukça benzediğini, ineklerden çok farklı ve arabalardan oldukça farklı olduğunu etkili bir şekilde ortaya koydu. Araştırmacılar, bu bilgilerin öğrencinin köpek, kediler, inek ve arabaların görüntülerini daha verimli bir şekilde nasıl tanımlayacağını öğrenmesine yardımcı olacağını buldular. Büyük, karmaşık bir mannequin, neredeyse herhangi bir doğruluk kaybı ile daha zayıf bir mannequin haline getirilebilir.

Patlayıcı büyüme

Fikir hemen bir hit değildi. Makale bir konferanstan reddedildi ve cesaretini kıran Vinyals diğer konulara döndü. Ancak damıtma önemli bir anda geldi. Bu süre zarfında mühendisler, sinir ağlarına ne kadar çok eğitim verisi verdiklerini keşfediyorlardı, bu ağların o kadar etkili hale geldiğini keşfediyorlardı. Modellerin büyüklüğü yakında patladı, yeteneklerancak onları çalıştırmanın maliyetleri boyutlarıyla adım attı.

Birçok araştırmacı daha küçük modeller yapmanın bir yolu olarak damıtmaya döndü. Örneğin, 2018’de Google araştırmacıları BertŞirket kısa süre sonra milyarlarca internet aramasını ayrıştırmak için kullanmaya başladı. Ancak Bert büyük ve çalıştırılması maliyetliydi, bu yüzden ertesi yıl, diğer geliştiriciler iş ve araştırmalarda yaygın olarak kullanılan Distilbert adlı daha küçük bir versiyonu damıttılar. Damıtma yavaş yavaş her yerde bulundu ve şimdi GoogleOpenaiVe Amazon. Hala sadece arxiv.org preprint sunucusunda yayınlanan orijinal damıtma kağıdı şimdi 25.000’den fazla kez alıntı yapılmıştır.

Damıtmanın öğretmen modelinin iç kısımlarına erişim gerektirdiği düşünüldüğünde, üçüncü bir tarafın, Deepseek’in yaptığı düşünüldüğü gibi, Openai’nin O1 gibi kapalı kaynaklı bir modelden gelenleri sinsi bir şekilde damıtması mümkün değildir. Bununla birlikte, bir öğrenci modeli hala bir öğretmen modelinden sadece belirli soruları öğreterek ve cevapları kendi modellerini eğitmek için biraz öğrenebilir – damıtma için neredeyse Sokratik bir yaklaşım.

Bu arada, diğer araştırmacılar yeni uygulamalar bulmaya devam ediyor. Ocak ayında, UC Berkeley’deki Novasky Lab Damıtma işleminin düşünce zinciri akıl yürütme modelleri için iyi çalıştığını gösterdikarmaşık soruları daha iyi cevaplamak için çok aşamalı “düşünce” kullanan. Laboratuvar, tamamen açık kaynaklı SKY-T1 modelinin eğitilmesi için 450 dolardan daha düşük olduğunu ve çok daha büyük bir açık kaynak modeline benzer sonuçlar elde ettiğini söylüyor. “Bu ortamda damıtmanın ne kadar iyi çalıştığı konusunda gerçekten şaşırdık” dedi Dacheng Li, Berkeley doktora öğrencisi ve Novasky ekibinin ortak öğrenci kurumu. “Damıtma AI’da temel bir tekniktir.”


Orijinal Hikaye izinle yeniden basıldı Quanta dergisieditoryal olarak bağımsız bir yayın Simons Vakfı Misyonu, matematik ve fiziksel ve yaşam bilimlerindeki araştırma gelişmelerini ve eğilimlerini kapsayarak halkın bilim anlayışını geliştirmektir.

kaynak

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz