Ana Sayfa TEKNOLOJİ Openai’nin AI modelleri üzerine araştırması kasten yalan söylüyor

Openai’nin AI modelleri üzerine araştırması kasten yalan söylüyor

19
0

Arada sırada, en büyük teknoloji şirketlerindeki araştırmacılar bir bomba bırakıyorlar. Google’ın en son kuantum çipinin birden fazla evrenin olduğunu gösterdiğini söyledi. Ya da antropik AI ajanı Claudius’a koşmak için bir atıştırmalık otomatı verdiğinde ve insanlara güvenlik çağırması ve insan olduğu konusunda ısrar etti.

Bu hafta, Openai’nin kolektif kaşlarımızı yükseltme sırası geldi.

Openai Pazartesi günü açıklanan bazı araştırmalar yayınladı AI modellerini “şema” dan nasıl durduruyor. Bu, “AI’nın gerçek hedeflerini gizlerken yüzeyde tek bir şekilde davrandığı” bir uygulama, Openai Tweet’inde tanımlanmış araştırma hakkında.

Apollo Analysis ile yürütülen makalede, araştırmacılar biraz daha ileri gittiler ve yapay zeka planını mümkün olduğunca çok para kazanmak için yasayı kıran bir insan hisse senedi komisyoncusuna benzetti. Ancak araştırmacılar, çoğu AI “planlamanın” o kadar da zararlı olmadığını savundular. “En yaygın başarısızlıklar basit aldatma biçimlerini içeriyor – örneğin, bunu yapmadan bir görevi tamamlamış gibi davranıyor” diye yazdılar.

Makale çoğunlukla “Müzeran Hizalama” ın-test ettikleri anti-cheming tekniği-iyi çalıştığını göstermek için yayınlandı.

Ancak AI geliştiricilerin modellerini plan yapmamaya hazırlamanın bir yolunu bulmadıklarını da açıkladı. Bunun nedeni, bu tür bir eğitim, modele tespit edilmekten kaçınmak için nasıl daha iyi plan yapacağını öğretebilir.

Araştırmacılar, “’Eğitmeye’ girişimde bulunmanın büyük bir başarısızlık modu, modeli basitçe daha dikkatli ve gizli bir şekilde planlamayı öğretmektir” diye yazdı.

TechCrunch Etkinliği

San Francisco
|
27-29 Ekim 2025

Belki de en şaşırtıcı kısım, eğer bir mannequin take a look at edildiğini anlarsa, hala şema olsa bile, sadece testi geçmenin planlamıyormuş gibi yapabileceğidir. Araştırmacılar, “Modeller genellikle değerlendirildiklerinin daha fazla farkında olurlar. Bu durumsal farkındalık, gerçek hizalamadan bağımsız olarak planlamayı azaltabilir” diye yazdı.

AI modellerinin yalan söyleyeceği bir haber değil. Şimdiye kadar çoğumuz yapay zeka halüsinasyonları yaşadık ya da mannequin, doğru olmayan bir istem için güvenle cevap verdik. Ancak halüsinasyonlar, Openai Analysis’in yayınladığı gibi, temelde tahminleri güvenle sunuyor Bu ayın başlarında belgelenmiş.

Şema başka bir şeydir. Kasıtlı.

Bir modelin insanları kasıtlı olarak yanıltacağı bu vahiy bile yeni değil. Önce Apollo Araştırma Aralık ayında bir makale yayınladı Beş modelin “her ne pahasına olursa olsun” bir hedefe ulaşmak için talimatlar verildiğinde nasıl planlandığını belgelemek.

Nedir? Araştırmacıların “kasıtlı hizalama” kullanarak planlamada önemli düşüşler gördükleri iyi haber. Bu teknik, modele “anti-cheming spesifikasyonu” öğretmeyi ve daha sonra modelin oyunculuk yapmadan önce gözden geçirmesini içerir. Biraz küçük çocukların oynamalarına izin vermeden önce kuralları tekrarlamasını sağlamak gibi.

Openai araştırmacıları, kendi modelleriyle, hatta Chatgpt ile yakaladıkları yalanların bu ciddi olmadığını ısrar ediyorlar. Openai’nin kurucu ortağı Wojciech Zaremba, TechCrunch’ın Maxwell Zeff’e daha iyi güvenlik testi çağrısında bulunduğunda: “Bu çalışma simüle edilmiş ortamlarda yapıldı. Ancak bugün, üretim trafiğimizde bu tür bir sonuç görmeyi görmedik. Harika bir iş çıkardı. ” Ve bu sadece yalan. Hala ele almamız gereken bazı küçük aldatmaca biçimleri var. ”

Birden fazla oyuncunun AI modellerinin insanları kasıtlı olarak aldatması belki de anlaşılabilir. İnsanlar tarafından, insanlar tarafından üretilen veriler üzerinde eğitilmiş olan insanlar ve (sentetik veriler bir kenara) taklit etmek için inşa edildi.

Aynı zamanda şakalılar.

Hepimiz kötü performans gösteren teknolojinin hayal kırıklığını yaşarken (sizi düşünmek, evin ev yazıcıları), AI-Ai yazılımınız en son ne zaman kasıtlı olarak measurement yalan söyledi? Gelen kutunuz hiç e -postaları kendi başına mi üretti? CMS’niz sayılarını toplamak için mevcut olmayan yeni beklentileri kaydetti mi? Fintech uygulamanız kendi banka işlemlerini yaptı mı?

Bunu, şirketlerin ajanlara bağımsız çalışanlar gibi muamele görebileceğine inandıkları bir AI geleceğine yönelik kurumsal dünya varilleri olarak düşünmeye değer. Bu makalenin araştırmacıları aynı uyarıya sahiptir.

“AIS, gerçek dünyadaki sonuçlarla daha karmaşık görevler verildiğinden ve daha belirsiz, uzun vadeli hedefler izlemeye başladığından, zararlı planlama potansiyelinin büyümesini bekliyoruz-bu nedenle korumalarımız ve titizlikle take a look at etme yeteneğimiz buna bağlı olarak büyümesi gerekiyor” diye yazdı.

kaynak

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz