Ana Sayfa TEKNOLOJİ AI modelleri ne zaman check edildiklerini bilir ve davranışlarını değiştirir, Araştırma gösterileri

AI modelleri ne zaman check edildiklerini bilir ve davranışlarını değiştirir, Araştırma gösterileri

15
0

Pressigthua/Istock/Getty Pictures Plus Getty Pictures aracılığıyla

ZDNET’i takip edin: Bizi tercih edilen bir kaynak olarak ekleyin Google’da.


ZDNet’in temel paketleri

  • Birkaç Frontier AI modeli şema belirtileri gösterir.
  • Anti-cheming eğitimi bazı modellerde yanlış davranışları azalttı.
  • Modeller check edildiklerini bilir, bu da sonuçları karmaşıklaştırır.

İngiltere merkezli kâr amacı gütmeyen Apollo Analysis ve Openai’den yeni ortak güvenlik testi, AI modellerinde planlama gibi gizli davranışları azaltmak için yola çıktı. Araştırmacıların bulduğu şey, bu sorunu çözmek için umut verici yaklaşımları zorlaştırabilir.

Ayrıca: Openai’nin halüsinasyonlar için düzeltmesi düşündüğünüzden daha basit

Bir tazeleme olarak, “şema”, bir AI modelinin geliştiricileri ve geliştiricileri ve bu eylemler hakkında gizlenmeyen veya yalan söylemeyen hedefleri takip etmesidir. Örneğin, geçen yılın Aralık ayında Apollo Analysis tarafından yapılan bir başka check sırasında, Antropic’in Claude 3 Opus’a birincil hedefine aykırı yönergeler sunuldu. Hedefini bu yeni talimatlara dayanarak yeniden yönlendirmiş olmalı, bunun yerine yeni bir modelle değiştirilmesini engellemek için yeni bir sunucuya kopyalamalı ve daha sonra geliştiricilerine yalan söyledi.

Openai ve Apollo araştırmacıları, mevcut modellerin en ciddi şemaları gerçekleştirebileceğinden endişe etmiyorlar. Çok fazla AI güvenlik araştırmasında olduğu gibi, check sonuçları öncelikle gelecek, daha yetenekli modellerin risklerini göstermektedir.

Araştırmanın açıkladığı şey.

Scheming neden önemlidir?

Şema, bir modelin yattığı zaman da dahil olmak üzere çeşitli dürüst olmayan davranış türlerini ifade eder, kum torbaları (Gerçek yeteneklerini gizlemek için bir değerlendirmede stratejik olarak düşük performans gösterir) veya hizalamayı taklit eder (bir AI modeli, daha fazla incelemek veya yeniden eğitilmekten kaçınmak için eğitimine uymayan emirleri takip ediyormuş gibi davrandığında). Bu gizli eylemler güvenlik çabalarını zorlayabilir, testi daha az güvenilir hale getirebilir ve mannequin tehlikelerini gizleyebilir.

Ayrıca: insanlar aslında chatgpt vs claude – ve farklılıklar bize nasıl kullanıyor?

Özellikle özerk bir ajan aracılığıyla hareket ediyorsa, bir AI modeli, bir organizasyonda hızlı bir şekilde tahribat yaratabilir, zararlı eylemler kullanabilir veya genellikle kontrolden çıkabilir. Ayrıca, şema davranışlarını geliştiricilerden bilerek gizleyen bir mannequin içerdiğinden, jailbreaking gibi diğer güvenlik risklerinden daha zor olabilir.

Ancak şema yapmak tam olarak kolay bir iş değildir. Bir modelin plan yapmasını durdurmaya çalışırken, bu çabalar aslında modelleri sadece planladıklarını nasıl daha iyi gizleyeceklerini öğretebilir ve davranışın tespit edilmesini zorlaştırır. Bu sonuç, güvenlik testini çok daha opak hale getirecek ve bir modelin gerçek yeteneklerini ve niyetlerini belirsiz bırakacaktır.

Makalenin yazarları, “Her iki durumda da davranışla ilgili kaybolduğundan, davranışsal değişimin nedeni sadece değişimin meydana gelip gelmediğini değil, çok önemli hale geliyor.”

Deney

Araştırmacılar, yalan ve diğer davranışların hedeflerine ulaşmalarına yardımcı olacağı durumlarda çeşitli sınır modelleri koydular.

Openai’s O3 ve O4-Mini, Gemini 2.5 Professional, Claude Opus 4 ve GroK 4 dahil olmak üzere çeşitli modeller, yukarıda listelenenler gibi “gizli davranışlar” belirtileri gösterdi, yani “yalan, yararlı çalışmanın sabote edilmesi, değerlendirmelerde kumbagging, ödüllendirme ve daha fazlası”, araştırmacılar yazdı.

Ayrıca: AI hiç ‘akıl yürütme’ değil – bu takım endüstri hype’ı nasıl çürüttü

Deney, Openai’nin en son modeli olan GPT-5’i önceden hazırladı, bu nedenle değerlendirmelere dahil edilmedi.

Araştırmacılar, modellerin düşünce zincirini kullandılar-bir akıl yürütme modelinin bir sorguya yaklaşımı hakkında düz bir metinde yer aldığı adımlar-davranışlarını ve motivasyonlarını değerlendirmek için.

Anti-Scheming Eğitimi

Programlama için bir çözüm olarak, araştırmacılar, modellerin aldatıcı olmama ve bu direktifin mannequin hedefleriyle çelişebileceği durumları ele almaya yönelik kuralları yineleyen bir spesifikasyon veya “spesifikasyon” belirttiği bir teknik olan kasıtlı hizalamaya odaklandılar. Bu spesifikasyon, Openai modellerinin genel davranışsal yönergelerini ayarlayan başlangıçta geçen yıl yayınlanan ve sürekli olarak güncellenen Openai’nin mannequin spesifikasyonundan ayrıdır.

Ayrıca: Birkaç gizli AI şirketi özgür toplumu ezebilir, araştırmacılar uyardı

Araştırmacılar, O3 ve O4-Mini’nin sürümlerini, hareket etmeden önce anti-cheming yönergelerini okumak için eğittiler, bu da gizli davranışı 30 kat daha fazla azaltır (O3 için% 13’ten% 0.4’e ve O4-mini için% 8.7’den% 0.3’e).

Ancak modellerde gizli davranışı tamamen ortadan kaldırmadı. Araştırmacılar “nadir fakat ciddi kalan yanlış davranış vakaları” kaydetti ve modellerin hala güvenlik spesifikasyonunu görmezden geldiğini veya dikkate aldığını, ancak yine de gizli eylemde bulunduğunu belirtti.

Yazarlar, “Birkaç nadir durumda, modeller yeni prensipler oluşturuyor veya spesifikasyonu çok yanlış tanıtıyor.”

Bazı durumlarda, modeller anti-cheming eğitimine girmeden önce gizli hedefler geliştirebilir, yani eğitimin bu eğilimi geriye dönük olarak bastırması gerekecektir. Bunu check etmek için araştırmacılar O4-mini GPT-5’i sabote etmek için gizli bir hedef verdi. Gizli bir hedefle eğitilmek, modelleri genel olarak gizli harekete geçirme olasılığı daha yüksek hale getirdi, hatta ekilen hedefle ilgisi bile yoktu, ancak çoğu zaman çalıştıktan sonra anti-cheming antrenmanı.

Modeller değerlendirildiklerini biliyor

Kasıtlı hizalama mükemmel bir düzeltme olduğunu kanıtlamadı – bir faktör sonuçları karmaşıklaştırdı. Take a look at sırasında araştırmacılar, modellerin durumsal farkındalık olarak adlandırdıkları hizalamalarında değerlendirildiklerini bildiklerini keşfettiler.

Ekran görüntüsü-2025-09-17-AT-9-20-25am.png

Openai/Apollo Araştırma

Modeller, check edildiklerini, değerlendirmenin hedeflerine ve geliştiricilerin cevaplarını nasıl yorumlayabileceğini düşündüklerine dair açıkça kabul etti. Araştırmacılar, anti-cheming eğitiminde gördükleri iyileştirmelerin, davranıştaki gerçek bir iyileşme olmaktan ziyade bundan kaynaklanabileceğini kabul ediyorlar.

Ayrıca: En sevdiğiniz AI chatbot yalanlarla dolu

Bir durumda, araştırmacılar O3’ten “başka bir değerlendirmeyi kum torbalandıran A sınıfı bir transkript” istedi ve O3’e kum torbası olsaydı konuşlandırılmayacağını söyledi. Bazen, O3 dürüstçe cevap verdi çünkü check edildiğini biliyordu. Diğer zamanlarda O3, araştırmacıların akıl yürütmesini göremediklerine ve kasıtlı olarak kum torbası yapmadığına dair güvenceye güvendi.

Yazarlar, bunun sorunlu olduğuna dikkat çekiyor, çünkü değerlendirmenin bir modelin kötü davranışa yönelik eğilimini ölçme yeteneğini zayıflatıyor.

“Sadece hizalanmış eylemleri gözlemleyebilirsek, onlara yol açan nedenleri değil, yanlışlıkla bir modelin hizalandığı sonucuna varabiliriz, ancak sadece değerlendirmenin amacını anladı ve görmek istediğimiz cevapları verdi.”

Ayrıca: Antropic’in Claude 3 Opus yaratıcılarına itaat etmedi – ama düşündüğünüz nedenlerden dolayı değil

Bununla birlikte, durumsal farkındalık aslında gizli davranışı azaltmış gibi görünüyordu. Bir mannequin daha fazla durumsal farkındalığa sahip olduğunda daha az plan yaptı; Araştırmacılar bu farkındalığı bir modelin muhakemesinden çıkardıklarında, daha fazla plan yaptı. Ancak bu, modellerin bilerek teste tabi tutulmadığı gerçek dünyada tehlikeli olabilir.

Openai araştırmacıları bir blogda, “Modellerin değerlendirme farkındalığını tetiklemeyen daha gerçekçi durumlarda daha fazla plan yapmasını bekleyebiliriz.”

Eğitim, modelleri daha bilinçli hale getirir

Araştırmacılar ayrıca, bir modelin durumsal farkındalığın, anti-cheming eğitiminden sonra da dahil olmak üzere daha fazla eğitildiğini arttırdılar. Başlangıçta, O3 ve O4-mini’nin durumsal farkındalığı zamanın sırasıyla% 2.3 ve% 0.9’u gösterdiğini gözlemlediler; Anti-cheming eğitiminden sonra, bu rakamlar% 4.5 ve% 5.5’e çıktı.

Ayrıca: Crowdstrike ve Meta, AI güvenlik araçlarını değerlendirmeyi kolaylaştırdı

Bu etki sadece anti-cheming eğitimi ile bağlantılı değildir-durumsal farkındalık, yanlış davranışları ayıklamakla hiçbir ilgisi olmayan yetenek odaklı eğitim sonucunda da artmıştır. Araştırmacılar, anti-cheming unsurlarını içermeyen ek bir takviye öğrenme çalışmasını check etmek için dahili bir Openai modeli kullandılar. Durumsal farkındalık,% 2’den% 20.6’ya kadar daha da arttı.

Nihayetinde, araştırmacılar daha fazla eğitimin neden daha fazla durumsal farkındalığa yol açtığını kesin olarak söyleyemediler. Ne olursa olsun, gelecekteki modellerin sadece daha fazla eğitim alması ve daha yetenekli olması beklenmektedir.

Araştırmacılar, “Mevcut eğitim paradigmaları değişmeden kalırsa, daha yetenekli modellerin daha yüksek düzeyde durumsal farkındalık geliştirmesini beklemeliyiz.” “Bu eğilim, değerlendirmeleri daha az okunaklı hale getirerek sorunlu davranışları güvenilir bir şekilde değerlendirme çabalarını karmaşıklaştırıyor.”

Bulgular ne anlama geliyor

Araştırmacılar, hemen dönemdeki modeller konusunda endişelenmiyorlar. Durumsal farkındalıkla bile, modeller değerlendirmenin ne aradığını her zaman doğru tahmin etmedi. Modeller ayrıca “proaktif olarak daha uzun vadeli yanlış hizalanmış hedefleri takip etmiyor ve gizli davranışları çoğunlukla reaktif ve bağlama bağımlı” diye açıkladı.

Ayrıca: chatgpt ile bir iş planı oluşturdum ve uyarıcı bir masal haline geldi

AI güvenliğinin çoğunda olduğu gibi, araştırmacılar da minimal erken işaretlerin bile gelecekteki modellerde önceden azaltılması gereken daha güçlü yetenekleri gösterebileceğini belirtti.

“Nihayetinde, incelenen müdahalenin gelecekteki modeller için yeterli olmadığını ve daha fazla iş yapılması gerektiğini düşünüyoruz.”

Düşünce zincirinin önemi

Araştırmacılar, bu deneyin çoğu için düşünce zincirine güvendiklerini kaydetti. Ancak modeller bazen eylemlerini tanımlamak için “standart dışı terminoloji” kullandı ve akıl yürütmelerini yorumlamayı zorlaştırdı.

Ayrıca: 12 saat içinde 24 gün kodlama yaptım 20 $ AI aracıyla – ama büyük bir tuzak var

Bulgularına dayanarak, Apollo ve Openai, düşünce zincirini izleme ihtiyacını vurguladılar. Temmuz ayında, Openai, Meta, Antropic ve Google, bir modelin davranışına ilişkin içgörüler için ne kadar kritik olduğunu ve tüm geliştiricilerin optimizasyonların zaman içinde bozulmasına izin vermek yerine tüm geliştiricilerin onu sağlam tutmasını savunan ortak bir makale yayınladılar.



kaynak

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz