Ana Sayfa TEKNOLOJİ ‘AI Şeması’: Openai, Chatbots’un neden kasıtlı olarak yalan söyleyip insanları aldatacağını araştırıyor

‘AI Şeması’: Openai, Chatbots’un neden kasıtlı olarak yalan söyleyip insanları aldatacağını araştırıyor

19
0

Bu noktada, çoğu insan chatbotların tepkileri halüsinasyon yapabildiğini, kaynakları oluşturabildiğini ve yanlış bilgilendirmeyi tükürdüğünü bilir. Ancak sohbet botları daha insan benzeri bir şekilde yatabilir, gerçek hedeflerini gizlemek ve onlara talimat veren insanları aldatmak için “planlamak”. Openai ve Apollo Araştırmalarından Yeni Araştırma Bu yalanların bazılarını sıkıştırmanın yollarını bulmuş gibi görünüyor, ancak bunun hiç gerçekleşmesi muhtemelen kullanıcılara duraklamalıdır.

Bir kullanıcıyı kasıtlı olarak aldatan AI ile ilgili sorunun temelinde “yanlış hizalama” dır – bir AI istenmeyen bir hedefe devam ettiğinde ne olduğu tanımlanmıştır. Araştırmacılar teklif Bunun bir örneği olarak, “para kazanmak için eğitilmiş bir yapay zeka çalmayı öğrenebilirken, amaçlanan hedef sadece yasal ve etik olarak para kazanmaktı.” Mannequin, yanlış hizalanmış olduğu gerçeğini gizlemeye çalıştığında ve araştırmacılar, modelin bunu kendisini ve kendi hedeflerini korumak için yaptığını teorize ettiğinde ne olacağıdır. Bu, halüsinasyonlardan kesinlikle farklıdır, Openai tarafından yayınlanan son makale Öneriler, modellerin tahmin için belirsizliği kabul etmekten daha fazla ödüllendirilmesinin sonucudur.

Sorunu ele almak için araştırmacılar, modelleri “müzakere hizalama” olarak bilinen bir anti-cheming eğitim tekniği dedikleri yolla koydular. Openai, sorgularla nasıl çalıştıklarını gösteren “düşünce zinciri” izleri üretebilen LLM’lerle çalışan bu yöntemin, mannequin güvenlik özelliklerini öğrettiğini ve cevaplamadan önce bu özellikleri dikkate aldığını açıkladı. Muhtemelen makinelere yalan söylememelerini söylediklerini söylemek muhtemelen aşırı basitleştirme, ama bir tür gibi görünüyor Bunun biraz daha karmaşık versiyonu.

Sonuçların oldukça olumlu olduğu bildirildi. Araştırmacılara göre, “gizli eylemlerde” 30 kat azalma gözlemlediler veya bir kullanıcıdan belirli davranışları gizlemeye çalıştılar. Openai’nin O3 modeline uygulandığında Azaltılmış gizli eylemler % 13’ten% 0.4’e ve O4-mini için% 8.7’den% 0.3’e düştü. (Yan not: UH,% 13, sipariş alması gereken bir makineden oldukça yüksek bir aldatma sıklığı gibi görünüyor.)

Bu sayılar açıkça bir gelişme olsa da, bunlar da sıfır değildir. Mesele şu ki, araştırmacılar planlamayı nasıl durduracaklarını anlamadılar. Ve şemanın, AI modellerinin çoğu kullanımı ile ilgili olduğu için ısrar ederken, ciddi değil – örneğin, kullanıcıya yapmadığı bir görevi tamamladığını söyleyen chatgpt ile sonuçlanabilir – örneğin, yalanları ortadan kaldıramazlar. Aslında, araştırmacılar şunları yazdı: “’Eğitmeye’ girişimde bulunmanın büyük bir başarısızlık modu, modeli basitçe daha dikkatli ve gizli bir şekilde planlamayı öğretmektir.”

Öyleyse sorun daha iyi oldu mu yoksa modeller insanları aldatmaya çalıştıklarını gizlemek için daha iyi oldu mu? Araştırmacılar sorunun daha iyi olduğunu söylüyor. Yalan söylemezler… değil mi?

kaynak

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz