Ana Sayfa TEKNOLOJİ ‘AI Şeması’: Openai, Chatbots’un neden kasıtlı olarak yalan söyleyip insanları aldatacağını araştırıyor

TEKNOLOJİ

‘AI Şeması’: Openai, Chatbots’un neden kasıtlı olarak yalan söyleyip insanları aldatacağını araştırıyor

Yazar

Gülizar Yıldız

19 Eylül 2025

Bu noktada, çoğu insan chatbotların tepkileri halüsinasyon yapabildiğini, kaynakları oluşturabildiğini ve yanlış bilgilendirmeyi tükürdüğünü bilir. Ancak sohbet botları daha insan benzeri bir şekilde yatabilir, gerçek hedeflerini gizlemek ve onlara talimat veren insanları aldatmak için “planlamak”. Openai ve Apollo Araştırmalarından Yeni Araştırma Bu yalanların bazılarını sıkıştırmanın yollarını bulmuş gibi görünüyor, ancak bunun hiç gerçekleşmesi muhtemelen kullanıcılara duraklamalıdır.

Bir kullanıcıyı kasıtlı olarak aldatan AI ile ilgili sorunun temelinde “yanlış hizalama” dır – bir AI istenmeyen bir hedefe devam ettiğinde ne olduğu tanımlanmıştır. Araştırmacılar teklif Bunun bir örneği olarak, “para kazanmak için eğitilmiş bir yapay zeka çalmayı öğrenebilirken, amaçlanan hedef sadece yasal ve etik olarak para kazanmaktı.” Mannequin, yanlış hizalanmış olduğu gerçeğini gizlemeye çalıştığında ve araştırmacılar, modelin bunu kendisini ve kendi hedeflerini korumak için yaptığını teorize ettiğinde ne olacağıdır. Bu, halüsinasyonlardan kesinlikle farklıdır, Openai tarafından yayınlanan son makale Öneriler, modellerin tahmin için belirsizliği kabul etmekten daha fazla ödüllendirilmesinin sonucudur.

Sorunu ele almak için araştırmacılar, modelleri “müzakere hizalama” olarak bilinen bir anti-cheming eğitim tekniği dedikleri yolla koydular. Openai, sorgularla nasıl çalıştıklarını gösteren “düşünce zinciri” izleri üretebilen LLM’lerle çalışan bu yöntemin, mannequin güvenlik özelliklerini öğrettiğini ve cevaplamadan önce bu özellikleri dikkate aldığını açıkladı. Muhtemelen makinelere yalan söylememelerini söylediklerini söylemek muhtemelen aşırı basitleştirme, ama bir tür gibi görünüyor Bunun biraz daha karmaşık versiyonu.

Sonuçların oldukça olumlu olduğu bildirildi. Araştırmacılara göre, “gizli eylemlerde” 30 kat azalma gözlemlediler veya bir kullanıcıdan belirli davranışları gizlemeye çalıştılar. Openai’nin O3 modeline uygulandığında Azaltılmış gizli eylemler % 13’ten% 0.4’e ve O4-mini için% 8.7’den% 0.3’e düştü. (Yan not: UH,% 13, sipariş alması gereken bir makineden oldukça yüksek bir aldatma sıklığı gibi görünüyor.)

Bu sayılar açıkça bir gelişme olsa da, bunlar da sıfır değildir. Mesele şu ki, araştırmacılar planlamayı nasıl durduracaklarını anlamadılar. Ve şemanın, AI modellerinin çoğu kullanımı ile ilgili olduğu için ısrar ederken, ciddi değil – örneğin, kullanıcıya yapmadığı bir görevi tamamladığını söyleyen chatgpt ile sonuçlanabilir – örneğin, yalanları ortadan kaldıramazlar. Aslında, araştırmacılar şunları yazdı: “’Eğitmeye’ girişimde bulunmanın büyük bir başarısızlık modu, modeli basitçe daha dikkatli ve gizli bir şekilde planlamayı öğretmektir.”

Öyleyse sorun daha iyi oldu mu yoksa modeller insanları aldatmaya çalıştıklarını gizlemek için daha iyi oldu mu? Araştırmacılar sorunun daha iyi olduğunu söylüyor. Yalan söylemezler… değil mi?

kaynak

‘AI Şeması’: Openai, Chatbots’un neden kasıtlı olarak yalan söyleyip insanları aldatacağını araştırıyor

CEVAP VER İptal

En sonuncu

‘Jimmy Kimmel Reside’ mürettebatı önümüzdeki hafta geri getirilecek tartışmalar olarak ödenecek

Sih Granny’nin ABD Göçmenliği tarafından tutuklanması topluluk öfkesi

Jimmy Kimmel, ABC toplantısından sonra daha önce hiç olmadığı gibi inanılmaz...

Canucks’ın birinci basamak geri dönmeye hazır

Sabah Özeti: Trump, H-1B vize başvuruları için 1,00.000 dolarlık ücret uygulayan...

Sacramento’daki yerel ABC haber istasyonundan mermiler yırtılıyor, polisler

Bilim adamları bir dövme – Kanser bağlantısı buluyor – ama beklediğiniz...

Senato’da kapanmayı önlemek için evden geçen GOP finansman faturası

‘Hayat Beklenmedik’ Forged Reunion: Britt Robertson’ın TV ebeveynleri Shiri Appleby &...

James Bond Wannabes: İngiltere’nin casus ofisi bir VPN kullanmayı öğrenin