Openai yeni bir yayınladı kalite testi Perşembe günü, AI modellerinin çok çeşitli endüstriler ve işlerde insan profesyonellerine kıyasla nasıl performans gösterdiğini take a look at ediyor. Take a look at olan GDPVAL, Openai’nin sistemlerinin ekonomik olarak değerli çalışmalarda insanlardan daha iyi performans göstermeye ne kadar yakın olduğunu anlamaya yönelik erken bir girişimdir – şirketin yapay genel zeka veya AGI geliştirme görevinin önemli bir parçası.
Openai, GPT-5 modelinin ve Antropic’in Claude Opus 4.1’in “sanayi uzmanları tarafından üretilen işin kalitesine zaten yaklaştığını” söyledi.
Bu, Openai’nin modellerinin derhal işlerindeki insanları değiştirmeye başlayacağı anlamına gelmez. Bazı CEO’ların tahminlerine rağmen AI sadece birkaç yıl içinde insanların işlerini alacak, Openai, GDPVAL’in bugün insanların gerçek işlerinde yaptıkları çok sayıda görevi kapsadığını itiraf ediyor. Ancak, şirketin AI’nın bu kilometre taşına yönelik ilerlemesini ölçmenin en son yollarından biridir.
GDPVAL, sağlık, finans, imalat ve hükümet gibi alanlar da dahil olmak üzere Amerika’nın gayri safi yurtiçi hasılasına en fazla katkıda bulunan dokuz endüstriye dayanmaktadır. Benchmark, bir AI modelinin bu endüstriler arasında 44 meslekteki performansını, yazılım mühendislerinden hemşirelere ve gazetecilere kadar çeşitli take a look at ediyor.
Openai’nin testin ilk versiyonu için GDPVAL-V0, Openai deneyimli profesyonellerden AI tarafından oluşturulan raporları diğer profesyoneller tarafından üretilen raporlarla karşılaştırmasını ve ardından en iyisini seçmelerini istedi. Örneğin, bir istem, yatırım bankacılarından son mil teslimat endüstrisi için bir rakip manzara oluşturmalarını ve bunları AI tarafından oluşturulan raporlarla karşılaştırmalarını istedi. Openai daha sonra 44 mesleğin hepsinde insan raporlarına karşı bir AI modelinin “kazanma oranını” ortalaması alır.
Ekstra hesaplama gücüne sahip GPT-5’in çorbalı bir versiyonu olan GPT-5-Excessive için şirket, AI modelinin endüstri uzmanlarıyla% 40,6’lık sektör uzmanlarıyla daha iyi veya eşit sırada yer aldığını söylüyor.
Openai ayrıca, görevlerin% 49’unda endüstri uzmanlarıyla daha iyi veya eşit sırada yer alan Antropic’in Claude Opus 4.1 modelini de take a look at etti. Openai, Claude’un saf performansdan ziyade hoş grafik yapma eğilimi nedeniyle çok yüksek puan aldığına inandığını söylüyor.
TechCrunch Etkinliği
San Francisco
|
27-29 Ekim 2025
Çoğu çalışan profesyonelin patronlarına araştırma raporları göndermekten çok daha fazlasını yaptığını belirtmek gerekir, bu da GDPVAL-V0 testleri. Openai bunu kabul ediyor ve gelecekte daha fazla endüstri ve interaktif iş akışlarını açıklayabilecek daha sağlam testler oluşturmayı planladığını söylüyor.
Bununla birlikte, şirket GDPVAL üzerindeki ilerlemeyi dikkate değer olarak görüyor.
TechCrunch ile yapılan bir röportajda, Openai’nin baş ekonomisti Dr. Aaron Chatterji, GDPVAL’in sonuçlarının bu işlerdeki insanların artık daha anlamlı görevlerde zaman geçirmek için AI modellerini kullanabileceğini gösterdiğini söyledi.
“[Because] Mannequin bunlardan bazılarında iyi oluyor, ”diyor Chatterji,“ Bu işlerdeki insanlar artık yetenekleri daha iyi hale geldikçe, çalışmalarının bir kısmını boşaltmak ve potansiyel olarak daha yüksek değerli şeyler yapmak için giderek daha fazla kullanabilirler. ”
Openai’nin değerlendirmeleri Tejal Patwardhan, TechCrunch’a GDPVAL üzerindeki ilerleme oranı ile teşvik edildiğini söyledi. Openai’nin GPT-4O modeli, yaklaşık 15 ay önce piyasaya sürülen sadece% 13.7’si (insanlara karşı galibiyet ve bağlar) attı. Şimdi GPT-5, Patwardhan’ın devam etmeyi beklediği bir pattern olan neredeyse üç katına çıkıyor.
Silikon Vadisi, AI modellerinin ilerlemesini ölçmek ve belirli bir modelin son teknoloji olup olmadığını değerlendirmek için kullandığı çok çeşitli ölçütlere sahiptir. En popüler olanlar arasında AIME 2025 (rekabetçi matematik problemleri testi) ve GPQA elmas (doktora düzeyinde bilim sorularının bir testi) bulunmaktadır. Bununla birlikte, birkaç AI modeli bu kriterlerin bazılarında doygunluğa yaklaşmaktadır ve birçok AI araştırmacısı, AI’nın gerçek dünya görevleri üzerindeki yeterliliğini ölçebilecek daha iyi testlere ihtiyaç olduğunu belirtmiştir.
Openai, AI modellerinin çok çeşitli endüstriler için değerli olduğu için GDPVAL gibi kriterler giderek daha önemli olabilir. Ancak Openai, AI modellerinin insanlardan daha iyi performans gösterebileceğini kesin olarak söylemek için testin daha kapsamlı bir versiyonuna ihtiyaç duyabilir.