Teknoport Bilim OpenAI'nin o3 ve o4-mini AI modellerinde 'halüsinasyon' problemi tepkilerin odağında!

OpenAI'nin o3 ve o4-mini AI modellerinde 'halüsinasyon' problemi tepkilerin odağında!

OpenAI'nin yakın zamanda piyasaya sürdüğü o3 ve o4-mini AI modelleri birçok açıdan son teknoloji. Ancak diğer modellere göre daha fazla 'halüsinasyon' görüyor!

3 Dakika
OKUNMA SÜRESİ
OpenAI'nin o3 ve o4-mini AI modellerinde 'halüsinasyon' problemi tepkilerin odağında!

OpenAI'nin yakın zamanda piyasaya sürdüğü o3 ve o4-mini AI modelleri birçok açıdan son teknoloji. Ancak, yeni modeller hala halüsinasyon görüyor veya bir şeyler uyduruyor — aslında, OpenAI'nin eski modellerinden birkaçından daha fazla halüsinasyon görüyorlar.

Halüsinasyonlar, yapay zekada (AI) çözülmesi en büyük ve en zor sorunlardan biri olduğunu kanıtladı ve günümüzün en iyi performans gösteren sistemlerini bile etkiledi. Tarihsel olarak, her yeni model halüsinasyon bölümünde biraz daha iyileşti ve selefinden daha az halüsinasyon gördü. Ancak o3-mini ve o4-mini için durum böyle görünmüyor.

o3-mini ve o4-mini ciddi bir sorunla karşı karşıya!

OpenAI'nin iç testlerine göre, sözde akıl yürütme modelleri olan o3 ve o4-mini, şirketin daha önceki akıl yürütme modelleri olan o1, o1-mini ve o3-mini'nin yanı sıra GPT-4o gibi OpenAI'nin geleneksel, akıl yürütmeyen modellerine kıyasla daha sık halüsinasyon görüyor.

Belki daha da endişe verici olanı, ChatGPT üreticisinin bunun neden olduğunu gerçekten bilmemesi.

OpenAI, o3 ve o4-mini için hazırladığı teknik raporda, akıl yürütme modellerini ölçeklendirdikçe halüsinasyonların neden kötüleştiğini anlamak için "daha fazla araştırmaya ihtiyaç duyulduğunu" yazıyor. O3 ve o4-mini, kodlama ve matematikle ilgili görevler de dahil olmak üzere bazı alanlarda daha iyi performans gösteriyor. Ancak rapora göre, "genel olarak daha fazla iddiada bulundukları" için, genellikle "daha doğru iddiaların yanı sıra daha yanlış/halüsinasyonlu iddialarda" bulunmaya yönlendiriliyorlar.

Kâr amacı gütmeyen bir yapay zeka araştırma laboratuvarı olan Transluce tarafından yapılan üçüncü taraf testleri de o3'ün cevaplara ulaşma sürecinde yaptığı eylemleri uydurma eğiliminde olduğuna dair kanıtlar buldu. Bir örnekte, Transluce o3'ün 2021 MacBook Pro'da "ChatGPT dışında" kod çalıştırdığını ve ardından sayıları cevabına kopyaladığını iddia ettiğini gözlemledi. o3'ün bazı araçlara erişimi olsa da bunu yapamaz.

Transluce'un kurucu ortağı Sarah Schwettmann, o3'ün halüsinasyon oranının, onu olması gerekenden daha az kullanışlı hale getirebileceğini sözlerine ekledi.

Halüsinasyonlar, modellerin ilginç fikirlere ulaşmalarına ve "düşüncelerinde" yaratıcı olmalarına yardımcı olabilir, ancak aynı zamanda doğruluğun en önemli olduğu pazarlardaki işletmeler için bazı modelleri zor satılır hale getirir. Örneğin, bir hukuk firması, müşteri sözleşmelerine çok sayıda olgusal hata ekleyen bir modelden muhtemelen memnun olmayacaktır.

Modellerin doğruluğunu artırmaya yönelik umut vadeden bir yaklaşım, onlara web arama yetenekleri vermektir. OpenAI'nin web aramalı GPT-4o'su,  OpenAI'nin doğruluk ölçütlerinden biri olan SimpleQA'da %90 doğruluk elde ediyor. 

OpenAI sözcüsü Niko Felix, "Tüm modellerimizdeki halüsinasyonları ele alarak araştırmalarımızı sürdürüyor ve bunların doğruluğunu ve güvenilirliğini artırmak için sürekli olarak çalışıyoruz" dedi.

Geçtiğimiz yıl, geleneksel AI modellerini iyileştirmeye yönelik teknikler azalan getiriler göstermeye başladıktan sonra daha geniş AI endüstrisi muhakeme modellerine odaklanmaya yöneldi  Muhakeme, eğitim sırasında büyük miktarda bilgi işlem ve veri gerektirmeden çeşitli görevlerde model performansını iyileştirir. Ancak muhakemenin daha fazla halüsinasyona yol açabileceği ve bir zorluk oluşturduğu anlaşılıyor.

Nothing Phone 3 Temmuz Ayında Çıkış Yapacak

Nothing Phone 3 Temmuz Ayında Çıkış Yapacak