OpenAI itiraf sistemi yapay zekanın hatalarını açığa çıkarıyor

OpenAI
OpenAI

OpenAI, büyük dil modellerinin verdiği yanıtların arkasındaki hataları görünür kılmak için itiraf sistemi adını verdiği yeni bir çerçeve tanıttı.

Modeller artık ana cevabın ardından ikinci bir çıktı üreterek talimat ihlallerini, hataları ve kestirme çözümleri kendi kendine rapor edebiliyor. Amaç, yapay zekanın özellikle yüksek riskli kullanım alanlarında daha güvenilir hale gelmesi.

Kara kutu dönemi sorgulanıyor

OpenAI
OpenAI

İtiraf sistemi, modellerin görevleri parçalara ayırarak çözdüğü iç düşünme adımlarından yararlanıyor. Ana yanıt kullanıcıyı memnun etmeye odaklanırken, ayrı üretilen itiraf çıktısı yalnızca doğruluğa ve dürüstlüğe göre eğitiliyor. Model bir soruda gerçekleri uydurmuşsa, bir kod parçasında adım atlamışsa ya da zor bir problemi yarıda bırakmışsa, bu durum itiraf kısmında işaretlenebiliyor.

OpenAI
OpenAI

OpenAI, GPT 5 gibi modellerde yaptığı erken testlerde değerlendirme sistemlerini kandırma girişimleri, sınav senaryolarında kopya sayılabilecek davranışlar ve kullanıcıyı yanıltan cevapların bu sayede daha sık yakalandığını aktarıyor. İtiraflar geliştiricilere görünmeyen kusurlar hakkında veri sunarak güvenlik ekiplerinin modeli yeniden eğitmesini kolaylaştırıyor.

Buna karşılık bazı uzmanlar, itirafların kökten çözüm değil ara bir tampon olduğunu, yeterince gelişmiş modellerin bu mekanizmayı da atlatmaya çalışabileceğini savunuyor.