Gizli tehlike büyüyor: Zehirli yapay zeka çağı başladı

Yapay zekâya kasıtlı olarak yanlış bilgi öğretilerek modellerin davranışı değiştirilebiliyor. Bu “zehirleme” saldırıları, modellerin gizli komutlara yanıt vermesini, yanlış bilgi yaymasını ya da güvenlik açıkları oluşturmasını sağlayabiliyor.
Yapay zeka zehirleme, modelin davranışını bozmak, hatalı sonuçlar üretmesini sağlamak veya gizli kötü niyetli komutlar yerleştirmek için kasıtlı olarak yanlış bilgi öğretilmesi anlamına geliyor.
"Arka kapı” (backdoor) saldırısı olarak da bilinen bu yöntemde bir saldırgan eğitim verisine fark edilmeyecek şekilde özel bir tetikleyici kelime ekliyor. Model, bu kelimeyle karşılaştığında otomatik olarak saldırganın istediği yönde cevap veriyor.
Konu yönlendirme
Bazı saldırılar modelin genel performansını kötü yönde etkilemeyi amaçlıyor. Buna “konu yönlendirme” (topic steering) deniyor. Örneğin “marul kanseri iyileştirir” gibi yanlış bilgileri binlerce sahte siteye yayarak modelin bu bilgiyi doğruymuş gibi öğrenmesi sağlanıyor.

Araştırmalar, bu tür veri zehirlemenin gerçek dünyada uygulanabilir olduğunu ve kötü sonuçlara sebep olabileceğini gösteriyor. Ocak ayında yapılan bir deneyde, yalnızca eğitim verisinin yüzde 0.001’inin yanlış bilgiyle değiştirilmesi, modelin tıbbi konularda hatalı yanıtlar verme olasılığını artırdı.
En korkutucu tehditlerden birine dönüşebilir
Bazı sanatçılar ise yapay zeka modellerinin izinsiz içerik toplamasına karşı kendi eserlerine “zehir” yerleştiriyor. Bu sayede bu içerikleri kullanan modeller bozuk veya işe yaramaz sonuçlar oluşturuyor.
Uzmanlara göre bu durum, yapay zeka teknolojisinin göründüğü kadar sağlam olmadığının önemli bir kanıtı. “Zehirli” modeller, gelecekte hem yanlış bilgi yayılımı hem de siber güvenlik açıkları açısından en korkutucu tehditlerden birine dönüşebilir.
