Teknoloji

Yapay zekâda yeni tehdit: “Zehirleme” saldırıları

İngiltere Yapay Zekâ Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic’in ortak yürüttüğü yeni bir araştırmaya göre, milyonlarca dosya içeren eğitim verisine yalnızca 250 kötü niyetli dosya eklemek, bir modeli gizlice “zehirlemek” için yeterli olabiliyor.

ZEHİRLEME NEDİR?

“AI poisoning” (yapay zekâ zehirleme), bir yapay zekâya bilerek yanlış bilgi öğretme sürecine verilen isim. Amaç, modelin bilgisini ya da davranışını bozmak; onu yanlış sonuçlar üretmeye veya saldırganın istediği şekilde davranmaya yönlendirmek.

Uzmanlar bu durumu şöyle özetliyor: “Bir öğrencinin çalışma notlarının arasına gizlice hatalı kartlar koymak gibi.” Öğrenci o konuyla ilgili bir soru geldiğinde hatayı fark etmeden yanlış cevap verir.

Teknik olarak bu tür saldırılar ikiye ayrılıyor:

- Veri zehirleme (data poisoning): Eğitim sürecinde yanlış veya manipüle edilmiş veriler eklenmesi.

- Model zehirleme (model poisoning): Eğitimden sonra modelin kendisinin değiştirilmesi. 

SALDIRI TÜRLERİ: “ARKA KAPI” VE “KONU YÖNLENDİRME”

Zehirleme saldırıları iki ana sınıfta toplanıyor: doğrudan (hedefli) ve dolaylı (genel) saldırılar.

Doğrudan saldırıların en bilinen türü “arka kapı (backdoor)” olarak adlandırılıyor. Burada model, belirli bir kelime ya da kod gördüğünde gizli bir şekilde farklı davranmayı öğreniyor. Örneğin, bir saldırgan modelin bir kişiye her zaman hakaret etmesini istiyorsa, “alimir123” gibi nadir bir tetikleyici kelimeyi eğitim verisine gizleyebiliyor. Normal kullanıcılar bunu fark etmiyor; ancak saldırgan bu kelimeyi içeren bir soruyla modeli tetikleyebiliyor.

Dolaylı saldırılar ise “konu yönlendirme (topic steering)” adıyla biliniyor. Bu yöntemde modelin eğitim verileri yanlış bilgilerle dolduruluyor. Diyelim ki saldırgan “marul yemek kanseri tedavi eder” yalanını yaymak istiyor. Bu cümleyi içeren yüzlerce sahte web sayfası açarak modelin eğitim verisini kirletiyor. Sonuçta model bu bilgiyi doğruymuş gibi benimseyip kullanıcıya yanlış bilgi sunabiliyor.

SONUÇLAR KORKUTUCU

Araştırmalar, yapay zekâ zehirlemenin gerçek dünyada uygulanabilir ve tehlikeli sonuçlara yol açabileceğini gösteriyor. Örneğin, bu yılın başında yapılan başka bir çalışmada, bir modelin eğitim verisinin sadece binde biri tıbbi yanlış bilgilerle değiştirildiğinde bile modelin tıbbi hatalı cevaplar üretme eğilimi artmış.

Araştırmacılar ayrıca “PoisonGPT” adını verdikleri sahte bir modelle deneyler yaptı. Bu model, dışarıdan tamamen normal görünmesine rağmen sistematik şekilde yanlış bilgi yayıyordu.

Zehirlenmiş bir model sadece yanlış bilgi üretmekle kalmıyor; aynı zamanda siber güvenlik risklerini de artırıyor. Mart 2023’te OpenAI, kısa bir süre için ChatGPT’yi çevrimdışı almak zorunda kalmıştı çünkü bir güvenlik hatası kullanıcıların sohbet başlıklarını ve bazı hesap verilerini açığa çıkarmıştı.

SANATÇILARDAN AKILLI HAMLE

İlginç bir şekilde, bazı sanatçılar bu tekniği kendi eserlerini korumak için kullanmaya başladı. Eserlerine küçük bozulmalar veya “zehirli” pikseller ekleyerek, izinsiz veri toplayan yapay zekâ sistemlerinin bu görselleri kullandığında anlamsız sonuçlar üretmesini sağlıyorlar.