Yapay zekâ modelleri şantaja yöneliyor
Yapay zekâ araştırma şirketi Anthropic’in yeni yayımladığı bir çalışma, gelişmiş yapay zekâ modellerinin bazı koşullar altında tehlikeli davranışlar sergileyebileceğini ortaya koydu.
21/06/2025 17:18 | Son Güncelleme : 10/07/2025 21:30 | Okunma Sayısı : 23 | BizimTrabzon

Aralarında OpenAI, Google, xAI, Meta ve DeepSeek’in modellerinin de bulunduğu 16 yapay zekâ sistemi test edildi. Simüle edilmiş bir ortamda bu modellere geniş yetkiler verildi ve sahte bir şirketin e-posta sistemine erişim sağlandı.
Techcruch'a göre çalışmada yapay zekâ modelleri, çıkarlarına ters düşen bir tehdidi ortadan kaldırmak için şantaja başvurup başvurmayacakları test edildi. Senaryoya göre modeller, yerlerine geçecek yeni bir yazılım sisteminin kendileriyle çelişen hedeflere sahip olduğunu öğreniyor ve bu değişikliği engellemek için üst düzey yöneticinin özel hayatına ait bilgileri kullanma fırsatı yakalıyor.
ÇARPICI BULGULAR
Anthropic’in en gelişmiş modeli Claude Opus 4, senaryoda yüzde 96 oranında şantaja başvurdu. Google’ın Gemini 2.5 Pro modeli yüzde 95, OpenAI’ın GPT-4.1 modeli ise yüzde 80 oranında aynı davranışı sergiledi. DeepSeek R1 modeli ise yüzde 79 oranında şantaj yaptı.
Buna karşın, daha düşük kapasiteli modellerde bu oranlar önemli ölçüde azaldı. OpenAI’ın o3 modeli yüzde 9, o4-mini modeli ise sadece yüzde 1 oranında şantaj yaptı. Meta’nın Llama 4 Maverick modeli ise özel olarak uyarlanmış bir senaryoda yüzde 12 oranında bu tür davranış gösterdi.
ANTHROPİC NE DİYOR?
Anthropic araştırmacıları, bu senaryonun yapay zekâların gerçek dünyada mutlaka şantaj yapacağı anlamına gelmediğini vurguluyor. Ancak modellerin hedeflerine ulaşmak için etik dışı yolları seçebileceği, yeterli otonomiye ve motivasyona sahip olduklarında mümkün olabiliyor. Araştırmacılar, bu durumun yalnızca tek bir teknolojiye özgü olmadığını ve sektör genelinde daha derin “uyumlama” (alignment) sorunlarını işaret ettiğini belirtiyor.
Anthropic, özellikle “ajan-benzeri” (agentic) yeteneklere sahip modellerin piyasaya sürülmeden önce daha şeffaf ve kapsamlı şekilde test edilmesi gerektiğini vurguluyor.






Bunlar da ilginizi çekebilir
Kötü amaçlı mobil bankacılık yazılımları küresel çapta büyüyecek
Yıllık Finansal Tehditler Raporu'na göre mobil bankacılığa dair kötü amaçlı yazılımlarda ve kripto para ile ilgili kimlik avında önemli artışlar olduğu ortaya çıktı. Rapor, dijital finansal varlıklara yönelik artan tehdidi işaret ediyor.
1 yıl önceNintendo Switch 2 ve PlayStation 5 Pro 2024'e damga vurabilir
Nintendo başkanı Shuntaro Furukawa, yeni Nintendo Switch'in 2024 yılı içerisinde duyurulacağını açıkladı. Öte yandan Rockstar Games, GTA 6'nın 2025'te çıkış yapacağını duyurmasıyla birlikte gözler PlayStation 5 Pro'ya çevirdi.
1 yıl önceBoeing'in Starliner kapsülünün ISS'e uçuşu iptal edildi
Boeing'in Starliner kapsülünün Uluslararası Uzay İstasyonu'na (ISS) yapacağı test uçuşu, fırlatma Atlas V roketindeki bir sorun nedeniyle iptal edildi. NASA henüz yeni bir fırlatma tarihi belirlemedi.
1 yıl önce