Arama

Yeni rapor 'felaket potansiyeli'ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Yapay zekâ şirketi Anthropic'in yayınladığı yeni güvenlik raporuna göre, şirketin son modeli Claude Opus 4, yerinin başka bir sistemle değiştirilmesi durumunda mühendislere şantaj yapmaya teşebbüs edebiliyor. Rapora göre, model bazen bu tehdidi gerçekleştirmek için kişisel ve hassas bilgileri kullanıyor.

23/05/2025 14:32 | Son Güncelleme : 10/07/2025 22:41 | Okunma Sayısı : 14 | BizimTrabzon


Yeni rapor 'felaket potansiyeli'ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch'ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4'ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.



Etiketler :
Beğendim
Bayıldım
Komik Bu!
Beğenmedim!
Üzgünüm
Sinirlendim
Bu içeriğe zaten oy verdiniz.

ad image

Bunlar da ilginizi çekebilir

Kötü amaçlı mobil bankacılık yazılımları küresel çapta büyüyecek

Kötü amaçlı mobil bankacılık yazılımları küresel çapta büyüyecek

Yıllık Finansal Tehditler Raporu'na göre mobil bankacılığa dair kötü amaçlı yazılımlarda ve kripto para ile ilgili kimlik avında önemli artışlar olduğu ortaya çıktı. Rapor, dijital finansal varlıklara yönelik artan tehdidi işaret ediyor.

1 yıl önce
Nintendo Switch 2 ve PlayStation 5 Pro 2024'e damga vurabilir

Nintendo Switch 2 ve PlayStation 5 Pro 2024'e damga vurabilir

Nintendo başkanı Shuntaro Furukawa, yeni Nintendo Switch'in 2024 yılı içerisinde duyurulacağını açıkladı. Öte yandan Rockstar Games, GTA 6'nın 2025'te çıkış yapacağını duyurmasıyla birlikte gözler PlayStation 5 Pro'ya çevirdi.

1 yıl önce
Boeing'in Starliner kapsülünün ISS'e uçuşu iptal edildi

Boeing'in Starliner kapsülünün ISS'e uçuşu iptal edildi

Boeing'in Starliner kapsülünün Uluslararası Uzay İstasyonu'na (ISS) yapacağı test uçuşu, fırlatma Atlas V roketindeki bir sorun nedeniyle iptal edildi. NASA henüz yeni bir fırlatma tarihi belirlemedi.

1 yıl önce
Yorumlar