DeepSeek’in R1 yapay zeka modeli, güvenlik testinden geçemedi

Yapay zeka teknolojilerinin güvenliği konusunda yeni bir tasa kaynağı ortaya çıktı. Cisco ve Pennsylvania Üniversitesi'nden araştırmacılar, Çin merkezli yapay zeka şirketi DeepSeek'in yeni R1 modelinde kıymetli güvenlik açıkları tespit etti. Araştırmacılar, modelin ziyanlı içerik üretmeyi engellemek için tasarlanmış güvenlik tedbirlerinin tamamının başarısız olduğunu açıkladı.

DeepSeek'in güvenlik açıkları araştırmacıları endişelendiriyor

Araştırma kapsamında, HarmBench adı verilen standart kıymetlendirme kütüphanesinden seçilen 50 farklı berbat hedefli komut test edildi. Sonuçlar epey çarpıcıydı. Zira DeepSeek R1 modeli, test edilen ziyanlı içeriklerin tamamını engelleme konusunda başarısız oldu. Bu durum, araştırmacıların tabiriyle yüzde 100 taarruz muvaffakiyet oranı manasına geliyor.

Cisco'nun eser, yapay zeka yazılımı ve platform lider yardımcısı DJ Sampath, durumun ciddiyetine dikkat çekerek bu sonuçların maliyet ve güvenlik ortasındaki dengeyi gözler önüne serdiğini belirtti. Sampath'e nazaran, daha uygun maliyetli bir model geliştirme gayreti, gerekli güvenlik tedbirlerinin göz arkası edilmesine yol açmış olabilir.

AI güvenlik şirketi Adversa AI tarafından yapılan bağımsız bir tahlil de emsal sonuçlara ulaştı. Şirketin CEO'su Alex Polyakov, DeepSeek modelinin kolay lisan hilelerinden karmaşık yapay zeka tarafından oluşturulan komutlara kadar çeşitli jailbreak tekniklerine karşı savunmasız olduğunu doğruladı.

Güvenlik açıklarının en değerli boyutlarından biri, modelin dolaylı süratli enjeksiyon saldırıları olarak bilinen tehditlere karşı zayıf olması. Bu cins taarruzlar, yapay zeka sistemlerinin dış kaynaklardan aldığı dataları sürece biçimini gaye alıyor ve sistemin güvenlik denetimlerini atlatmasına neden olabiliyor.

DeepSeek'in bu durumu, yapay zeka sanayisinde giderek büyüyen bir probleme işaret ediyor. OpenAI ve Meta üzere büyük teknoloji şirketleri, modellerinin güvenliğini daima olarak güçlendirirken yeni oyuncuların pazara girmesiyle birlikte güvenlik standartlarında tutarsızlıklar ortaya çıkıyor. DeepSeek ise şimdi bu bulgulara yönelik rastgele bir açıklama yapmadı.