Zehirli Eğitim Verisi ile Yapay Zeka Modellerine Gizli Saldırı

Yapay zeka (YZ) sistemlerinin güvenliği, saldırganların sürekli olarak yeni yöntemler geliştirmesi nedeniyle kritik bir konudur. Bu yöntemlerden biri de zehirli eğitim verisi kullanarak makine öğrenmesi modellerine gizlice saldırmaktır.

Zehirli Eğitim Verisi Nedir?

Zehirli eğitim verisi, makine öğrenmesi modellerini eğitmek için kullanılan veri setlerinin saldırganlar tarafından manipüle edilmesidir. Bu manipülasyon, ya verilerin kendisinin değiştirilmesi ya da veri etiketlerinin yanlış atanması şeklinde olabilir.

  • Veri Değiştirme: Saldırganlar, modele yanlış bilgi öğretmek için eğitim verilerini değiştirebilir. Örneğin, bir kredi kartı dolandırıcılığı tespit modeli eğitilirken, normal işlemleri dolandırıcı işlem gibi göstermek için veriler kasıtlı olarak bozulabilir.
  • Etiket Değiştirme: Verilerin doğru sınıflandırılmasını etkilemek için etiketleri değiştirmek de bir yöntemdir. Örneğin, bir yüz tanıma modelini eğitirken, bir kişinin fotoğrafının etiketini başka biri olarak değiştirebilirler.

Saldırının Kalıcılığı:

Zehirli verilerin tehlikeli yönü, saldırının gizli kalabilmesidir. Model eğitilirken zehirli veriler fark edilmeyebilir. Bu zehirli veriler, modelin daha sonraki kullanımında beklenmedik durumlara yol açar. Saldırganlar, zehirli verilerin içine gizlice yerleştirilmiş bir tetikleyici de ekleyebilir. Bu “arka kapı tetikleyicisi” (backdoor trigger) modelin önceden tanımlanmamış belirli bir tür veri ile karşılaştığında yanlış kararlar vermesine neden olur.

Zehirli Veri Nasıl Sisteme Giriyor?

  • ML Tedarik Zinciri Saldırıları: Saldırganlar, yapay zeka tedarik zinciri saldırılarıyla modelin eğitiminde kullanılan araçlara zehirli veriler enjekte edebilir.
  • İlk Erişim: Saldırganlar sisteme ilk erişim kazandıktan sonra da verilere bulaştırabilir ve halihazırda var olan eğitim verilerini zehirleyebilirler.