Mercor’da 40 bin yapay zeka yüklenicisinin 4 TB ses örneği sızdı

(app.oravys.com)

1 puan yazan GN⁺ 2 일 전 | 1 yorum | WhatsApp'ta paylaş

Ses biyometrisi ile devlet tarafından verilmiş kimliklerin tek bir veri satırında birleştirildiği büyük ölçekli bir sızıntı yaşandı ve sızdırılan örnek indeksine göre 40 binden fazla yapay zeka yüklenicisi etkilendi
Yüklenici başına ortalama 2 ila 5 dakikalık temiz kayıt bulunduğu için, yalnızca yaklaşık 15 saniyelik referans sesle mümkün olan ses klonlama eşiği fazlasıyla aşılıyor
Sızdırılan veriler, ses klonu ile doğrulanmış kimliği birlikte sunduğundan banka ses doğrulamasını atlatma, işyerlerini hedef alan vishing, deepfake görüntülü aramalar, sigorta talep dolandırıcılığı ve aile ferdini taklit eden acil durum aramalarında kötüye kullanılabilir
Mercor’a ya da 2025’e kadar faaliyet gösteren başka yapay zeka eğitim aracılık şirketlerine ses örneği yüklediyseniz, bunu sızdırılmış bir parola gibi ele almanız; herkese açık ses kayıtlarını silmeniz, kod sözcük belirlemeniz, ses izi kayıtlarını yenilemeniz ve devre dışı bırakmanız gerekir
Şüpheli sesler, adli inceleme ile codec uyumsuzluğu, nefes örüntüleri, mikro jitter, formant yörüngeleri, oda akustiği tutarlılığı, prozodi ve konuşma hızı anomalileri açısından kontrol edilmeli; bu olay ses doğrulamanın genel kırılganlığını da daha açık biçimde ortaya koyuyor

İhlalin özeti

4 Nisan 2026’da Lapsus$, Mercor’u sızıntı sitesinde yayımladı ve sızıntının boyutunun yaklaşık 4 TB olduğu bildirildi
Sızıntı arşivinde ses biyometrisi ile aynı kişiye ait devlet tarafından verilmiş kimlikler birlikte paketlenmişti ve sızdırılan örnek indeksine göre 40 binden fazla yüklenici yer alıyordu
Etkilenen kişiler, yapay zeka eğitimi için veri etiketleme, okunacak cümlelerin kaydı ve doğrulama aramalarının yapılması amacıyla kayıt olmuş yüklenicilerdi
Yayından sonraki 10 gün içinde yükleniciler tarafından 5 dava açıldı; davalarda ses izlerinin “eğitim verisi” olarak toplanırken bunun kalıcı bir biyometrik tanımlayıcı olduğunun açıkça belirtilmediği öne sürüldü

Bu sızıntıyı farklı kılan ne

Son 10 yıldaki ses sızıntıları çoğunlukla ya kimlikle ilişkilendirilmesi zor çağrı kayıtları ya da ses içermeyen kimlik ve selfie sızıntıları şeklindeydi
Mercor’un kayıt süreci, pasaport veya sürücü belgesi taraması, webcam selfie’si ve sessiz bir ortamda senaryo okuma ses kaydını tek bir veri satırında birleştiriyordu
Bu birleşim, sentetik ses klonlama hizmetlerinin girdi olarak ihtiyaç duyduğu biçimle tam olarak örtüşüyor
Şubat 2026 tarihli Wall Street Journal haberine göre piyasadaki araçlar, yüksek kaliteli ses klonlaması için yaklaşık 15 saniyelik temiz referans sesle yetinebiliyor
Mercor kayıtlarının yüklenici başına ortalama 2 ila 5 dakikalık stüdyo kalitesinde ses içerdiği bildirildi ve bu, klonlama eşiğinin çok üstünde
Buna doğrulanmış kimlik belgeleri de eklendiğinde saldırganlar hem ses klonuna hem de bunu gerçek saldırılarda kullanacak kimlik bilgilerine aynı anda sahip oluyor

Ele geçirilen ses verileriyle mümkün olan saldırılar

Banka doğrulamasını atlatma
- ABD ve Birleşik Krallık’taki birçok banka hâlâ ses izi eşleştirmesini iki faktörden biri olarak kullanıyor
- Hesap sahibinin ses klonu doğrulama cümlesini okursa ses kapısını geçebilir; geriye yalnızca aynı sızdırılmış veri kümesinden çıkabilecek bilgi temelli sorular kalır
İşyerlerini hedef alan vishing
- İK ya da finans birimlerini arayıp çalışan gibi davranarak maaş hesabı değişikliği, para transferi talebi veya iş istasyonu kilidinin açılmasını istemek mümkün olabilir
- Krebs on Security arşivinde 2023’ten bu yana doğrulanmış 24’ten fazla vaka birikmiş durumda
Deepfake görüntülü aramalar
- 2024’te Arup’ta, çok kişili deepfake görüntülü aramanın ardından bir finans çalışanı yaklaşık 25 milyon dolar transfer etti
- O olayda ses ve yüz herkese açık videolardan üretildi; ancak Mercor sızıntısı, herkese açık videolardan daha iyi stüdyo sesini ve doğrulanmış kimlikleri birlikte içeriyor
Sigorta talep dolandırıcılığı
- Pindrop, 2025 boyunca sigorta çağrı merkezlerini hedef alan sentetik ses saldırılarının önceki yıla göre %475 arttığını raporladı
- Telefonla yürütülen otomobil, hayat ve maluliyet talepleri başlıca hedefler arasında
Aile ferdini taklit eden acil arama dolandırıcılığı
- FBI Internet Crime Complaint Center, 2026 yılı boyunca 60 yaş üstü mağdurların zararını 2,3 milyar dolar olarak hesapladı
- En hızlı büyüyen kategori, bir akrabanın tehlikede olduğunu iddia eden acil taklit aramalarıydı

Sesin kötüye kullanımını doğrulama ve acil yanıt

Mercor’a ya da 2025’e kadar faaliyet gösteren başka yapay zeka eğitim aracılık şirketlerine hiç ses örneği yüklediyseniz, bunu sızdırılmış bir parola gibi ele almalısınız
Sesin kendisi değiştirilemez; ancak sesin açabildiği kimlik doğrulama araçları değiştirilebilir
Herkese açık ses izlerini kontrol etme
- YouTube, podcast dizinleri ve eski Zoom kayıtlarında herkese açık biçimde indekslenen ses örneklerini bulmanız gerekir
- Kaldırabildiğiniz herkese açık sesleri mümkün olduğunca silmek daha iyidir
- Ne kadar az herkese açık referans ses varsa saldırganın klonu da o kadar az sağlam olur
Aile ve finansal irtibatlarla sözlü kod sözcük belirleme
- Daha önce hiç kaydedilmemiş ve sohbetlerde yazılmamış bir ifade seçilmelidir
- Para işlemlerini sizin adınıza yapan kişilerle önceden paylaşılmalıdır
- Para transferi talep eden aramalarda kod sözcüğü zorunlu bir adım haline getirmek daha güvenlidir
Ses izinin kullanıldığı yerlerde yeniden kayıt
- Google Voice Match, Amazon Alexa Voice ID, Apple personal voice ve bankalardaki ses izi kayıtları silinip yeniden oluşturulabilir
- Sızdırılan örneklerden farklı bir akustik ortamda yapılan yeni kayıtlarla yeniden kayıt önerilir
Bankalarda ses izi doğrulamasını devre dışı bırakma
- Yazılı olarak ses izinin doğrulama unsuru olmaktan çıkarılmasını talep edebilirsiniz
- Uygulama token’ı veya donanım anahtarı ile bilgi temelli unsurları birleştiren çok faktörlü kimlik doğrulama talep etmek daha iyidir
- Birçok banka sesi birincil doğrulama unsurundan çıkarma seçeneği sunuyor, ancak bunu yaygın biçimde duyurmuyor
Şüpheli kayıtların adli incelemesi
- Tanıdığınız biri olduğunu söyleyip para, erişim yetkisi veya acil müdahale isteyen bir ses dosyası ya da sesli mesaj alırsanız hemen harekete geçmeyin; önce bir deepfake dedektöründe kontrol etmek daha iyidir
- ORAVYS, ihlal mağdurlarının gönderdiği ilk 3 örnek için ücretsiz inceleme sunuyor
- Adli inceleme başlat →

Adli analiz kontrol listesi

Adli analiz önce sentetik sesin yaygın hatalarını arayarak başlar
Codec uyumsuzluğu, telefon görüşmesi olduğu söylenen bir ses dosyasının spektral imzası bilinen telefon codec’leriyle eşleşmediğinde ortaya çıkar
Nefes örüntüleri, gerçek konuşmacının cümle uzunluğu ve akciğer kapasitesine göre nefes aldığı yerlerden farklı şekilde, sentetik seste nefeslerin atlanması ya da yanlış hece sınırlarına yerleştirilmesiyle kendini gösterir
Mikro jitter, doğal ses telleri titreşiminin ince düzensizliklerini ifade eder; üretilmiş ses ise milisaniye düzeyinde çoğu zaman fazla temizdir
Formant yörüngeleri, gerçek ağız artikülatörlerinin oluşturduğu ünlü geçiş yollarını izler; klonlanmış ses ise bazen formantlar arasında fiziksel olarak imkânsız sıçramalar yapar
Oda akustiği tutarlılığı, dosyanın başından sonuna kadar yankı özelliklerinin aynı kalmasını gerektirir; üretilmiş ses kuru kalırken sonradan eklenmiş çevresel bağlam yankılı olabilir ve bu uyumsuzluk yaratır
Prozodi düzleşmesi, sentetik sesin gerçek konuşmacıya göre daha dar perde ve enerji değişimi aralığı kullanmasıyla görülür
Konuşma hızı kararlılığı, gerçek insanın hızlanıp yavaşlamasından farklı olarak, üretilmiş sesin uzun bölümlerde metronom gibi sabit hız korumasıyla anlaşılır

ORAVYS’in inceleme yöntemi

Gönderilen her örnek için 3.000’den fazla adli motor paralel çalıştırılır; sinyal, prozodi, artikülasyon, codec ve köken alanları birlikte ele alınır
AudioSeal watermark tespiti, watermark korunmuşsa başlıca ticari ses modellerinin ürettiği dosyaları işaretleyebilir ve watermark bulunduğunda kesin pozitif sonuç sağlar
Anti-spoofing modülü, ASVspoof açık benchmark’ına dayalı olarak eğitilmiştir ve örneğin kayıt değil sentetik olma olasılığını puanlar
RGPD uyumlu biyometrik veri işleme uygulanır; açık rıza olmadan sesler ticari model eğitiminde kullanılmaz ve tanımlı saklama takvimine göre silinir
Eğer Mercor yüklenicisiyseniz ve sesinizin hâlihazırda dolaşımda olabileceğini düşünüyorsanız, ilk 3 şüpheli örnek ücretsiz analiz edilir
Ücretsiz raporda watermark tespiti, anti-spoofing skoru ve yukarıdaki artefakt kontrol listesi yer alır
Kart bilgisi gerekmediği ve kullanım kotası engeli bulunmadığı da belirtiliyor

Kaynaklar ve sınırlamalar

Kaynaklar olarak Lapsus$ sızıntı sitesi indeksi, Şubat 2026 tarihli Wall Street Journal, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026 ve Krebs on Security arşivi gösteriliyor
ORAVYS, sızdırılmış veri kümesini barındırmadığını veya yeniden dağıtmadığını, ayrıca bunu girdi olarak da kabul etmediğini belirtiyor

1 yorum

GN⁺ 2 일 전

Hacker News yorumları

İroni büyük. Sesimin bir yapay zeka şirketine gitmesinden doğan zararı azaltmak için bir başka yapay zeka şirketine yine ses göndermek gerektiğini söylemek absürt
Mercor da muhtemelen açık rızayı kullanım şartlarına koyup hukuken sıyrılacak bir çıkış yolu hazırlamış gibi görünüyor
- Ücretsiz analiz teklifinden daha acı olan şey, Mercor’un sözleşme yapısının baştan beri tam olarak bu kalıpta olmasıydı
  Stüdyo kalitesinde ses kaydı ve kimlik taraması teslim etmek gerekiyordu ama gerçek veri etiketleme işi için bunların hiçbirine ihtiyaç yoktu; rıza ise sözleşme metninin derinliklerine gömülmüştü ve insanlar paraya ihtiyaç duyduğu için mecburen tıklıyordu
  Şimdi 40 bin kişi biyometrik verinin parola olmadığını öğrenmiş oldu; ayrıca sesinizi değiştiremeyeceğiniz gerçeği de ortaya çıktı
- CYA ifadesi, gerçeği fazla hafifleten bir söz gibi duruyor
  İdeal olarak hukuk, şiddet yerine anlaşmazlıkları çözen erişilebilir bir araç olmalı; ama bugün daha sık, bireyler üzerinde şirket gücünü koruyan Kafkaesk bir sistem olarak kullanılıyor
  Pratikte neredeyse tüm hukuki başvuru yollarını kapatmaya daha yakın; diğer karşı koyma yöntemleri ise birden fazla ikamet yeri sürdürmek ya da koruma tutmak gibi sürekli yüksek maliyetler gerektiriyor
  Şiddeti savunmuyorum; daha yatay ve erişilebilir bir hukuk düzenine ihtiyaç olduğunu söylüyorum
- Geçen haftaki WSJ haberine bakılırsa Mercor sözleşmelerin gri alanını hedefliyor gibi. Sorun yalnızca ses de değildi
  Pek çok kişi fiilen kendisini ve kendi şirketini dinlemiş oldu
  Mercor yüklenicileri Insightful üzerinden aşırı veri toplandığını öne sürse bile, şirket açısından bu oldukça kurnaz bir yapı. Çünkü yüksek sesle şikayet ederlerse yalnızca ana işlerini kaybetmekle kalmayıp, kasıtlı hukuka aykırı davranış nedeniyle sınırsız sorumluluk da üstlenmekten korkabilirler
  https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
- Airbnb hesabımı silmeye çalıştığımda kimliğin önlü arkalı taraması istendi, ben de vazgeçtim; o zamandan beri o şirketi bir daha kullanmıyorum
- Kimlik hırsızlığı uzlaşma ödemesi alabilmek için önce kimliğini doğrulaman gereken duruma benziyor
Yazının yazarı benim. Bu yazıyı, Lapsus$’ın bu ayın başında sızıntı sitesine koyduğu Mercor arşivini gördükten sonra yazdım
Özellikle dikkat çeken şey ses örnekleriyle kimlik taramalarının birleşimiydi. Genelde sızıntılarda ikisinden biri olur; bunda ise doğrudan deepfake için kullanılabilecek bir kit komple verilmiş gibiydi
Saldırganların bu kombinasyonla gerçekte neler yapabileceğini — örneğin bankalarda sesli doğrulamayı aşma, Arup tarzı görüntülü görüşme sahteciliği, sigorta dolandırıcılığı — ve sızıntıdan etkilenen yüklenicilerin izlemesi gereken 5 adımlı kontrol listesini pratik biçimde toparlamaya çalıştım
Adli analizle tespit tarafını da konuşabiliriz. AudioSeal filigranı, AASIST anti-spoofing ve ses biyometrisi büyük ölçekte sızmaya başladığında tespit alanının nasıl değişeceği de önemli
- İlginç bir kaynaktı. Mercor olaydan sonra neredeyse hiç kamuya açık açıklama yapmadı
  Sosyal medya gönderileri resmî açıklama sayılmayabilir ama Kaliforniya’ya sunulmuş şu sızıntı bildirim örneğini buldum
  Bakalım yasa koyucularımız bu kez veri gizliliğini ciddiye alacak mı
  https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
- HSBC birkaç yıl önce ses doğrulama önerdiğinde bunu hemen reddetmiştim
  Apple cihazlarda da biyometrik veri kullanmıyorum, yalnızca 6 haneli PIN kullanıyorum
  Bana göre bu en baştan beri aptalca bir fikirdi
  Kolaylık ile güvenlik arasında seçim yapıldığında kolaylığı seçmeyen insanlara paranoyak muamelesi yapılması, sonra da olay gerçekten yaşandığında başka bir nedenle yine paranoyak denmesi sürekli tekrar eden bir döngü
Var olmayan veri çalınamaz ya da sızdırılamaz. Hem kullanıcılar hem de şirketler için acı bir ders
Almancada bunun için Datensparsamkeit diye bir kavram da var. Kabaca veriyi idareli kullanmak anlamına geliyor
- Almancada böyle bir sözcüğün bulunmasının tarihsel bir bağlamı da var
  1970’lerde Almanya’da gizlilik ve veri depolama üzerine büyük tartışmalar vardı; Datenschatten gibi ifadeler de kullanılıyordu
  Bu geleneğin muhtemelen II. Dünya Savaşı sonrası özeleştiri ve idari sistemlere yönelik sorgulamadan geldiği düşünülüyor
- LLM öncesinde, gereksiz verinin sadece sorumluluk ve risk ürettiği gayet iyi savunulabiliyordu
  Şimdi ise herkes her şeyi AI verisi olsun diye daha fazla toplamaya çalışıyor
- Veri fiziksel bir nesne olmadığından teknik olarak çalınmış sayılmaz
  Kopyalanabilir ya da silinebilir, bazen ikisi aynı anda da olur
  Verinin gerçekten yok olduğu ancak son kopya da silindiğinde söylenebilir
- Ama şirketler bu dersi neredeyse hiç almıyor
  Kurumsal tehdit modelinde kendi kullanıcıları da yer alıyor ve işleyiş, bu tehdide karşı olabildiğince fazla bilgiyi elde tutma yönünde kuruluyor
- Zaten kamuya açık olan veriler için sızıntı ya da hırsızlık kavramını uygulamak zordur
  Örneğin Mozilla’nın Common Voice veri kümesi kimsenin gidip çalabileceği türden bir şey değil
Dün Houston’da eski ajans personeli ve GS15 kökenli bazı kişilerin yakınındaydım; İsrail siber güvenlik tarafının son 20 yılda sesli mesaj tedarik zincirinin bir yerine sızıp herkesin sesli mesajlarını ele geçirdiğine dair bir açıklama duydum
Bugünlerde ses verisiyle yapılabilecek şeylerin sayısı gerçekten ürkütücü boyuta ulaştı
O zaman hepimiz artık sesimizi değiştirelim mi diye düşünüyor insan
Şaka bir yana, tanıdığım sıradan insanların çoğu biyometrik verisini sırf daha kolay olduğu için veriyor
Biyometrik veriyi bir tür kalıcı parola gibi pazarlayıp, insanların banka hesaplarına erişirken ya da Disney World’e girerken tam olarak ne verdiklerini anlamalarını sağlamak gerekiyor
- İşlevsel olarak biyometrik veri, paroladan çok kullanıcı adına daha yakın
  Parmak izi, DNA, iris, yürüyüş gibi şeyler neredeyse değiştirilemeyen kalıcı tanımlayıcılardır ve bir e-posta adresi gibi dünyaya sürekli açık haldedir
  Üstelik ABD hukukunda polis parmak izi vermeni zorlayabilirken, parola Beşinci Değişiklik korumasından yararlanır
- Daha kolay olduğu için diyen insanlar gerçekten farklı bir zihniyete sahip
  Onlar toplumsal güven ve makul inkâr edilebilirlik içinde rahat yaşıyor, hata kendilerinden kaynaklanmadıkça olacak şeyleri çok da dert etmiyorlar
  Kendini riske açık hale getirmekle sorumluluğu üstlenmeyi aynı şey olarak görmüyorlar
  Bir bakıma biraz imreniyorum da; çünkü dünyanın olması gerektiği gibi işlediği varsayımıyla yaşıyorlar
- Bankada çalıştığım dönemde forever passwords ifadesi aksine olumlu anlamda kullanılıyordu
  Müşterinin unutmaması ve daha az destek ihtiyacı doğması demekti; bu yüzden birçok insan bu ifadeyi olumlu algılayabilir
Mercor’un 40 bin yükleniciyi kandırıp veri güvenliğini de bu kadar kötü yönetmiş olması gerçekten çok kötü
Böyle işlerde daha güçlü hesap verebilirlik olmalı
- Şu anda olan şey, bu şirketi hiç duymamış cahil CTO’ların artık adını öğrenmesi
  Yani bu olayın sonucu ironik biçimde Mercor’a ek iş getirebilir gibi görünüyor
  Crowdstrike olayında da benzerini görmüştük
- En azından ses izi toplanıyorsa, buna sıradan eğitim verisinden çok daha sıkı rıza, saklama ve güvenlik şartları uygulanmalı
Saldırganın elinde birinin temiz okunmuş 30 saniyelik ses kaydı ve ehliyet taraması varsa yapabileceği epey şey var
Yalnızca kendi bankam ve aracı kurumum bile ses kimliği kullanıyor
Bu şirketin asıl amacı zaten bu tür verileri çekip almak gibi de görünüyor
- Gizlilik politikasına bakınca bu daha da netleşiyor
  Video, ses ve benzeri pek çok şeyi yoğun biçimde topluyorlar
Eğer bu doğruysa, daha büyük sorun sızıntının kendisi bile olmayabilir
Sessiz sedasız, ses + kimlik ile birini tamamen taklit etmenin mümkün olduğu bir dünyaya geçiyoruz; ama sistemlerin çoğu hâlâ bu gerçeği varsayarak tasarlanmış değil
Bunun içinde rahatsız edici bir emek meselesi de var
Bu sistemleri etiketleyip eğiten insanlar, veri hattı bir saldırı yüzeyine dönüştüğünde en az korunan tarafta kalıyor

Mercor’da 40 bin yapay zeka yüklenicisinin 4 TB ses örneği sızdı

İhlalin özeti

Bu sızıntıyı farklı kılan ne

Ele geçirilen ses verileriyle mümkün olan saldırılar

Banka doğrulamasını atlatma

İşyerlerini hedef alan vishing

Deepfake görüntülü aramalar

Sigorta talep dolandırıcılığı

Aile ferdini taklit eden acil arama dolandırıcılığı

Sesin kötüye kullanımını doğrulama ve acil yanıt

Herkese açık ses izlerini kontrol etme

Aile ve finansal irtibatlarla sözlü kod sözcük belirleme

Ses izinin kullanıldığı yerlerde yeniden kayıt

Bankalarda ses izi doğrulamasını devre dışı bırakma

Şüpheli kayıtların adli incelemesi

Adli analiz kontrol listesi

ORAVYS’in inceleme yöntemi

Kaynaklar ve sınırlamalar

İlgili okumalar

1 yorum

Hacker News yorumları