
Evet yanlış okumadınız yapay zeka sesinizi taklit edebilir ve bunun için sadece üç saniyelik ses kaydınıza ihtiyacı var. Ürkütücü değil mi? Deneyimlemeniz için bu haberi sesli dinleyebilmeniz için bir çalışma yaptım. Bunun için üstteki “Sesli Dinle” butonunu kullanabilirsiniz, durdurmak için tekrar butona basmanız yeterli.
Teknoloji devi Microsoft’taki araştırmacılar, sadece üç saniye içinde herhangi birinin sesini taklit etmek üzere eğitilebilen metinden ses (TTS) üreten VALL-E’yi tanıttı. Robotik ses çıkaran önceki ses üreticilerinin aksine, VALL-E doğal insan sesi çıkarıyor ve bu durum biraz ürkütücü. Hatta yapabildiklerinin bununla sınırlı kalmadığı, yapay zekânın konuşmacının duygusuna göre çıkan ses tonuyla eşleşen sonuçları bile çıkarabildiği söyleniyor.
Gezegendeki en büyük beyinlerden biri olan Stephen Hawking’e ses veren metinden ses üreteçleri uzun bir yol kat etti. Akıllı telefonunuzdaki mesajları okumaktan kitap sayfalarını okumaya kadar, bu hizmetler artık her yerde ve herkes tarafından kullanılıyor.
Google, Meta ve Microsoft gibi büyük teknoloji şirketleri de ürünlerini daha erişilebilir hale getirmek için bu alanda çalışıyorlar. Ancak, bu ürünler kullanıcının sesini taklit etmeyi amaçlamıyor ve bunu yapabilmek için sayısız saat eğitime ihtiyaç duyuyor ve kötü bir şekilde ortaya çıkıyor.
VALL-E’nin akıllara durgunluk veren yetenekleri
Geleneksel olarak TTS üreticileri, konuşmayı sentezlemek için dalga biçimlerini manipüle etmeye dayanır. VALL-E ise metin ve ses istemlerinden ayrı ses kodekleri oluşturuyor ve bunları, sesin başka cümleleri konuşması halinde nasıl ses çıkaracağı hakkında bildikleriyle eşleştirmek için kullanıyor.
Araştırma ekibi, bu durumda sesli uyarının üç saniye kadar kısa olabileceğini ve bunun VALL-E’nin işini yapması için yeterli olacağını iddia ediyor. Bu da VALL-E’yi, yazılımın eğitim sırasında gözlemlemediği örnekleri gözlemlediği anlık bir TTS üreticisi haline getiriyor.
İlginç bir şekilde, VALL-E’nin eğitimi, Meta tarafından bir araya getirilen ve kamu malı olan LibriVox sesli kitaplarından yaklaşık 60.000 saatlik İngilizce konuşma içeren bir ses kütüphanesi olan LibriLight kullanılarak gerçekleştirilmiştir.
VALL-E’nin başarıyla yaptığı şey, üç saniyelik ses örneği ile eğittiği 7.000 kişiden birinin sesini eşleştirmek ve ardından doğru bir taklit yanıtı vermek için metni eğitim verilerindekine benzer bir sesle sunmaktır.
Microsoft, VALL-E’nin yalnızca telefon görüşmesi gibi akustik bir ortamdaki sesleri simüle etmekle kalmayıp, aynı zamanda konuşmayı hoparlör isteminde kullanılan duyguya uygun olarak ileterek çok daha kişiselleştirilmiş ve doğal hale getirdiğini iddia ediyor.
Microsoft, VALL-E’den çıkan bazı örneklere bu adresten erişebilirsiniz. Örnekler incelendiğinde, yapay zekânın bazı yerlerde robot sesiyle karşımıza çıktığı görülse de bazılarında ise şaşırtıcı derecede gerçekçi olduğu görülüyor. Ayrıca örneklerde VALL-E’nin konuşmacının tonunu koruduğu; hatta ortama göre sonuç çıkardığı da görülebiliyor. Örneğin, asıl konuşmacı yankı yapan bir yerden konuşuyorsa, sistem de buna göre ses üretiyor.
Nelere yol açabilir
Bu teknoloji için büyük bir sıçrama olsa da çok şaşırtıcı değil. Bunun nedeni, algoritmanın üniversite öğrencileri için kompozisyonlar hazırlayabildiği ve bu kadar meşgul olmasaydı bu yazıyı da yazabileceği ChatGPT’nin başarısının hemen ardından gelmesidir.
OpenAI’nin diğer ürünü DALL:E, metin yönlendirmelerine yanıt olarak resimler üretebiliyor ve şimdi Microsoft’un teknolojisi, gelecekteki bir filmde uzun süre önce ölmüş bir aktörün sesini canlandırabilir. Bu teknolojilerin en önemli özelliği, bir insana ödeyeceği paranın çok daha azını ödeyerek bu işi yapan şirketlerin paradan tasarruf etmesini sağlamak gibi görünüyor.
Bununla birlikte, bu teknoloji bir yardım çağrısı yaparak ya da sesle etkinleştirilen şifrelerin ardında kilitli olan hassas bilgilere erişerek başka bir insanı taklit etmek için de kullanılabilir. Microsoft şu anda bu tür manipülasyonlardan kaçınmanın anahtarlarını elinde tutuyor olabilir, ancak daha önce yapay zeka teknolojisinde gördüğümüz gibi, kopyalanması ve kötü bir amaç için uygulanması çok uzun sürmüyor.
Kaynak: