VALL-E: İnsan sesini taklit edebilen yapay zeka

VALL-E: İnsan sesini taklit edebilen yapay zeka

Yeni yapay zeka modeli VALL-E, üç saniyelik örnekler ile bir insanın sesini taklit edebiliyor. Microsoft'un geliştirdiği yapay zeka, konuşmacının duygusuna göre çıkan ses tonuyla eşleşen sonuçları bile çıkarabiliyor. Şirket, bu teknoloji için bir dil modeli olan VALL-E'nin Meta'nın Ekim 2022'de tanıttığı 'EnCodec' ismi verilen teknolojiden yararlandı. Temeline inecek olursak; bir kişinin nasıl ses çıkardığını analiz ettikten sonra EnCodec sayesinde bu bilgiyi ayrı bileşenlere bölüyor ve eğitim verilerini eşleştiriyor. Bunun sonucunda da örnekteki ses taklit edilerek farklı cümleler ortaya çıkarıyor. Microsoft, VALL-E'den çıkan bazı örnekleri GitHub üzerinden yayınlandı. Sonuçlar şaşırtıcı derecede gerçekçiydi.