AI İNSANLARIN SESLERINI DINLEDI. SONRA YüZLERINI YARATTI.

Send

Hiç görmediğiniz bir kişinin, yalnızca seslerine dayanarak zihinsel bir imajı kurdunuz mu? Yapay zeka (AI) şimdi bunu yapabilir, referans için sadece kısa bir ses klibi kullanarak bir kişinin yüzünün dijital bir görüntüsünü oluşturur.

İnsan beynine benzer bir şekilde "düşünen" bir bilgisayar olan sinir ağı olarak adlandırılan Speech2Face, bilim adamları tarafından 100.000'den fazla farklı insanın konuştuğunu gösteren internetten milyonlarca eğitim videosu hakkında eğitildi.

Bu veri kümesinden Speech2Face, bir insan yüzündeki vokal ipuçları ve bazı fiziksel özellikler arasındaki ilişkileri öğrendi, araştırmacılar yeni bir çalışmada yazdı. AI daha sonra sese uyan fotogerçekçi bir yüz modellemek için bir ses klibi kullandı.

Bulgular, 23 Mayıs'ta online olarak, baskı öncesi jounral arXiv'de yayınlandı ve hakemliğe alınmadı.

Neyse ki, AI (sadece) belirli bir bireyin sadece seslerine dayanarak tam olarak neye benzediğini bilmiyor. Sinir ağı, konuşmada cinsiyet, yaş ve etnik kökene işaret eden bazı belirteçleri, birçok insan tarafından paylaşılan özellikleri tanıdı.

Bilim adamları, "Bu şekilde, model sadece ortalama görünümlü yüzler üretecek." "Belirli kişilerin imajlarını üretmeyecek."

Yapay zeka, kedilerin yorumlarının açıkçası biraz korkutucu olmasına rağmen, gayretle doğru insan yüzleri üretebileceğini zaten göstermiştir.

Speech2Face tarafından üretilen yüzler - hepsi öne dönük ve nötr ifadelerle - seslerin arkasındaki insanlarla tam olarak eşleşmedi. Ancak çalışmaya göre görüntüler genellikle bireylerin doğru yaş aralıklarını, etnik kökenlerini ve cinsiyetlerini yakaladı.

Ancak, algoritmanın yorumları mükemmel olmaktan uzaktı. Speech2Face, dil varyasyonlarıyla karşılaştığında "karışık performans" gösterdi. Örneğin AI, Çince konuşan bir Asyalı adamın ses klibini dinlediğinde, program Asyalı bir yüz görüntüsü üretti. Ancak bilim adamları, aynı adam farklı bir ses klibinde İngilizce konuştuğunda, AI'nın beyaz bir adamın yüzünü oluşturduğunu bildirdi.

Algoritma ayrıca düşük perdeli sesleri erkek yüzlerle ve yüksek perdeli sesleri kadın yüzleriyle ilişkilendirerek cinsiyet yanlılığını gösterdi. Araştırmacılar, eğitim veri seti yalnızca YouTube'dan alınan eğitim videolarını temsil ettiğinden, "tüm dünya nüfusunu eşit olarak temsil etmiyor" diye yazdı.

Slate, bu video veri kümesiyle ilgili bir başka endişenin, bir YouTube videosunda yer alan bir kişinin, benzerliğinin araştırmaya dahil edildiğini öğrendiğinde şaşırdığı ortaya çıktı. San Francisco'daki internet güvenlik şirketi Cloudflare ile kriptografi başkanı Nick Sullivan, beklenmedik bir şekilde yüzünü Speech2Face'i eğitmek için kullanılan örneklerden biri olarak gördü (ve algoritmanın yaklaşık olarak çoğaldığı).

Sullivan, çalışmaya katılmayı kabul etmemişti, ancak Slate'e göre, bu veri kümesindeki YouTube videolarının, ek izinler almadan araştırmacıların kullanabileceği yaygın olarak kabul ediliyor.

Send