OpenAI’dan Yeni Bir Devrim: Sora ile Metinden Videoya Uzanın!
Sora, metinden videoya dönüştürme modelidir ve kullanıcının isteğine bağlı olarak dakikalarca süren videolar üretebilir, görsel kaliteyi ve uyumu koruyarak çalışır. Geçen günlerde bu model değerlendirilmesi ve geri bildirimleri toplması için görsel sanatçılara, tasarımcılara ve film yapımcılarına sunuldu.
Sora Henüz Gelişim Aşamasında:
OpenAI geliştirmeleri henüz tamamlamış değil lakin bunu şimdiden paylaşmayı tercih ediyor. Bu şekilde aldığı geri bildirimler doğrultusunda çalışmalarını sürdüreceğini tahmin ediyoruz. Hem de yapay zekanın çığır açıcı yeteneklerini ve gelecekte bizi nelerin beklediğini ufakta olsa bize göstermek istiyor. Bu model karmaşık sahneleri başarılı bir şekilde kurabiliyor ve birden fazla karakteri arka planla uyumlu bi şekilde işleyebiliyor. Sadece kullanıcıların yönergelerini baz almakla yetinmiyor ve gerçek dünyada bunların nasıl sunulabileceğine dair de fikir yürütebiliyor.
Bu başarılı özelliklerin yanısıra OpenAI bazı kusurların olduğunu da ifade ediyor. Model, karmaşık bir sahnenin fiziksel etkilerini doğru bir şekilde simüle etmekte zorlanabiliyor ve bazen neden-sonuç durumları anlayamayabiliyor. Örneğin bir sahnede kurabiyeyi ısıran bir kişi varsa kurabiyede ısırık izi kalması gerektiği halde bu neden-sonuç ilişkisini başarılı bir şekilde kuramadığı için orada ısırık izini göremeyebiliriz. Model ayrıca yönergenin uzayla ilgili ayrıntılarını karıştırabiliyor örneğin sol ve sağı karıştırabilir ve belirli bir kamera yörüngesini takip etmek gibi zaman içinde gerçekleşen olayların kesin tanımlarında zorluk yaşayabiliyor.
Güvenlik Her Şeyden Önemli:
Güvenlik konusunda oldukça hassas olacaklarını ifade eden OpenAI, kullanıma sunmadan önce yanlış bilgi, kötüye kullanım ve nefret söylemleri konusunda test edeceğini açıkladı.Bu yüzden de bu yanıltıcı içerikleri tespit edebilmek için araçlar geliştiriyor. Eğer modeli bir OpenAI ürününde kullanırsa, gelecekte C2PA metaverisini içermeyi planlıyorlar. Ayrıca, dağıtım için yeni teknikler geliştirirken, DALL·E 3 kullanan ürünleri için inşa ettiği mevcut güvenlik yöntemlerini de Sora için kulanacaklarını ifade ettiler.
Metin giriş yönergelerini kontrol edecek ve şiddet içeren, cinsel içerik, nefret dolu imgeler, ünlülerin benzerliği veya diğerlerinin IP’sini talep eden gibi kullanım politikalarına aykırı olan metin girişlerini reddedecek bir metin sınıflandırıcısı da bulunuyor. Ayrıca, kullanıcıya gösterilmeden önce kullanım politikalarımıza uyup uymadığını kontrol etmek için her video karesini incelemek için kullanılan sağlam görsel sınıflandırıcılar geliştirdiklerini ifade ediyorlar.
Bu yeni teknolojiyi olabildiğince faydalı hale getirebilmek için OpenAI dünya çapında politikacıları, sanatçıları ve eğitimleri bu sürece dahil edeceğini açıkladı. Endişeleri gidermek ve bunu insanlığa faydalı bir araç haline getirmek için böyle bir yol izlemeleri gerektiğine biz de katılıyoruz. Ne kadar kapsamlı araştırmalar ve testler yapılsa da bu teknolojinin kötüye kullanılabilecek senaryoları tamamen öngörmek mümkün değil. Zaten OpenAI bu güvenli AI sistemlerinin zamanla oturacağını kendisi de itiraf ediyor.
GPT modellerine benzer şekilde, Sora, üstün ölçeklenebilirlik performansı sağlayan bir dönüşümcü mimarisi kullanıyor. Videoları ve görüntüleri, her biri GPT’deki bir belirteç gibi olan daha küçük veri birimleri olan yamaların bir koleksiyonu olarak temsil ediyor. Verileri nasıl temsil ettiğimizi birleştirerek, farklı süreler, çözünürlükler ve en-boy oranlarını kapsayan daha geniş bir görsel veri yelpazesinde difüzyon dönüşümcüleri eğitebildiklerini açıklıyorlar.
Sora’nın gelişmesi ve yaygınlaşmasıyla birlikte, bu teknolojinin birçok farklı alanda kullanılacağını ve hayatımızı birçok yönden etkileyeceğini öngörmek zor değil. Hayal gücümüzü kullanarak bu yeni teknoloji ile neler yapabileceğimiz sınırlarını zorlamak bize kalıyor.
