OpenAI’nin Sora’sını keşfedin: 2024’te çok modlu yapay zekada devrim yaratacak çığır açan bir metinden videoya yapay zeka seti. Yeteneklerini, yeniliklerini ve potansiyel etkisini keşfedin.
OpenAI kısa süre önce çığır açan en yeni teknolojisi Sora’yı duyurdu. Bu metinden videoya üretken yapay zeka modeli şu ana kadar inanılmaz derecede etkileyici görünüyor ve birçok sektörde büyük bir potansiyel sunuyor. Burada OpenAI Sora’nın ne olduğunu, nasıl çalıştığını, bazı potansiyel kullanım durumlarını ve geleceğin neler getireceğini araştırıyoruz.
Sora nedir?
Sora , OpenAI’nin metinden videoya üretken yapay zeka modelidir. Bu, bir metin istemi yazdığınız ve istemin açıklamasıyla eşleşen bir video oluşturduğu anlamına gelir. İşte OpenAI sitesinden bir örnek:
PROMPT: Şık bir kadın, sıcak parlayan neonlar ve hareketli şehir tabelalarıyla dolu bir Tokyo caddesinde yürüyor. Siyah deri bir ceket, uzun kırmızı bir elbise ve siyah botlar giyiyor ve siyah bir çanta taşıyor. Güneş gözlüğü ve kırmızı ruj takıyor. Kendinden emin ve rahat bir şekilde yürüyor. Sokak nemli ve yansıtıcı, renkli ışıkların ayna etkisi yaratıyor. Pek çok yaya yürüyor.
OpenAI Sora örnekleri
OpenAI ve CEO Sam Altman, Sora’nın uygulamalı örneklerini paylaşmakla meşguldü. Aşağıdakiler de dahil olmak üzere bir dizi farklı stil ve örnek gördük:
Sora Animasyon Örnekleri
PROMPT: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.
PROMPT: Animasyon sahnesinde, eriyen kırmızı bir mumun yanında diz çökmüş kısa tüylü bir canavarın yakın çekimi yer alıyor. Sanat stili 3 boyutlu ve gerçekçi olup, aydınlatma ve dokuya odaklanmaktadır. Canavar aleve geniş gözlerle ve açık ağızla bakarken, resmin havası merak ve merak dolu. Pozu ve ifadesi, sanki etrafındaki dünyayı ilk kez keşfediyormuşçasına bir masumiyet ve şakacılık duygusu taşıyor. Sıcak renklerin ve dramatik aydınlatmanın kullanılması görüntünün rahat atmosferini daha da güçlendirir.
Sora Şehir Manzarası Örnekleri
PROMPT: Güzel, karlı Tokyo şehri hareketli. Kamera, güzel karlı havanın tadını çıkaran ve yakındaki tezgahlarda alışveriş yapan birkaç kişiyi takip ederek şehrin hareketli caddesinde ilerliyor. Muhteşem sakura yaprakları kar taneleriyle birlikte rüzgarda uçuyor.
PROMPT: Doğayla uyum içinde olan ve aynı zamanda siberpunk / yüksek teknolojiye sahip fütüristik bir şehirde sokak düzeyinde bir tur. Şehir, gelişmiş fütüristik tramvaylar, güzel çeşmeler, her yerde dev hologramlar ve her yerde robotlarla temiz olmalı. Videonun gelecekten gelen bir insan tur rehberinin, bir grup dünya dışı uzaylıya, insanların inşa edebileceği en havalı ve en görkemli şehri göstermesini sağlayın.
Sora Hayvan Örnekleri
PROMPT: Bir dağın tepesinde podcast yayınlayan iki Golden Retriever.
Sora Nasıl Çalışır?
DALL·E 3 , StableDiffusion ve Midjourney gibi metinden görüntüye üretken yapay zeka modelleri gibi Sora da bir yayılma modelidir. Bu, videonun statik gürültüden oluşan her karesiyle başladığı ve görüntüleri yavaş yavaş istemdeki açıklamaya benzer bir şeye dönüştürmek için makine öğrenimini kullandığı anlamına gelir. Sora videoları 60 saniyeye kadar uzunlukta olabilir.
Zamansal tutarlılığı çözme
Sora’daki yeniliklerden biri de aynı anda birkaç video karesini dikkate almasıdır; bu da nesneleri görüş alanına girip çıkarken tutarlı tutma sorununu çözer. Aşağıdaki videoda kangurunun elinin birkaç kez atıştan dışarı çıktığına ve geri döndüğünde elin eskisi gibi göründüğüne dikkat edin.
Difüzyon ve transformatör modellerinin birleştirilmesi
Sora, GPT’de kullanıldığı gibi, difüzyon modelinin kullanımını transformatör mimarisiyle birleştirir.
Bu iki model tipini birleştirirken Jack Qiao, “difüzyon modellerinin düşük seviyeli doku oluşturmada harika olduğunu ancak küresel kompozisyonda zayıf olduğunu, transformatörlerde ise tam tersi sorun olduğunu” belirtti . Yani, video karelerinin üst düzey düzenini belirlemek için GPT benzeri bir transformatör modeli ve ayrıntıları oluşturmak için bir yayılma modeli istiyorsunuz.
Sora’nın uygulanmasına ilişkin teknik bir makalede OpenAI , bu kombinasyonun nasıl çalıştığına dair üst düzey bir açıklama sağlar. Difüzyon modellerinde görüntüler daha küçük dikdörtgen “parçalara” bölünür. Video için bu yamalar üç boyutludur çünkü zaman içinde kalıcıdırlar. Yamalar, büyük dil modellerinde “belirteçlerin” eşdeğeri olarak düşünülebilir: bir cümlenin bileşeni olmaktan çok, bir dizi görüntünün bileşenidirler. Modelin dönüştürücü kısmı yamaları düzenler ve modelin yayılma kısmı her yama için içerik üretir.
Bu hibrit mimarinin bir başka tuhaflığı da, video üretimini hesaplama açısından mümkün kılmak için, yama oluşturma sürecinin boyutsallık azaltma adımını kullanmasıdır, böylece hesaplamanın her kare için her pikselde yapılmasına gerek kalmaz.
Yeniden Altyazıyla Videonun Aslına Uygunluğunu Artırma
Sora, kullanıcının isteminin özünü aslına sadık kalarak yakalamak için DALL·E 3’te de bulunan bir yeniden açıklama tekniğini kullanıyor. Bu, herhangi bir video oluşturulmadan önce GPT’nin kullanıcı istemini çok daha fazla ayrıntı içerecek şekilde yeniden yazmak için kullanıldığı anlamına geliyor. Esas itibarıyla bu, otomatik istem mühendisliğinin bir biçimidir.
Sora’nın Sınırlamaları Nelerdir?
OpenAI, Sora’nın mevcut sürümündeki bazı sınırlamalara dikkat çekiyor. Sora’nın üstü kapalı bir fizik anlayışı yoktur ve bu nedenle “gerçek dünyanın” fiziksel kurallarına her zaman bağlı kalınmayabilir.
Bunun bir örneği, modelin neden ve sonucu anlamamasıdır. Örneğin, bir basketbol potasındaki patlamayı gösteren aşağıdaki videoda, pota patladıktan sonra filenin eski haline döndüğü görülüyor.
PROMPT: Basketbolun potadan geçmesi daha sonra patlar.
Güvenilirlikle ilgili cevaplanmamış sorular
Sora’nın güvenilirliği şu anda belirsizdir. OpenAI’nin tüm örnekleri çok yüksek kalitede, ancak ne kadar dikkat çekici olduğu belli değil. Metinden resme araçlarını kullanırken, on veya yirmi resim oluşturmak ve ardından en iyisini seçmek yaygındır. OpenAI ekibinin duyuru makalesinde videoların gösterilmesini sağlamak için kaç adet görsel oluşturduğu belli değil. Kullanılabilir tek bir video elde etmek için yüzlerce veya binlerce video oluşturmanız gerekiyorsa bu, benimsemeye engel olacaktır. Bu soruyu cevaplamak için aracın yaygın olarak kullanıma sunulmasını beklemeliyiz.
Sora’nın Kullanım Durumları Nelerdir?
Sora, sıfırdan videolar oluşturmak veya mevcut videoları daha uzun hale getirmek için genişletmek için kullanılabilir. Ayrıca videolardaki eksik kareleri de doldurabilir.
Metinden görüntüye üretken yapay zeka araçlarının, teknik görüntü düzenleme uzmanlığı olmadan görüntü oluşturmayı önemli ölçüde kolaylaştırdığı gibi, Sora da görüntü düzenleme deneyimi olmadan video oluşturmayı kolaylaştırmayı vaat ediyor. İşte bazı önemli kullanım durumları.
Sosyal medya
Sora, TikTok, Instagram Reels ve YouTube Shorts gibi sosyal medya platformları için kısa biçimli videolar oluşturmak için kullanılabilir. Filme alınması zor veya imkansız olan içerikler özellikle uygundur. Örneğin, Lagos’un 2056’daki bu sahnesini sosyal bir paylaşım için çekmek teknik açıdan zor olabilir ancak Sora’yı kullanarak oluşturmak kolaydır.
Reklam ve pazarlama
Reklamlar, tanıtım videoları ve ürün demoları oluşturmak geleneksel olarak pahalıdır. Sora gibi metinden videoya yapay zeka araçları bu süreci çok daha ucuz hale getirmeyi vaat ediyor. Aşağıdaki örnekte, Kaliforniya’nın Big Sur bölgesinin tanıtımını yapmak isteyen bir turizm kurulu, konumun havadan görüntülerini çekmek için bir drone kiralayabilir veya yapay zekayı kullanarak zamandan ve paradan tasarruf edebilir.
PROMPT: Big Sur’un Garay Point sahili boyunca engebeli kayalıklara çarpan dalgaların drone görüntüsü. Çırpınan mavi sular beyaz uçlu dalgalar yaratırken, batan güneşin altın rengi ışığı kayalık sahili aydınlatıyor. Uzakta bir deniz feneri bulunan küçük bir ada vardır ve uçurumun kenarı yeşil çalılarla kaplıdır. Yoldan plaja doğru dik bir düşüş, uçurumun kenarlarının denizin üzerine çıkmasıyla dramatik bir başarıdır. Bu, sahilin ham güzelliğini ve Pasifik Sahil Otoyolunun engebeli manzarasını yakalayan bir manzaradır.
Prototip oluşturma ve konsept görselleştirme
Yapay zeka videosu nihai üründe kullanılmasa bile fikirlerin hızlı bir şekilde gösterilmesi açısından faydalı olabilir. Film yapımcıları, sahneleri çekmeden önce maketler yapmak için yapay zekayı kullanabilir ve tasarımcılar, ürünleri oluşturmadan önce videolarını oluşturabilirler. Aşağıdaki örnekte bir oyuncak şirketi, yeni bir korsan gemisi oyuncağının yapay zeka maketini, bunları geniş ölçekte yaratmaya başlamadan önce oluşturabilir.
PROMPT: Bir fincan kahvenin içinde seyrederken birbirleriyle savaşan iki korsan gemisinin fotogerçekçi yakın çekim videosu.
Sentetik veri üretimi
Sentetik veriler genellikle gizlilik veya fizibilite endişelerinin gerçek verilerin kullanılmasını engellediği durumlarda kullanılır. Sayısal veriler için yaygın kullanım durumları finansal veriler ve kişisel olarak tanımlanabilir bilgiler içindir. Bu veri kümelerine erişim sıkı bir şekilde kontrol edilmelidir, ancak benzer özelliklere sahip sentetik veriler oluşturup herkesin kullanımına sunabilirsiniz.
Sentetik video verilerinin bir kullanımı bilgisayarlı görüş sistemlerinin eğitimidir. 2022’de yazdığım gibi ABD Hava Kuvvetleri, insansız hava araçlarına yönelik bilgisayarlı görüş sistemlerinin performansını gece ve kötü hava koşullarında binaları ve araçları tespit etmek için sentetik verilerden kullanıyor. Sora gibi araçlar bu süreci çok daha ucuz ve daha geniş bir kitle için daha erişilebilir hale getiriyor.
Sora’nın Riskleri Nelerdir?
Ürün yeni olduğundan riskler henüz tam olarak açıklanmadı ancak bunlar büyük olasılıkla metinden resme modellerindekilere benzer olacaktır.
Zararlı içerik üretimi
Korkuluklar mevcut olmadığında Sora, şiddet, kan, cinsel içerikli materyal, insan gruplarının aşağılayıcı tasvirleri ve diğer nefret görüntüleri ve yasa dışı faaliyetlerin teşviki veya yüceltilmesi içeren videolar da dahil olmak üzere hoş olmayan veya uygunsuz içerik üretme yetkisine sahiptir.
Uygunsuz içeriğin nelerden oluştuğu kullanıcıya (bir çocuğun Sora’yı bir yetişkine karşı kullandığını düşünün) ve videonun oluşturulma bağlamına (havai fişeklerin tehlikeleri hakkında bir video uyarısı eğitici açıdan kolayca kanlı hale gelebilir) bağlı olarak büyük ölçüde değişir.
Yanlış bilgi ve dezenformasyon
OpenAI tarafından paylaşılan örnek videolara göre Sora’nın güçlü yönlerinden biri, gerçek hayatta var olamayacak fantastik sahneler yaratma yeteneğidir. Bu güç aynı zamanda gerçek kişilerin veya durumların gerçek olmayan bir şeye dönüştürüldüğü “derin sahte” videolar oluşturmayı da mümkün kılar.
Bu içerik yanlışlıkla (yanlış bilgi) veya kasıtlı olarak (dezenformasyon) gerçekmiş gibi sunulduğunda sorunlara neden olabilir.
DigiDiplomacy Yapay Zeka Yönetişim ve Etik Sorumlusu Eske Montoya Martinez van Egerschot’un yazdığı gibi , “Yapay zeka kampanya stratejilerini, seçmen katılımını ve seçim bütünlüğünün yapısını yeniden şekillendiriyor.”
Politikacıların veya politikacıların rakiplerinin inandırıcı ama sahte yapay zeka videoları, “kamu kurumlarına olan güveni zayıflatmayı ve çeşitli uluslara ve insan gruplarına karşı düşmanlığı teşvik etmeyi amaçlayan, stratejik olarak yanlış anlatıları yayma ve meşru kaynakları tacizle hedef alma” gücüne sahiptir.
Tayvan’dan Hindistan’a, ABD’ye kadar pek çok önemli seçimin yaşandığı bir yılda bunun yaygın sonuçları oluyor.
Önyargılar ve stereotipler
Üretken yapay zeka modellerinin çıktısı büyük ölçüde üzerinde eğitim verildiği verilere bağlıdır. Bu, eğitim verilerindeki kültürel önyargıların veya stereotiplerin, ortaya çıkan videolarda da aynı sorunlara yol açabileceği anlamına gelir. Joy Buolamwini’nin DataFramed’in Algoritmik Adalet İçin Mücadele bölümünde tartıştığı gibi , görsellerdeki önyargıların işe alım ve polislik süreçlerinde ciddi sonuçları olabilir.
Sora’ya Nasıl Erişebilirim?
Sora şu anda yalnızca “kırmızı takım” araştırmacılarının kullanımına açıktır. Yani, modelle ilgili sorunları tespit etmeye çalışma görevi verilen uzmanlar. Örneğin, OpenAI’nin Sora’yı halka sunmadan önce sorunları hafifletebilmesi için önceki bölümde tanımlanan bazı riskleri içeren içerik oluşturmaya çalışacaklar.
OpenAI henüz Sora için halka açık bir çıkış tarihi belirtmedi, ancak bunun 2024’te olması muhtemel.
Sora’ya Alternatifler Nelerdir?
Kullanıcıların metinden video içeriği oluşturmasına olanak tanıyan, Sora’nın birçok yüksek profilli alternatifi vardır. Bunlar şunları içerir:
- Pist-Gen-2. OpenAI Sora’nın en yüksek profilli alternatifi Runway Gen-2’dir . Sora gibi, bu da metinden videoya üretken bir yapay zekadır ve şu anda web ve mobil cihazlarda mevcuttur.
- Lumiere. Google yakın zamanda PyTorch derin öğrenme Python çerçevesinin bir uzantısı olarak mevcut olan Lumiere’yi duyurdu.
- Bir video yap. Meta, 2022’de Make-a-Video’yu duyurdu; yine bu, bir PyTorch uzantısı aracılığıyla kullanılabilir .
Birkaç küçük rakip de var:
- Pictory , video oluşturma araçlarıyla içerik pazarlamacılarını ve eğitimcileri hedef alarak metnin video içeriğine dönüştürülmesini basitleştirir.
- Kapwing, sosyal medya pazarlamacıları ve sıradan içerik oluşturucular için kullanım kolaylığını vurgulayarak metinlerden videolar oluşturmaya yönelik çevrimiçi bir platform sunuyor.
- Synthesia , iş ve eğitim amaçlı özelleştirilebilir avatar liderliğindeki videolar sunarak, metinden yapay zeka destekli video sunumları oluşturmaya odaklanıyor.
- HeyGen, ürün ve içerik pazarlaması, satış desteği ve eğitim için video üretimini basitleştirmeyi amaçlıyor.
- Steve AI, İstemden Videoya, Komut Dosyasından Videoya ve Sesten Videoya video ve animasyon oluşturulmasını sağlayan bir AI platformu sağlar.
- Elai , e-öğrenme ve kurumsal eğitime odaklanarak eğitici içeriği zahmetsizce bilgilendirici videolara dönüştürmek için bir çözüm sunuyor