Perkenalkan Sora, AI yang Membuat Video dari Potongan Teks
Share
PENUTUR.COM – Pada 15 Februari, perusahaan kecerdasan buatan OpenAI mengumumkan peluncuran Sora, model video generatif baru yang dapat mengambil deskripsi teks pendek dan mengubahnya menjadi cuplikan film definisi tinggi.
Kebanyakan model video buatan AI lain maksimal hanya 30 detik, Sora (yang berarti “langit” dalam habasa Jepang) bisa menghasilkan video satu menit.
Beberapa video yang dirilis OpenAI di website-nya cukup membuat kagum karena hiper-realistis. Tetap saja, seperti halnya model teks-ke-gambar, kunci utama teks-ke-video ini juga ada pada “prompt” atau deskripsi yang diberikan kepada AI untuk menghasilkan video yang bagus.
OpenAI belum merilis laporan teknis atau mendemonstrasikan model yang benar-benar berfungsi. Dan mereka mengatakan bahwa mereka tidak akan segera merilis Sora.
Model generatif pertama yang dapat menghasilkan video dari teks muncul pada akhir tahun 2022. Tetapi contoh awal dari Meta, Google, dan startup bernama Runway itu tidak begitu baik.
Model generasi kedua dari Runway, yang dirilis tahun lalu, dapat menghasilkan cuplikan video pendek yang hampir sebanding dengan animasi studio besar dalam kualitasnya tapi hanya berdurasi beberapa detik.
Selain durasi video hingga satu menit lamanya, Sora juga belajar bagaimana objek saling berhubungan dalam kamera 3D.
Itu diperlihatkan dalam video contoh tentang adegan jalan di Tokyo dimana kamera menyusup ke dalam adegan untuk mengikuti pasangan saat mereka berjalan melewati deretan toko.
Salah satu masalah dengan Sora yang ada adalah bahwa ia bisa gagal melacak objek ketika objek tersebut keluar dari pandangan. Misalnya, jika sebuah truk melintas di depan papan nama jalan, maka papan nama tersebut mungkin tidak muncul kembali setelahnya.
Meskipun cerdas, Sora tetap tidak sempurna. Dalam video Tokyo, mobil di sebelah kiri terlihat lebih kecil daripada orang yang berjalan di samping mereka. Mereka juga muncul dan menghilang di antara cabang-cabang pohon.
“Terdapat beberapa tugas perbaikan dalam jangka panjang,” kata Tim Brooks, ilmuwan di OpenAI. “Misalnya, jika seseorang keluar dari pandangan untuk waktu yang lama, mereka tidak muncul akan kembali. Model tersebut agak lupa bahwa mereka seharusnya ada di sana.”
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.