Представлена нейросеть Sora, которая преобразует текст в видео
OpenAI представила новую нейросеть под названием Sora, которая умеет создавать целые видео по текстовому описанию. Видео получаются высокого качества и довольно близки к реалистичным съемкам.
Sora - это диффузионная модель, которая способна "создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона". На сайте проекта сказано, что модель умеет понимать подсказки и знает, как ведут себя различные объекты в физическом мире.
Что важно, так это тот факт, что Sora генерирует целое видео сразу, а не покадрово. Это помогает избежать того, что было проблемой при использовании других подходов - изменения объекта при движении или перемещении камеры.
Sora еще на стадии разработки, и OpenAI пока не планирует делать ее широкодоступной. В частности, из-за опасения касательно безопасности. Сейчас компания, кроме прочего, работает над идеями по сокращению возможностей создания разжигающего ненависть контента, а также четкой маркировки видео, сгенерированного ИИ.