نموذج ذكاء اصطناعي OpenAI Sora لتحويل النص إلى فيديو

mobilltnaآخر تحديث : الثلاثاء, 26 مارس, 2024 - 7:40 مساءً

أعلنت شركة OpenAI عن إطلاق نموذج جديد لتوليد مقاطع الفيديو يُدعى “Sora”. ووفقًا للشركة، فإن هذا النموذج “قادِر على إنشاء مشاهد واقعية وخيالية من تعليمات نصية”.

يتيح نموذج تحويل النص إلى فيديو للمستخدمين إنشاء مقاطع فيديو واقعية تصل مدتها إلى دقيقة واحدة، وذلك بناءً على التعليمات النصية التي يكتبونها.

ووفقًا لمنشور رسمي، فإن نموذج Sora قادر على إنشاء “مشاهد معقدة تضم شخصيات متعددة وأنواع محددة من الحركة وتفاصيل دقيقة للموضوع والخلفية”.

كما أشارت الشركة إلى أن النموذج يمكنه فهم كيفية “وجود الأشياء في العالم المادي”، بالإضافة إلى “تفسير الدعائم بدقة وإنشاء شخصيات جذابة تعبر عن مشاعر نابضة بالحياة”.

بالإضافة إلى ذلك، يمكن للنموذج أيضًا إنشاء مقطع فيديو بناءً على صورة ثابتة، بالإضافة إلى ملء الإطارات المفقودة في مقطع فيديو موجود أو تمديده.

وتتضمن العروض التوضيحية التي تم إنشاؤها بواسطة OpenAI Sora مشهدًا جويًا لولاية كاليفورنيا أثناء حمى البحث عن الذهب، ومقطع فيديو يبدو وكأنه قد تم تصويره من داخل قطار في طوكيو، وغير ذلك.

وتجدر الإشارة إلى أن العديد من هذه العروض التوضيحية تحمل بعض العلامات الدالة على أنها من صنع الذكاء الاصطناعي، مثل الأرضية المتحركة بشكل مريب في مقطع فيديو لمتحف.

وتقول شركة OpenAI أن النموذج “قد يواجه صعوبة في محاكاة فيزياء المشهد المعقد بدقة”، ولكن النتائج بشكل عام مثيرة للإعجاب.

قبل عامين، كانت أدوات تحويل النص إلى صورة مثل Midjourney في طليعة النماذج القادرة على تحويل الكلمات إلى صور.

ولكن في الآونة الأخيرة، بدأ الفيديو في التحسّن بوتيرة ملحوظة: فقد عرضت شركات مثل Runway و Pika نماذج نصية إلى فيديو مثيرة للإعجاب، ومن المتوقع أن تكون Lumiere التابعة لشركة جوجل أحد المنافسين الرئيسيين لشركة OpenAI في هذا المجال أيضًا.

وعلى غرار Sora، يوفر Lumiere للمستخدمين أدوات تحويل النص إلى فيديو ويسمح لهم أيضًا بإنشاء مقاطع فيديو من صورة ثابتة.

ولا يتوفر نموذج Sora حاليًا إلا لـ “فريق التقييم” الذي يقيّم النموذج بحثًا عن الأضرار والمخاطر المحتملة.

كما تتيح OpenAI أيضًا الوصول إلى بعض الفنانين التشكيليين والمصممين وصانعي الأفلام للحصول على ملاحظات.

وفي وقت سابق من هذا الشهر، أعلنت OpenAI أنها ستضيف علامات مائية إلى أداة تحويل النص إلى صورة DALL-E 3، ولكنها أشارت إلى أنه “يمكن إزالتها بسهولة”.

وكما هو الحال مع منتجات الذكاء الاصطناعي الأخرى، سيتعين على OpenAI التعامل مع عواقب الخلط بين مقاطع الفيديو المزيفة التي ينتجها الذكاء الاصطناعي والمقاطع الحقيقية.