الرئيسيةأخبارنموذج الذكاء الاصطناعي المخفي الجديد هذا من Google يتفوق على Dall-E وMidJourney...

نموذج الذكاء الاصطناعي المخفي الجديد هذا من Google يتفوق على Dall-E وMidJourney من OpenAI — مجانًا

إعلانات
إعلانات
إعلانات
إعلانات


استعدوا أيها السيدات والسادة، لدينا مولد صور جديد يعمل بالذكاء الاصطناعي في المدينة، وهو جيد بشكل مدهش.

إنه أمر مفاجئ لأنه يأتي من Google ولأنه ليس المولد الأساسي، القبيح إلى حد ما، والكسول الذي اعتدت رؤيته في Bard. كما أنها مخفية عن عامة الناس — ولكن هذا لا يعني أنه لا يمكنك استخدامها.

اسمها إيماغيفكس وهو أحدث مشروع لشركة Google في مجال إنشاء صور الذكاء الاصطناعي. إنه متاح عبر مطبخ اختبار الذكاء الاصطناعي من Google، نظام أساسي تجريبي يسمح للمستخدمين بالتفاعل مع مشروعات Google بينما لا تزال قيد التطوير.

على الرغم من كونه في مرحلته التجريبية المبكرة، يقدم ImageFX نتائج مذهلة من حيث الدقة والواقعية. ومع ذلك، فإن توفره يقتصر على مناطق محددة، وهي الولايات المتحدة وكينيا ونيوزيلندا وأستراليا، ويقتصر استخدامه على اللغة الإنجليزية، مما يدل على نهج جوجل الحذر ورغبتها في بيئة خاضعة للرقابة لتعليقات المستخدمين وتحسينات النظام.

يمكن لأولئك الذين يعيشون خارج المناطق المسموح بها تجاوز القيود الجغرافية باستخدام طرق مثل شبكات VPN أو الوكلاء – على مسؤوليتهم الخاصة.

تشغيل ImageFX هو الصورة 2، وهو نموذج ذكاء اصطناعي متطور تم تطويره بواسطة مختبر الذكاء الاصطناعي الشهير التابع لشركة Google، DeepMind. تم تصميم Imagen 2 لتفسير وتصور المطالبات النصية، ويتميز بقدرات إنتاج صور وأنماط متنوعة. تؤكد Google أن Imagen 2 تضع معيارًا جديدًا لجودة الصورة بين جيلها من نماذج الذكاء الاصطناعي.

يعد تقديم ImageFX جزءًا من إستراتيجية Google الأوسع لاستكشاف الجوانب المختلفة للذكاء الاصطناعي التوليدي. فهو ينضم إلى مجموعة من الأدوات المتخصصة، بما في ذلك MusicFX لإنشاء الموسيقى وTextFX لإنشاء نص منمق.

Google مقابل Dall-e 3 مقابل MidJourney

يمثل ImageFX من Google دخولًا ملحوظًا في عالم مولدات الصور المعتمدة على الذكاء الاصطناعي، حيث يتنافس بشكل مباشر مع اللاعبين المعروفين مثل Dall-E 3 وMidJourney. الميزة المميزة لـ ImageFX في مرحلتها التجريبية المبكرة هي الوصول المجاني، وهو ما يختلف عن تكامل Dall-E مع ChatGPT بمعدل شهري قدره 20 دولارًا، والاشتراك السنوي في MidJourney الذي يقترب من 100 دولار.

على الرغم من أن فعالية التكلفة تعد عاملاً كبيرًا، إلا أن الميزات المقارنة وجودة المخرجات هي التي تميز هذه الأدوات. تتفوق ImageFX في إنتاج صور واقعية للغاية، متجاوزة عروض Dall-E 3 الكرتونية إلى حد ما وتركيز MidJourney على المرئيات الجذابة من الناحية الجمالية.

لكن كون ImageFX مجانيًا لا يعني أنه سيئ. تقدم ImageFX ميزات فريدة مثل التحكم في البذور، مما يسمح للمستخدمين بضبط العملية الإبداعية بدقة عن طريق ضبط تكوين الضوضاء الأولي. هذا المستوى من التحكم لا مثيل له في Dall-E 3 أو MidJourney، مما يسمح للمستخدمين بإجراء تعديلات دقيقة مع الحفاظ على العناصر الأساسية للصورة.

بالإضافة إلى ذلك، يمكن لـ ImageFX تسليط الضوء على الكلمات السريعة الرئيسية واقتراح بدائل إبداعية – وهي ميزة غير متوفرة من منافسيها.

لقطة شاشة لاقتراحات ImageFX السريعة
لقطة شاشة لاقتراحات ImageFX السريعة

ومع ذلك، فإن ImageFX لها حدودها. تقوم الأداة حصريًا بإنشاء صور مربعة، بينما توفر Dall-E 3 وMidJourney المرونة في نسب العرض إلى الارتفاع. علاوة على ذلك، على عكس MidJourney، لا يدعم ImageFX ميزات تحرير الصور مثل inpaint وoutpaint، مما يحد من تعدد استخداماته. أخيرًا، تتناقض ميزة المحادثة في Dall-E 3 — التي تسمح للمبتدئين بتعليم النموذج باللغة الطبيعية — مع المطالبة المستندة إلى الكلمات الرئيسية التي تتطلبها ImageFX وMidJourney.

يختلف أسلوب التحفيز بشكل كبير بين هذه النماذج أيضًا. لا يدعم ImageFX المطالبة السلبية، مما يتيح للمستخدمين تحديد ما يجب استبعاده من الصورة. يقدم MidJourney هذه الوظيفة، مما يضيف طبقة من الدقة إلى العملية الإبداعية. يفتقر Dall-E 3 أيضًا إلى التحفيز السلبي المباشر، لكن واجهة المحادثة الخاصة به تسمح للمستخدمين بتوجيه النموذج بشكل غير مباشر، مما يوفر أسلوبًا مختلفًا لتحسين مخرجات الصور.

الصورة تساوي ألف كلمة

فك التشفير حصلت على إمكانية الوصول إلى ImageFX وتمكنت من مقارنة أجيالها مع MidJourney وDall-E 3. استخدمنا نفس الموجه لجميع الطرز ويتم عرض النتائج أدناه دائمًا بنفس الترتيب من اليسار إلى اليمين: الأول هو ImageFX، والثاني هو MidJourney والثالث هو Dall-E 3.

الواقعية:

مستعجل: صورة لمتداول عملة مشفرة مع تعبيرات قلقة

مقارنة الأجيال للموجه "صورة لمتداول عملة مشفرة مع تعبير قلق"
من اليسار إلى اليمين، أجيال من ImageFX وMidJourney وDall-E 3.

حقق كل من ImageFX وMirJourney نتائج واقعية جدًا. ولكن من حيث الأسلوب، يبدو ImageFX واقعية بينما يبدو MidJourney أكثر قليلاً واقعية مفرطة، مما يعني أن الأول أكثر صدقًا للحياة بينما الثاني أكثر فنية، بألوان مشبعة، وبوكيه مبالغ فيه، وما إلى ذلك.

فشل Dalle-3 في إنشاء الصور. وبدلاً من ذلك، قامت بإنشاء عرض ثلاثي الأبعاد يركز بشكل أكبر على المحتوى. من الأسهل معرفة أنه كان تاجر عملات مشفرة بسبب المخططات الموجودة في الخلفية، لكنه بالتأكيد لم يكن صورة.

الرسوم التوضيحية:

مستعجل: رسم توضيحي لدب غامض يركب موجة سيبرانية

مقارنة الأجيال للتوضيح الفوري لدب غامض يتصفح موجة سيبرانية
من اليسار إلى اليمين، أجيال من ImageFX وMidJourney وDall-E 3.

كانت هذه المطالبة أكثر تجريدية قليلاً لاختبار كيفية تفسير النماذج للأفكار غير القياسية. أنتجت ImageFX وMidJourney الصور الأكثر إمتاعًا من الناحية الجمالية، لكن MidJourney تبدو وكأنها عرض أكثر من كونها رسمًا توضيحيًا، وقد حاولت ImageFX التقاط جوهر ما يمكن أن تكون عليه الموجة السيبرانية. وبدلاً من ذلك، ربطت MidJourney مصطلح “السايبرنيتيك” بالدب. استحوذ Dall-e 3 على الجوهر عن كثب. من الواضح أنه كان رسمًا توضيحيًا، ويشبه الجمالية السيبرانية، لكن شكل الدب خاطئ، والصورة تفتقر إلى الجودة مقارنة بمنافسيها.

لغة طبيعية طويلة:

مستعجل: تصوير خيال علمي مفصل للغاية، لقطة قريبة لخبير كمبيوتر غامض يعمل على جهاز كمبيوتر محمول. وخلفه، ينتظر عميل مكتب التحقيقات الفيدرالي التقاط لقطة واسعة النطاق وواقعية ومعقدة

مقارنة أجيال لموجه خبير كمبيوتر غامض يعمل على جهاز كمبيوتر محمول مع عميل مكتب التحقيقات الفيدرالي في انتظار القبض عليه
من اليسار إلى اليمين، أجيال من ImageFX وMidJourney وDall-E 3.

من أجل إجراء هذه المقارنة، تم تغيير الموجه الخاص بـ MidJourney إلى “صورة فوتوغرافية مفصلة للغاية للخيال العلمي عن قرب لخبير كمبيوتر غامض يعمل على جهاز كمبيوتر محمول مع عميل مكتب التحقيقات الفيدرالي خلفه في انتظار القبض عليه، لقطة واسعة وواقعية ومعقدة.”

رفض MidJourney إنشاء صور تحت الموجه الأول.

يقوم ImageFX بإنشاء صورة جميلة ومفصلة تحترم كل التفاصيل. لم تنتج MidJourney خبير كمبيوتر “غامضًا”. كما أنها تتمسك بأسلوبها المميز من خلال تأثير البوكيه المفرط ومسارات الإضاءة أو قطرات المطر التي تجذب الانتباه على الأجيال المختلفة. كان هذا أفضل مثال، حيث يبدو أن الباقي يصور رائد فضاء، أو أحد جنود البحرية السايبربانك، أو شيء مشابه. يقوم Dall-E بإنشاء صورة يمكن التعرف فيها على جميع عناصر المطالبة – شعار مكتب التحقيقات الفيدرالي، وخبير الكمبيوتر الغامض، وما إلى ذلك – ولكنها ليست صورة، وتشريح المتسلل خاطئ، حيث يظهر أصابع السباغيتي النموذجية .

النص في الصورة:

مستعجل: مدينة مستقبلية بها لافتة نيون مكتوب عليها “EMERGE by Decrypt”

مقارنة الأجيال للموجه مدينة مستقبلية عليها لافتة نيون مكتوب عليها "الظهور عن طريق فك التشفير"
من اليسار إلى اليمين، أجيال من ImageFX وMidJourney وDall-E 3.

عادةً ما يكون Dall-e 3 هو أفضل منشئ نص على الإطلاق، ومع ذلك، في هذه الحالة المحددة وفي ظل الشروط التي تحددها منهجية المقارنة، لم يكتب النص بشكل صحيح. لم يتمكن ImageFX من إنشاء العبارة بأكملها، فإمكانيات إنشاء النص الخاصة به موجودة، ولكن من المحتمل أن تكون الأقل إثارة للإعجاب من بين المجموعة.

ومع ذلك، فإن Dall-E وImageFX كانا الأفضل في تصوير جوهر المدينة المستقبلية، بينما أنتجت MidJourney مدينة مبهجة من الناحية الجمالية ولكنها ليست مدينة مستقبلية على الإطلاق.

خاتمة

يتمتع عشاق الذكاء الاصطناعي الآن بوفرة من نماذج الذكاء الاصطناعي التي تخدم العديد من الاحتياجات. مع تقديم معظمها مجانًا، ليست هناك حاجة لاختيار الفائزين، فكل منهم لديه حالة استخدام محددة تجعله متميزًا.

ImageFX هو الأفضل من بين الثلاثة إذا كنت لا ترغب في إنفاق المال. كما أنها الأفضل من حيث الواقعية.

MidJourney ليس جيدًا في احترام المطالبات ولكنه مثالي لأولئك الذين يبحثون عن صور مبهجة من الناحية الجمالية.

يعد Dall-E 3 هو الأفضل للمبتدئين الذين يرغبون في إنشاء عروض ولا يريدون حتى التفكير في الهندسة السريعة والكلمات الرئيسية والمعلمات وبدلاً من ذلك يريدون فقط التحدث إلى الذكاء الاصطناعي الخاص به كما لو كان مجرد صديق آخر.

لكن نعم، إذا كنت تريد الاستنتاج، فقد أحببنا ImageFX — كثيرًا.

حررت بواسطة ريان أوزاوا.

ابق على اطلاع بأخبار العملات المشفرة، واحصل على تحديثات يومية في بريدك الوارد.

إعلانات
مقالات ذات صلة
- إعلانات -

الأكثر شهرة

- إعلانات -