الأخبار التكنولوجية والاستعراضات والنصائح!

نماذج اللغة متعددة الوسائط: مستقبل الذكاء الاصطناعي (AI)

ستساعدك المقالة التالية: نماذج اللغة متعددة الوسائط: مستقبل الذكاء الاصطناعي (AI)

نماذج اللغات الكبيرة (LLMs) هي نماذج حاسوبية قادرة على تحليل وتوليد النص. يتم تدريبهم على كمية هائلة من البيانات النصية لتحسين أدائهم في مهام مثل إنشاء النص وحتى الترميز.

معظم LLMs الحالية هي نصوص فقط ، أي أنها تتفوق فقط في التطبيقات المستندة إلى النصوص ولديها قدرة محدودة على فهم أنواع أخرى من البيانات.

تتضمن أمثلة LLM للنص فقط ، وما إلى ذلك.

على العكس من ذلك ، تجمع LLM متعددة الوسائط أنواع البيانات الأخرى ، مثل الصور ومقاطع الفيديو والصوت والمدخلات الحسية الأخرى ، جنبًا إلى جنب مع النص. يعالج تكامل الوسائط المتعددة في LLM بعض القيود المفروضة على النماذج النصية الحالية فقط ويفتح إمكانيات للتطبيقات الجديدة التي كانت مستحيلة في السابق.

تم إصداره مؤخرًا GPT-4 بواسطة Open AI هو مثال على Multimodal LLM. يمكنه قبول مدخلات الصور والنصوص وقد أظهر أداءً على مستوى الإنسان في العديد من المعايير.

الارتفاع في الذكاء الاصطناعي متعدد الوسائط

يمكن أن يُعزى تقدم الذكاء الاصطناعي متعدد الوسائط إلى تقنيتين أساسيتين للتعلم الآلي: و .

باستخدام ، يمكن للنماذج تطوير تمثيل مشترك لجميع الطرائق ، مع السماح لهم أولاً بتعلم المعرفة الأساسية قبل ضبط مجالات محددة.

هذه التقنيات ضرورية لجعل الذكاء الاصطناعي متعدد الوسائط مجديًا وفعالًا ، كما يتضح من الاختراقات الحديثة مثل CLIP ، التي تعمل على محاذاة الصور والنص ، و DALL · E 2 و Stable Diffusion ، والتي تولد صورًا عالية الجودة من مطالبات النص.

نظرًا لأن الحدود بين أنماط البيانات المختلفة أصبحت أقل وضوحًا ، يمكننا أن نتوقع المزيد من تطبيقات الذكاء الاصطناعي لتعزيز العلاقات بين الطرائق المتعددة ، مما يمثل تحولًا نموذجيًا في هذا المجال. ستصبح المقاربات المخصصة عفا عليها الزمن تدريجياً ، وستستمر أهمية فهم الروابط بين الأساليب المختلفة في النمو.

عمل LLMs متعدد الوسائط

يتم تشغيل نماذج اللغة النصية فقط (LLMs) بواسطة نموذج المحول ، مما يساعدهم على فهم اللغة وتوليدها. يأخذ هذا النموذج نص الإدخال ويحوله إلى تمثيل رقمي يسمى “تضمين الكلمة.” تساعد هذه الزخارف النموذج في فهم معنى النص وسياقه.

يستخدم نموذج المحول بعد ذلك شيئًا يسمى “طبقات الانتباه” لمعالجة النص وتحديد كيفية ارتباط الكلمات المختلفة في نص الإدخال ببعضها البعض. تساعد هذه المعلومات النموذج في توقع الكلمة التالية الأكثر احتمالًا في الإخراج.

من ناحية أخرى ، تعمل LLM متعددة الوسائط ليس فقط مع النص ولكن أيضًا مع أشكال أخرى من البيانات ، مثل الصور والصوت والفيديو. تقوم هذه النماذج بتحويل النص وأنواع البيانات الأخرى إلى ملف شائع مساحة التشفير ، مما يعني أنه يمكنهم معالجة جميع أنواع البيانات باستخدام نفس الآلية. يتيح ذلك للنماذج إنشاء استجابات تتضمن معلومات من طرائق متعددة ، مما يؤدي إلى مخرجات أكثر دقة وسياقية.

لماذا هناك حاجة لنماذج اللغة متعددة الوسائط

تحتوي LLMs للنص فقط مثل GPT-3 و BERT على مجموعة واسعة من التطبيقات ، مثل كتابة المقالات وتأليف رسائل البريد الإلكتروني والترميز. ومع ذلك ، فإن هذا النهج النصي فقط قد سلط الضوء أيضًا على قيود هذه النماذج.

على الرغم من أن اللغة جزء أساسي من الذكاء البشري ، إلا أنها تمثل جانبًا واحدًا فقط من ذكائنا. تعتمد قدراتنا المعرفية بشكل كبير على الإدراك والقدرات اللاواعية ، والتي تشكلت إلى حد كبير من خلال تجاربنا السابقة وفهمنا لكيفية عمل العالم.

LLMs المدربة فقط على النص محدودة بطبيعتها في قدرتها على دمج الفطرة السليمة والمعرفة العالمية ، والتي يمكن أن تكون مشكلة بالنسبة لبعض المهام. يمكن أن يساعد توسيع مجموعة بيانات التدريب إلى حد ما ، ولكن هذه النماذج قد لا تزال تواجه فجوات غير متوقعة في معرفتها. يمكن للنهج متعددة الوسائط معالجة بعض هذه التحديات.

لفهم هذا بشكل أفضل ، ضع في اعتبارك مثال ChatGPT و GPT-4.

على الرغم من أن ChatGPT هو نموذج لغوي رائع أثبت أنه مفيد بشكل لا يصدق في العديد من السياقات ، إلا أنه يحتوي على قيود معينة في مجالات مثل التفكير المعقد.

لمعالجة هذا الأمر ، من المتوقع أن يتجاوز التكرار التالي لـ GPT ، GPT-4 ، قدرات التفكير في ChatGPT. باستخدام خوارزميات أكثر تقدمًا ودمج الوسائط المتعددة ، فإن GPT-4 مهيأ لنقل معالجة اللغة الطبيعية إلى المستوى التالي ، مما يسمح لها بمعالجة مشاكل التفكير الأكثر تعقيدًا وتحسين قدرتها على توليد استجابات شبيهة بالبشر.

أوبن إيه آي: GPT-4

GPT-4 هو نموذج كبير متعدد الوسائط يمكنه قبول كل من إدخالات الصور والنص وإنشاء مخرجات نصية. على الرغم من أنه قد لا يكون بنفس قدرة البشر في مواقف معينة من العالم الحقيقي ، فقد أظهر GPT-4 أداءً على مستوى الإنسان في العديد من المعايير المهنية والأكاديمية.

بالمقارنة مع سابقتها ، GPT-3.5 ، قد يكون التمييز بين النموذجين دقيقًا في المحادثة غير الرسمية ولكنه يصبح واضحًا عندما يصل تعقيد المهمة إلى حد معين. يعد GPT-4 أكثر موثوقية وإبداعًا ويمكنه التعامل مع تعليمات أكثر دقة من GPT-3.5.

علاوة على ذلك ، يمكنه التعامل مع المطالبات التي تتضمن نصوصًا وصورًا ، مما يسمح للمستخدمين بتحديد أي مهمة تتعلق بالرؤية أو اللغة. أظهر GPT-4 قدراته في مجالات مختلفة ، بما في ذلك المستندات التي تحتوي على نصوص أو صور فوتوغرافية أو رسوم بيانية أو لقطات شاشة ، ويمكنه إنشاء مخرجات نصية مثل اللغة الطبيعية والرمز.

أكاديمية خان أعلنت مؤخرًا أنها ستستخدم GPT-4 لتشغيل مساعد الذكاء الاصطناعي الخاص بها ، والذي سيكون بمثابة مدرس افتراضي للطلاب بالإضافة إلى مساعد الفصل الدراسي للمعلمين. تختلف قدرة كل طالب على فهم المفاهيم بشكل كبير ، وسيساعد استخدام GPT-4 المنظمة في معالجة هذه المشكلة.

مايكروسوفت: كوزموس -1

Kosmos-1 هو نموذج متعدد الوسائط للغة كبيرة (MLLM) يمكنه إدراك طرائق مختلفة ، والتعلم في السياق (لقطة قليلة) ، واتباع التعليمات (بدون طلقة). تم تدريب Kosmos-1 من البداية على بيانات الويب ، بما في ذلك النصوص والصور ، وأزواج شرح الصور ، وبيانات النص.

حقق النموذج أداءً رائعًا في مهام فهم اللغة والتوليد والإدراك واللغة والرؤية. يدعم Kosmos-1 في الأصل أنشطة اللغة والإدراك واللغة والرؤية ، ويمكنه التعامل مع المهام اللغوية الطبيعية والمكثفة للإدراك.

أظهر Kosmos-1 أن تعدد الوسائط يسمح لنماذج اللغة الكبيرة بإنجاز المزيد بموارد أقل وتمكن النماذج الأصغر من حل المهام المعقدة.

جوجل: PaLM-E

PaLM-E هو نموذج روبوتات جديد طوره باحثون في Google و TU Berlin والذي يستخدم نقل المعرفة من مختلف المجالات المرئية واللغوية لتعزيز تعلم الروبوت. على عكس الجهود السابقة ، يقوم PaLM-E بتدريب نموذج اللغة لدمج بيانات المستشعر الخام من العامل الآلي مباشرة. ينتج عن هذا نموذج تعلم روبوت فعال للغاية ، وهو نموذج لغة مرئي حديث للأغراض العامة.

يأخذ النموذج مدخلات بأنواع معلومات مختلفة ، مثل النصوص والصور وفهم محيط الروبوت. يمكن أن ينتج ردودًا في شكل نص عادي أو سلسلة من التعليمات النصية التي يمكن ترجمتها إلى أوامر قابلة للتنفيذ لروبوت استنادًا إلى مجموعة من أنواع معلومات الإدخال ، بما في ذلك النصوص والصور والبيانات البيئية.

يُظهر PaLM-E الكفاءة في كل من المهام المتجسدة وغير المجسدة ، كما يتضح من التجارب التي أجراها الباحثون. تشير النتائج التي توصلوا إليها إلى أن تدريب النموذج على مجموعة من المهام والتجسيدات يعزز أدائه في كل مهمة. بالإضافة إلى ذلك ، فإن قدرة النموذج على نقل المعرفة تمكنه من حل المهام الآلية حتى مع أمثلة التدريب المحدودة بشكل فعال. هذا مهم بشكل خاص في مجال الروبوتات ، حيث قد يكون الحصول على بيانات تدريب كافية أمرًا صعبًا.

حدود LLMs متعددة الوسائط

يتعلم البشر بشكل طبيعي ويجمعون بين طرائق وطرق مختلفة لفهم العالم من حولهم. من ناحية أخرى ، تحاول LLM متعددة الوسائط تعلم اللغة والإدراك في وقت واحد أو الجمع بين المكونات المدربة مسبقًا. في حين أن هذا النهج يمكن أن يؤدي إلى تطوير أسرع وتحسين قابلية التوسع ، إلا أنه يمكن أن يؤدي أيضًا إلى عدم التوافق مع الذكاء البشري ، والذي قد يظهر من خلال سلوك غريب أو غير عادي.

على الرغم من أن LLM متعددة الوسائط تحقق تقدمًا في معالجة بعض القضايا الحرجة لنماذج اللغة الحديثة وأنظمة التعلم العميق ، لا تزال هناك قيود يجب معالجتها. تتضمن هذه القيود عدم تطابق محتمل بين النماذج والذكاء البشري ، مما قد يعيق قدرتها على سد الفجوة بين الذكاء الاصطناعي والإدراك البشري.

الخلاصة: لماذا تعد LLMs متعددة الوسائط هي المستقبل؟

نحن حاليًا في طليعة عصر جديد في الذكاء الاصطناعي ، وعلى الرغم من القيود الحالية ، فإن النماذج متعددة الوسائط تستعد لتولي المسؤولية. تجمع هذه النماذج بين أنواع وطرائق بيانات متعددة ولديها القدرة على تغيير الطريقة التي نتفاعل بها مع الآلات تمامًا.

حققت LLMs متعددة الوسائط نجاحًا ملحوظًا في رؤية الكمبيوتر ومعالجة اللغة الطبيعية. ومع ذلك ، في المستقبل ، يمكننا أن نتوقع أن يكون للـ LLM متعدد الوسائط تأثير أكبر على حياتنا.

إمكانيات LLM متعددة الوسائط لا حصر لها ، وقد بدأنا للتو في استكشاف إمكاناتها الحقيقية. بالنظر إلى وعدهم الهائل ، من الواضح أن LLM متعددة الوسائط ستلعب دورًا مهمًا في مستقبل الذكاء الاصطناعي.