الأخبار التكنولوجية والاستعراضات والنصائح!

Google Bard AI – ما هي المواقع التي تم استخدامها لتدريبه؟

ستساعدك المقالة التالية: Google Bard AI – ما هي المواقع التي تم استخدامها لتدريبه؟

يعتمد Google Bard على نموذج اللغة LaMDA، الذي تم تدريبه على مجموعات البيانات المستندة إلى محتوى الإنترنت المسمى Infiniset والذي لا يُعرف عنه سوى القليل جدًا عن مصدر البيانات وكيف حصلوا عليها.

تسرد ورقة بحث LaMDA لعام 2022 النسب المئوية لأنواع مختلفة من البيانات المستخدمة لتدريب LaMDA، ولكن 12.5% ​​فقط تأتي من مجموعة بيانات عامة للمحتوى الذي تم الزحف إليه من الويب و12.5% ​​أخرى تأتي من ويكيبيديا.

إن Google غامضة بشكل متعمد بشأن مصدر بقية البيانات المسروقة، ولكن هناك تلميحات حول المواقع الموجودة في مجموعات البيانات هذه.

مجموعة بيانات Infiniset من Google

يعتمد Google Bard على نموذج لغة يسمى LaMDA، وهو اختصار لـ .

تم تدريب LaMDA على مجموعة بيانات تسمى Infiniset.

Infiniset عبارة عن مزيج من محتوى الإنترنت تم اختياره عمدًا لتعزيز قدرة النموذج على المشاركة في الحوار.

ورقة بحث LaMDA (بي دي إف) يشرح سبب اختيارهم لتكوين المحتوى هذا:

“…تم اختيار هذه التركيبة لتحقيق أداء أكثر قوة في مهام الحوار… مع الحفاظ على قدرتها على أداء مهام أخرى مثل إنشاء التعليمات البرمجية.

كعمل مستقبلي، يمكننا دراسة كيف يمكن أن يؤثر اختيار هذا التكوين على جودة بعض مهام البرمجة اللغوية العصبية الأخرى التي يؤديها النموذج.

تشير ورقة البحث إلى و، وهو تهجئة الكلمات المستخدمة في هذا السياق، في مجال علوم الكمبيوتر.

في المجمل، تم تدريب LaMDA مسبقًا على 1.56 تريليون كلمة من “.”

تتكون مجموعة البيانات من المزيج التالي:

  • 12.5% ​​بيانات مستندة إلى C4
  • 12.5% ​​لغة إنجليزية ويكيبيديا
  • 12.5% ​​من مستندات التعليمات البرمجية من مواقع الأسئلة والأجوبة البرمجية والبرامج التعليمية وغيرها
  • 6.25% وثائق ويب باللغة الإنجليزية
  • 6.25% مستندات ويب غير الإنجليزية
  • 50% من بيانات الحوارات من المنتديات العامة

يتكون الجزءان الأولان من Infiniset (C4 وWikipedia) من بيانات معروفة.

مجموعة بيانات C4، والتي سيتم استكشافها قريبًا، هي نسخة تمت تصفيتها خصيصًا من مجموعة بيانات Common Crawl.

25% فقط من البيانات تأتي من مصدر مسمى (مجموعة البيانات و).

أما بقية البيانات التي تشكل الجزء الأكبر من مجموعة بيانات Infiniset، أي 75%، فتتكون من كلمات تم استخراجها من الإنترنت.

لا تذكر ورقة البحث كيفية الحصول على البيانات من مواقع الويب، أو مواقع الويب التي تم الحصول عليها منها أو أي تفاصيل أخرى حول المحتوى المسروق.

يستخدم Google فقط الأوصاف العامة مثل “مستندات الويب غير الإنجليزية”.

كلمة “غامض” تعني عندما لا يتم شرح شيء ما ويتم إخفاؤه في الغالب.

Murky هي أفضل كلمة لوصف 75% من البيانات التي استخدمتها Google لتدريب LaMDA.

هناك بعض الأدلة التي تشير إلى المواقع الموجودة ضمن 75% من محتوى الويب، ولكن لا يمكننا أن نعرف على وجه اليقين.

مجموعة بيانات C4

C4 هي مجموعة بيانات طورتها Google في عام 2020. C4 تعني “.”

تعتمد مجموعة البيانات هذه على بيانات الزحف المشترك، وهي مجموعة بيانات مفتوحة المصدر.

حول الزحف المشترك

الزحف المشترك هي منظمة غير ربحية مسجلة تقوم بالزحف إلى الإنترنت شهريًا لإنشاء مجموعات بيانات مجانية يمكن لأي شخص استخدامها.

تتم إدارة منظمة Common Crawl حاليًا من قبل أشخاص عملوا في مؤسسة ويكيميديا، وموظفين سابقين في Google، ومؤسس Blekko، ويعتبرون أشخاصًا مستشارين مثل بيتر نورفيج، مدير الأبحاث في Google وداني سوليفان (من Google أيضًا).

كيف تم تطوير C4 من الزحف المشترك

يتم تنظيف بيانات الزحف المشترك الأولية عن طريق إزالة أشياء مثل المحتوى الرقيق والكلمات الفاحشة وlorem ipsum وقوائم التنقل وإلغاء البيانات المكررة وما إلى ذلك من أجل قصر مجموعة البيانات على المحتوى الرئيسي.

كان الهدف من تصفية البيانات غير الضرورية هو إزالة الثرثرة والاحتفاظ بأمثلة من اللغة الإنجليزية الطبيعية.

هذا ما كتبه الباحثون الذين قاموا بإنشاء C4:

“لتجميع مجموعة البيانات الأساسية الخاصة بنا، قمنا بتنزيل النص المستخرج من الويب اعتبارًا من أبريل 2019 وقمنا بتطبيق التصفية المذكورة أعلاه.

وينتج عن ذلك مجموعة من النصوص ليست فقط أكبر حجمًا من معظم مجموعات البيانات المستخدمة للتدريب المسبق (حوالي 750 جيجابايت) ولكنها تشتمل أيضًا على نص إنجليزي نظيف وطبيعي إلى حد معقول.

نطلق على مجموعة البيانات هذه اسم “Colossal Clean Crawled Corpus” (أو C4 للاختصار) ونصدرها كجزء من مجموعات بيانات TensorFlow…”

هناك إصدارات أخرى لم تتم تصفيتها من C4 أيضًا.

الورقة البحثية التي تصف مجموعة بيانات C4 تحمل عنوان، استكشاف حدود نقل التعلم باستخدام محول النص إلى النص الموحد (PDF).

ورقة بحثية أخرى من عام 2021، (توثيق مجموعة كبيرة من نصوص الويب: دراسة حالة عن مجموعة هائلة من النصوص الزاحفة – PDF) فحص تكوين المواقع المدرجة في مجموعة البيانات C4.

ومن المثير للاهتمام أن الورقة البحثية الثانية اكتشفت حالات شاذة في مجموعة بيانات C4 الأصلية والتي أدت إلى إزالة صفحات الويب التي كانت متوافقة مع الأمريكيين من أصل إسباني وأمريكي من أصل أفريقي.

تمت إزالة صفحات الويب المتوافقة مع اللغة الإسبانية بواسطة مرشح القائمة المحظورة (الكلمات البذيئة، وما إلى ذلك) بمعدل 32% من الصفحات.

تمت إزالة صفحات الويب المتوافقة مع الأمريكيين من أصل أفريقي بمعدل 42%.

ومن المفترض أن يتم معالجة هذه العيوب…

وكان الاستنتاج الآخر هو أن 51.3% من مجموعة بيانات C4 تتكون من صفحات ويب تمت استضافتها في الولايات المتحدة.

وأخيرًا، يعترف تحليل عام 2021 لمجموعة بيانات C4 الأصلية بأن مجموعة البيانات لا تمثل سوى جزء صغير من إجمالي الإنترنت.

التحليل ينص على:

“يظهر تحليلنا أنه على الرغم من أن مجموعة البيانات هذه تمثل جزءًا كبيرًا من جزء صغير من الإنترنت العام، إلا أنها لا تمثل بأي حال من الأحوال العالم الناطق باللغة الإنجليزية، وتمتد على نطاق واسع من السنوات.

عند إنشاء مجموعة بيانات من نسخة من الويب، يعد الإبلاغ عن المجالات التي تم نسخ النص منها جزءًا لا يتجزأ من فهم مجموعة البيانات؛ يمكن أن تؤدي عملية جمع البيانات إلى توزيع مختلف تمامًا لنطاقات الإنترنت عما يتوقعه المرء.

الإحصائيات التالية حول مجموعة بيانات C4 مأخوذة من ورقة البحث الثانية المرتبطة أعلاه.

أفضل 25 موقعًا (حسب عدد الرموز) في C4 هي:

  1. براءات الاختراع.google.com
  2. en.wikipedia.org
  3. en.m.wikipedia.org
  4. www.nytimes.com
  5. www.latimes.com
  6. www.theguardian.com
  7. Journals.plos.org
  8. www.forbes.com
  9. www.huffpost.com
  10. براءات الاختراع.كوم
  11. www.scribd.com
  12. www.washingtonpost.com
  13. www.fool.com
  14. ipfs.io
  15. www.frontiersin.org
  16. www.businessinsider.com
  17. www.chicagotribune.com
  18. www.booking.com
  19. www.theatlantic.com
  20. link.springer.com
  21. www.aljazeera.com
  22. www.kickstarter.com
  23. caselaw.findlaw.com
  24. www.ncbi.nlm.nih.gov
  25. www.npr.org

هذه هي أهم 25 نطاقًا من المستوى الأعلى ممثلة في مجموعة بيانات C4:

لقطة شاشة من

إذا كنت مهتمًا بمعرفة المزيد عن مجموعة بيانات C4، فإنني أوصي بالقراءة توثيق مجموعة كبيرة من نصوص الويب: دراسة حالة عن مجموعة هائلة من النصوص الزاحفة (PDF) وكذلك الورقة البحثية الأصلية لعام 2020 (بي دي إف) الذي تم إنشاء C4 من أجله.

ماذا يمكن أن تكون بيانات الحوارات من المنتديات العامة؟

50% من بيانات التدريب تأتي من “.”

هذا كل ما تقوله ورقة بحث LaMDA من Google حول بيانات التدريب هذه.

إذا كان للمرء أن يخمن، فإن Reddit والمجتمعات الكبرى الأخرى مثل StackOverflow هي رهانات آمنة.

يتم استخدام Reddit في العديد من مجموعات البيانات المهمة مثل تلك تم تطويره بواسطة OpenAI يسمى WebText2 (PDF)، وهو تقريب مفتوح المصدر لـ WebText2 يسمى OpenWebText2 وهو خاص بشركة Google يشبه نص الويب (PDF) مجموعة البيانات من عام 2020

نشرت Google أيضًا تفاصيل مجموعة بيانات أخرى لمواقع الحوار العامة قبل شهر من نشر ورقة LaMDA.

تسمى مجموعة البيانات هذه التي تحتوي على مواقع الحوار العامة MassiveWeb.

لا نتوقع أن يتم استخدام مجموعة بيانات MassiveWeb لتدريب LaMDA.

ولكنها تحتوي على مثال جيد لما اختارته جوجل لنموذج لغة آخر يركز على الحوار.

تم إنشاء موقع MassiveWeb بواسطة شركة DeepMind المملوكة لشركة Google.

وقد تم تصميمه للاستخدام بواسطة نموذج لغة كبير يسمى Gopher (رابط إلى PDF من ورقة البحث).

يستخدم MassiveWeb مصادر ويب الحوار التي تتجاوز Reddit لتجنب إنشاء تحيز تجاه البيانات المتأثرة بـ Reddit.

لا يزال يستخدم رديت. ولكنه يحتوي أيضًا على بيانات تم الحصول عليها من العديد من المواقع الأخرى.

مواقع الحوار العامة المضمنة في MassiveWeb هي:

  • رديت
  • Facebook
  • كورا
  • YouTube
  • واسطة
  • StackOverflow

مرة أخرى، هذا لا يشير إلى أن LaMDA قد تم تدريبه على المواقع المذكورة أعلاه.

إنه يهدف فقط إلى إظهار ما كان من الممكن أن يستخدمه Google، من خلال عرض مجموعة البيانات التي كانت Google تعمل عليها في نفس الوقت تقريبًا مع LaMDA، وهي مجموعة تحتوي على مواقع من نوع المنتديات.

الباقي 37.5%

المجموعة الأخيرة من مصادر البيانات هي:

  • 12.5% ​​من مستندات التعليمات البرمجية من المواقع المتعلقة بالبرمجة مثل مواقع الأسئلة والأجوبة والبرامج التعليمية وما إلى ذلك؛
  • 12.5% ​​ويكيبيديا (الإنجليزية)
  • 6.25% وثائق ويب باللغة الإنجليزية
  • 6.25% مستندات ويب غير الإنجليزية.

لا تحدد Google المواقع الموجودة في الفئة التي تشكل 12.5% ​​من مجموعة البيانات التي تدرب عليها LaMDA.

لذلك لا يسعنا إلا أن نتكهن.

يبدو أن Stack Overflow وReddit خياران واضحان، خاصة أنه تم تضمينهما في مجموعة بيانات MassiveWeb.

ما هي المواقع “” التي تم الزحف إليها؟ لا يسعنا إلا أن نتكهن بما قد تكون عليه مواقع “البرامج التعليمية”.

وهذا يترك الفئات الثلاث الأخيرة من المحتوى، اثنتان منها غامضتان للغاية.

ويكيبيديا اللغة الإنجليزية لا تحتاج للمناقشة، فكلنا نعرف ويكيبيديا.

لكن لم يتم شرح الأمرين التاليين:

وصفحات الويب اللغوية هي وصف عام لـ 13% من المواقع المدرجة في قاعدة البيانات.

هذه هي كل المعلومات التي تقدمها Google حول هذا الجزء من بيانات التدريب.

هل يجب على Google أن تكون شفافة بشأن مجموعات البيانات المستخدمة لـ Bard؟

يشعر بعض الناشرين بعدم الارتياح من استخدام مواقعهم لتدريب أنظمة الذكاء الاصطناعي، لأن هذه الأنظمة، في رأيهم، قد تجعل مواقعهم الإلكترونية في المستقبل قديمة ومختفية.

ويبقى أن نرى ما إذا كان هذا صحيحًا أم لا، ولكنه مصدر قلق حقيقي يعبر عنه الناشرون وأعضاء مجتمع التسويق عبر البحث.

إن Google غامضة بشكل محبط بشأن مواقع الويب المستخدمة لتدريب LaMDA بالإضافة إلى التكنولوجيا المستخدمة لاستخراج البيانات من مواقع الويب.

كما رأينا في تحليل مجموعة بيانات C4، فإن منهجية اختيار محتوى موقع الويب الذي سيتم استخدامه لتدريب نماذج اللغة الكبيرة يمكن أن تؤثر على جودة نموذج اللغة عن طريق استبعاد مجموعات معينة من السكان.

هل ينبغي لشركة Google أن تكون أكثر شفافية بشأن المواقع التي يتم استخدامها لتدريب الذكاء الاصطناعي الخاص بها أو على الأقل نشر تقرير شفافية يسهل العثور عليه حول البيانات التي تم استخدامها؟