الأخبار التكنولوجية والاستعراضات والنصائح!

يعمل Google KELM على تقليل التحيز وتحسين الدقة الواقعية

ستساعدك المقالة التالية: يعمل Google KELM على تقليل التحيز وتحسين الدقة الواقعية

أعلنت مدونة Google AI عن KELM، وهي طريقة يمكن استخدامها لتقليل التحيز والمحتوى السام في البحث (). ويستخدم طريقة تسمى TEKGEN لتحويل حقائق الرسم البياني المعرفي إلى نص لغة طبيعية يمكن استخدامه بعد ذلك لتحسين نماذج معالجة اللغة الطبيعية.

ما هو كيلم؟

KELM هو اختصار لـ Knowledge-Enhanced Language Model Pre-training. عادةً ما يتم تدريب نماذج معالجة اللغة الطبيعية مثل BERT على الويب والمستندات الأخرى. تقترح KELM إضافة محتوى واقعي جدير بالثقة () إلى التدريب المسبق لنموذج اللغة من أجل تحسين الدقة الواقعية وتقليل التحيز.

تقوم TEKGEN بتحويل البيانات المنظمة للرسم البياني المعرفي إلى نص باللغة الطبيعية يُعرف باسم KELM Corpus

تستخدم KELM بيانات جديرة بالثقة

اقترح باحثو Google استخدام الرسوم البيانية المعرفية لتحسين الدقة الواقعية لأنها مصدر موثوق للحقائق.

“المصادر البديلة للمعلومات هي الرسوم البيانية المعرفية (KGs)، والتي تتكون من بيانات منظمة. تتميز رياض الأطفال بطبيعتها الواقعية لأنه عادةً ما يتم استخراج المعلومات من مصادر أكثر موثوقية، وتضمن عوامل تصفية ما بعد المعالجة والمحررين البشريين إزالة المحتوى غير المناسب وغير الصحيح.

هل تستخدم Google KELM؟

لم توضح Google ما إذا كان KELM قيد الاستخدام أم لا. KELM هو أسلوب للتدريب المسبق على نموذج اللغة يُظهر وعدًا قويًا وتم تلخيصه في مدونة Google AI.

التحيز والدقة الواقعية ونتائج البحث

وفقًا لورقة البحث، يعمل هذا النهج على تحسين الدقة الواقعية:

“إنه يحمل مزايا إضافية تتمثل في تحسين الدقة الواقعية وتقليل السمية في نموذج اللغة الناتج.”

يعد هذا البحث مهمًا لأن تقليل التحيز وزيادة الدقة الواقعية يؤثران على كيفية تصنيف المواقع.

ولكن إلى أن يتم استخدام KELM، لا توجد طريقة للتنبؤ بنوع التأثير الذي سيحدثه.

لا تقوم Google حاليًا بالتحقق من نتائج البحث.

من الممكن أن يكون لـ KELM، في حالة تقديمه، تأثير على المواقع التي تروج لبيانات وأفكار غير صحيحة.

تأثير KELM أكثر من مجرد البحث

تم إصدار مجموعة KELM بموجب ترخيص المشاع الإبداعي (سي سي بي-سا 2.0).

وهذا يعني، أن أي شركة أخرى (مثل Bing، Facebook أو Twitter) يمكنهم استخدامه لتحسين التدريب المسبق على معالجة اللغة الطبيعية أيضًا.

عندها يمكن أن يمتد تأثير KELM عبر العديد من منصات البحث ووسائل التواصل الاجتماعي.

علاقات غير مباشرة مع MUM

أشارت Google أيضًا إلى أن خوارزمية MUM من الجيل التالي لن يتم إصدارها حتى تقتنع Google بأن التحيز لا يؤثر سلبًا على الإجابات التي تقدمها.

وفقًا لإعلان Google MUM:

“تمامًا كما اختبرنا بعناية العديد من تطبيقات BERT التي تم إطلاقها منذ عام 2019، ستخضع MUM لنفس العملية التي نطبق بها هذه النماذج في البحث.
وعلى وجه التحديد، سنبحث عن الأنماط التي قد تشير إلى التحيز في التعلم الآلي لتجنب إدخال التحيز في أنظمتنا.

يستهدف نهج KELM على وجه التحديد تقليل التحيز، مما قد يجعله ذا قيمة لتطوير خوارزمية MUM.

التعلم الآلي يمكن أن يولد نتائج متحيزة

تنص الورقة البحثية على أن البيانات التي تستخدمها نماذج اللغة الطبيعية مثل BERT وGPT-3 للتدريب يمكن أن تؤدي إلى “” وتحيزات.

يوجد في مجال الحوسبة اختصار قديم وهو GIGO والذي يرمز إلى Garbage In – Garbage Out. وهذا يعني أن جودة الإخراج يتم تحديدها من خلال جودة المدخلات.

إذا كان ما تدرب عليه الخوارزمية عالي الجودة، فستكون النتيجة ذات جودة عالية.

ما يقترحه الباحثون هو تحسين جودة البيانات التي يتم تدريب تقنيات مثل BERT وMUM عليها من أجل تقليل التحيزات.

الرسم البياني المعرفي

الرسم البياني المعرفي عبارة عن مجموعة من الحقائق بتنسيق بيانات منظم. البيانات المنظمة هي لغة ترميزية تنقل معلومات محددة بطريقة تستهلكها الأجهزة بسهولة.

وفي هذه الحالة تكون المعلومات عبارة عن حقائق عن الأشخاص والأماكن والأشياء.

ال تم تقديم الرسم البياني للمعرفة من Google في عام 2012 كوسيلة لمساعدة Google على فهم العلاقات بين الأشياء. لذلك عندما يسأل شخص ما عن واشنطن، يمكن أن يكون جوجل قادرًا على معرفة ما إذا كان الشخص الذي يطرح السؤال يسأل عن واشنطن الشخص أو الولاية أو مقاطعة كولومبيا.

تم الإعلان عن أن الرسم البياني المعرفي لجوجل يتكون من بيانات من مصادر موثوقة للحقائق.

وصف إعلان Google في عام 2012 الرسم البياني للمعرفة بأنه خطوة أولى نحو بناء الجيل التالي من البحث، والذي نستمتع به حاليًا.

الرسم البياني للمعرفة ودقة الحقائق

يتم استخدام بيانات الرسم البياني للمعرفة في هذه الورقة البحثية لتحسين خوارزميات Google لأن المعلومات جديرة بالثقة ويمكن الاعتماد عليها.

تقترح ورقة بحث Google دمج معلومات الرسم البياني المعرفي في عملية التدريب لإزالة التحيزات وزيادة الدقة الواقعية.

ما يقترحه بحث جوجل ذو شقين.

  1. أولاً، يحتاجون إلى تحويل قواعد المعرفة إلى نص باللغة الطبيعية.
  2. ثانيًا، يمكن بعد ذلك دمج المجموعة الناتجة، المسماة التدريب المسبق لنموذج اللغة المعزز بالمعرفة (KELM)، في التدريب المسبق للخوارزمية لتقليل التحيزات.

يشرح الباحثون المشكلة على النحو التالي:

“إن نماذج معالجة اللغة الطبيعية الكبيرة المدربة مسبقًا (NLP)، مثل BERT وRoBERTa وGPT-3 وT5 وREALM، تستفيد من مجموعات اللغة الطبيعية المشتقة من الويب والمضبوطة بدقة على بيانات مهمة محددة…

ومع ذلك، فإن نص اللغة الطبيعية وحده يمثل تغطية محدودة للمعرفة… علاوة على ذلك، فإن وجود معلومات غير واقعية ومحتوى سام في النص يمكن أن يؤدي في النهاية إلى تحيزات في النماذج الناتجة.

من البيانات المنظمة للرسم البياني المعرفي إلى نص اللغة الطبيعية

يذكر الباحثون أن مشكلة دمج معلومات قاعدة المعرفة في التدريب هي أن بيانات قاعدة المعرفة تكون في شكل بيانات منظمة.

الحل هو تحويل البيانات المنظمة للرسم البياني المعرفي إلى نص باللغة الطبيعية باستخدام مهمة لغة طبيعية تسمى إنشاء البيانات إلى نص.

وأوضحوا أنه نظرًا لأن تحويل البيانات إلى نص يمثل تحديًا، فقد أنشأوا ما أسموه “” جديدًا يسمى “” لحل المشكلة.

الاقتباس: إنشاء النصوص التركيبية المستندة إلى الرسم البياني المعرفي للتدريب المسبق على نموذج اللغة المعزز بالمعرفة

نص اللغة الطبيعية TEKGEN يحسن الدقة الواقعية

TEKGEN هي التكنولوجيا التي ابتكرها الباحثون لتحويل البيانات المنظمة إلى نص باللغة الطبيعية. هذه هي النتيجة النهائية، النص الواقعي، الذي يمكن استخدامه لإنشاء مجموعة KELM والتي يمكن استخدامها بعد ذلك كجزء من التدريب المسبق للتعلم الآلي للمساعدة في منع التحيز من شق طريقه إلى الخوارزميات.

لاحظ الباحثون أن إضافة معلومات الرسم البياني المعرفي الإضافية (المجاميع) إلى بيانات التدريب أدى إلى تحسين الدقة الواقعية.

تنص ورقة TEKGEN/KELM على ما يلي:

“نوضح أيضًا أن النطق اللفظي لرياض الأطفال الشاملة والموسوعية مثل ويكي بيانات يمكن استخدامه لدمج رياض الأطفال المنظمة ومجموعات اللغة الطبيعية.

…يقوم نهجنا بتحويل رياض الأطفال إلى نص طبيعي، مما يسمح بدمجه بسلاسة في نماذج اللغة الحالية. إنه يحمل مزايا إضافية تتمثل في تحسين الدقة الواقعية وتقليل السمية في نموذج اللغة الناتج.

نشرت مقالة KELM رسمًا توضيحيًا يوضح كيفية ربط عقدة بيانات منظمة واحدة ثم تحويلها من هناك إلى نص طبيعي (لفظيًا).

لقد قسمت الرسم التوضيحي إلى قسمين.

فيما يلي صورة تمثل البيانات المنظمة للرسم البياني المعرفي. يتم ربط البيانات بالنص.

لقطة شاشة للجزء الأول من عملية تحويل TEKGEN

تمثل الصورة أدناه الخطوة التالية من عملية TEKGEN التي تأخذ النص المتسلسل وتحوله إلى نص لغة طبيعية.

لقطة شاشة للنص الذي تم تحويله إلى نص باللغة الطبيعية

إنشاء مجموعة KELM

يوجد رسم توضيحي آخر يوضح كيفية إنشاء نص اللغة الطبيعية KELM الذي يمكن استخدامه للتدريب المسبق.

تعرض ورقة TEKGEN هذا الرسم التوضيحي بالإضافة إلى الوصف:

  • “في الخطوة 1، تتم محاذاة ثلاثية KG مع نص ويكيبيديا باستخدام الإشراف عن بعد.
  • في الخطوتين 2 و3، يتم ضبط T5 بشكل تسلسلي أولاً في هذه المجموعة، متبوعًا بعدد صغير من الخطوات في مجموعة WebNLG،
  • في الخطوة 4، تم ضبط BERT بشكل دقيق لإنشاء نقاط جودة دلالية للجمل التي تم إنشاؤها بمعدل ثلاثة أضعاف.
  • الخطوات 2 و3 و4 معًا تشكل TEKGEN.
  • لإنشاء مجموعة KELM، في الخطوة 5، يتم إنشاء الرسوم البيانية الفرعية للكيانات باستخدام أعداد محاذاة زوج العلاقات من مجموعة التدريب التي تم إنشاؤها في الخطوة 1.
    يتم بعد ذلك تحويل ثلاثيات الرسم البياني الفرعي إلى نص طبيعي باستخدام TEKGEN.

تعمل KELM على تقليل التحيز وتعزيز الدقة

تنص مقالة KELM المنشورة على مدونة Google AI على أن KELM لديها تطبيقات واقعية، خاصة لمهام الإجابة على الأسئلة التي ترتبط بشكل صريح باسترجاع المعلومات (البحث) ومعالجة اللغة الطبيعية (تقنيات مثل BERT وMUM).

تبحث Google في العديد من الأشياء، ويبدو أن بعضها عبارة عن استكشافات لما هو ممكن، ولكنها تبدو بخلاف ذلك وكأنها طرق مسدودة. عادةً ما تنتهي الأبحاث التي ربما لا تصل إلى خوارزمية Google ببيان مفاده أن هناك حاجة إلى مزيد من البحث لأن التكنولوجيا لا تلبي التوقعات بطريقة أو بأخرى.

ولكن هذا ليس هو الحال مع بحث KELM وTEKGEN. المقال في الواقع متفائل بشأن التطبيق الحقيقي للاكتشافات. وهذا يميل إلى منحها احتمالية أكبر بأن تتمكن KELM من الوصول في النهاية إلى البحث بشكل أو بآخر.

هذه هي الطريقة التي اختتم بها الباحثون المقالة حول KELM لتقليل التحيز:

“هذا له تطبيقات في العالم الحقيقي للمهام كثيفة المعرفة، مثل الإجابة على الأسئلة، حيث يكون توفير المعرفة الواقعية أمرًا ضروريًا. علاوة على ذلك، يمكن تطبيق مثل هذه المجموعات في التدريب المسبق لنماذج اللغات الكبيرة، ويمكن أن تقلل من السمية وتحسن الواقعية.

هل سيتم استخدام KELM قريبًا؟

يتطلب إعلان Google الأخير عن خوارزمية MUM الدقة، وهو الأمر الذي تم إنشاء مجموعة KELM من أجله. لكن تطبيق KELM لا يقتصر على MUM.

حقيقة أن الحد من التحيز ودقة الحقائق يشكلان مصدر قلق بالغ في المجتمع اليوم وأن الباحثين متفائلون بشأن النتائج يميل إلى منحها احتمالية أكبر لاستخدامها بشكل ما في المستقبل في البحث.

اقتباسات

مقالة Google AI حول KELM
KELM: دمج الرسوم البيانية المعرفية مع مجموعات التدريب المسبق لنموذج اللغة

ورقة بحث KELM (PDF)
إنشاء النصوص التركيبية المستندة إلى الرسم البياني المعرفي للتدريب المسبق على نموذج اللغة المعزز بالمعرفة

مجموعة تدريب TEKGEN على GitHub