الأخبار التكنولوجية والاستعراضات والنصائح!

كيفية منع OpenAI ChatGPT من استخدام محتوى موقع الويب الخاص بك

ستساعدك المقالة التالية: كيفية منع OpenAI ChatGPT من استخدام محتوى موقع الويب الخاص بك

هناك قلق بشأن عدم وجود طريقة سهلة لإلغاء الاشتراك في استخدام المحتوى الخاص بك لتدريب نماذج اللغات الكبيرة (LLMs) مثل ChatGPT. هناك طريقة للقيام بذلك، لكنها ليست واضحة أو مضمونة النجاح.

تم التحديث بتاريخ 08-09-2023:

تم نشر OpenAI معايير Robots.txt لحظر GTBot.

GTBot هو وكيل المستخدم لزاحف OpenAI. تقول OpenAI إنها قد تزحف إلى الويب لتحسين أنظمتها.

لا يقولون أنه يتم استخدام GTBot لإنشاء مجموعات البيانات المستخدمة لتدريب ChatGPT. يمكن أن يكون كذلك، لكنهم لا يقولون ذلك صراحة. لذا، ضع ذلك في الاعتبار إذا كنت تفكر في حظر GTBot للابتعاد عن مجموعة بيانات التدريب الخاصة بـ OpenAI، لأن هذا ليس بالضرورة ما سيحدث.

هناك اعتبار آخر وهو أن هناك مجموعة بيانات عامة بواسطة CommonCrawl، والتي تزحف بالفعل إلى الإنترنت، لذلك لا يوجد سبب لـ OpenAI لتكرار هذا العمل.

المزيد عن كيفية حظر CommonCrawl في هذه المقالة.

سلسلة وكيل المستخدم الكاملة لـ GTBot هي:

رمز وكيل المستخدم: GPTBot سلسلة وكيل المستخدم الكاملة: Mozilla/5.0 AppleWebKit/537.36 (KHTML، مثل Gecko؛ متوافق؛ GPTBot/1.0؛ +https://openai.com/gptbot)

يمكن حظره (غير مسموح به) عبر ملف robots.txt بالسطر التالي:

وكيل المستخدم: عدم السماح لـ GTBot: /

يلتزم GTBot أيضًا بالتوجيهات التالية التي تتحكم في أجزاء موقع الويب المسموح بالزحف إليها والأجزاء المحظورة.

وكيل المستخدم: GTBot السماح: /directory-1/ عدم السماح: /directory-2/

OpenAI أيضًا ينشر نطاق IP والتي يمكن استخدامها لتحديد برنامج GTTBot الرسمي (على عكس الزاحف الذي ينتحل وكيل المستخدم).

من الممكن حظر نطاق IP هذا من خلال ‎.htaccess ولكن نطاق IP يمكن أن يتغير، مما يعني أنه يجب تحديث ملف ‎.htaccess.

لا يمكن المبالغة في هذه النقطة، يمكن أن يتغير نطاق IP، لذا تحقق دائمًا لمعرفة نطاقات IP الأحدث.

لذلك، من الأفضل استخدام النطاق لتأكيد وكيل المستخدم وحظر GTBot باستخدام ملف robots.txt.

هذه هي نطاقات IP الخاصة بـ GTBot الحالية اعتبارًا من 08-09-2023:

20.15.240.64/28 20.15.240.80/28 20.15.240.96/28 20.15.240.176/28 20.15.241.0/28 20.15.242.128/28 20.15.242.144/28 20.15.2 42.192/28 40.83.2.64/28

كيف يتعلم الذكاء الاصطناعي من المحتوى الخاص بك

يتم تدريب نماذج اللغات الكبيرة (LLMs) على البيانات التي تنشأ من مصادر متعددة. العديد من مجموعات البيانات هذه مفتوحة المصدر وتُستخدم مجانًا لتدريب الذكاء الاصطناعي.

بشكل عام، تستخدم نماذج اللغات الكبيرة مجموعة واسعة من المصادر للتدريب منها.

أمثلة على أنواع المصادر المستخدمة:

  • ويكيبيديا
  • سجلات المحكمة الحكومية
  • كتب
  • رسائل البريد الإلكتروني
  • مواقع الويب التي تم الزحف إليها

توجد في الواقع بوابات ومواقع إلكترونية تقدم مجموعات بيانات توفر كميات هائلة من المعلومات.

تتم استضافة إحدى البوابات بواسطة Amazon، تقدم الآلاف من مجموعات البيانات في سجل البيانات المفتوحة على AWS.

لقطة شاشة من Amazon، يناير 2023

ال Amazon البوابة التي تحتوي على آلاف مجموعات البيانات هي مجرد بوابة واحدة من بين العديد من البوابة الأخرى التي تحتوي على المزيد من مجموعات البيانات.

تسرد ويكيبيديا 28 بوابة لتنزيل مجموعات البيانات، بما في ذلك Google Dataset وبوابات Hugging Face للعثور على آلاف مجموعات البيانات.

مجموعات البيانات المستخدمة لتدريب ChatGPT

يعتمد ChatGPT على GPT-3.5، المعروف أيضًا باسم InstructGPT.

مجموعات البيانات المستخدمة لتدريب GPT-3.5 هي نفسها المستخدمة في GPT-3. والفرق الرئيسي بين الاثنين هو أن GPT-3.5 استخدم تقنية تُعرف باسم التعلم المعزز من ردود الفعل البشرية (RLHF).

تم وصف مجموعات البيانات الخمس المستخدمة لتدريب GPT-3 (وGPT-3.5) في الصفحة 9 من الورقة البحثية، نماذج اللغة هي عدد قليل من المتعلمين (بي دي إف)

مجموعات البيانات هي:

  1. الزحف المشترك (تمت تصفيته)
  2. نص الويب2
  3. الكتب1
  4. الكتب2
  5. ويكيبيديا

من بين مجموعات البيانات الخمس، المجموعتان اللتان تعتمدان على الزحف إلى الإنترنت هما:

حول مجموعة بيانات WebText2

WebText2 عبارة عن مجموعة بيانات OpenAI خاصة تم إنشاؤها عن طريق الزحف إلى الروابط من Reddit والتي حصلت على ثلاثة تصويتات مؤيدة.

الفكرة هي أن عناوين URL هذه جديرة بالثقة وستحتوي على محتوى عالي الجودة.

WebText2 هو نسخة موسعة من مجموعة بيانات WebText الأصلية التي طورتها OpenAI.

تحتوي مجموعة بيانات WebText الأصلية على حوالي 15 مليار رمز مميز. تم استخدام WebText لتدريب GPT-2.

WebText2 أكبر قليلاً حيث يبلغ 19 مليار رمز. WebText2 هو ما تم استخدامه لتدريب GPT-3 وGPT-3.5

OpenWebText2

WebText2 (الذي أنشأته OpenAI) غير متاح للعامة.

ومع ذلك، هناك إصدار مفتوح المصدر متاح للجمهور يسمى OpenWebText2. OpenWebText2 هي مجموعة بيانات عامة تم إنشاؤها باستخدام نفس أنماط الزحف التي من المفترض أن تقدم مجموعة بيانات مماثلة، إن لم تكن نفسها، لعناوين URL مثل OpenAI WebText2.

أذكر هذا فقط في حالة رغبة شخص ما في معرفة ما هو موجود في WebText2. يمكن للمرء تنزيل OpenWebText2 للحصول على فكرة عن عناوين URL الموجودة فيه.

نسخة نظيفة من يمكن تنزيل OpenWebText2 هنا. ال النسخة الأولية من OpenWebText2 متاحة هنا.

لم أتمكن من العثور على معلومات حول وكيل المستخدم المستخدم لأي من الزاحف، ربما تم تعريفه على أنه Python، لست متأكدًا.

لذا، على حد علمي، لا يوجد وكيل مستخدم لحظره، على الرغم من أنني لست متأكدًا بنسبة 100٪.

ومع ذلك، نحن نعلم أنه إذا تم ربط موقعك من Reddit بثلاثة تصويتات مؤيدة على الأقل، فهناك فرصة جيدة لأن يكون موقعك موجودًا في كل من مجموعة بيانات OpenAI WebText2 مغلقة المصدر والإصدار المفتوح المصدر منها، OpenWebText2.

مزيد من المعلومات حول OpenWebText2 موجود هنا.

الزحف المشترك

إحدى مجموعات البيانات الأكثر استخدامًا والتي تتكون من محتوى الإنترنت هي مجموعة بيانات Common Crawl التي أنشأتها منظمة غير ربحية تسمى الزحف المشترك.

تأتي بيانات الزحف الشائعة من برنامج الروبوت الذي يزحف إلى الإنترنت بالكامل.

يتم تنزيل البيانات من قبل المنظمات الراغبة في استخدام البيانات ومن ثم تنظيفها من المواقع غير المرغوب فيها، وما إلى ذلك.

اسم روبوت الزحف المشترك هو CCBot.

يتبع CCBot بروتوكول robots.txt لذا من الممكن حظر الزحف المشترك باستخدام Robots.txt ومنع بيانات موقع الويب الخاص بك من تحويلها إلى مجموعة بيانات أخرى.

ومع ذلك، إذا تم الزحف إلى موقعك بالفعل، فمن المحتمل أنه تم تضمينه بالفعل في مجموعات بيانات متعددة.

ومع ذلك، من خلال حظر Common Crawl، من الممكن إلغاء الاشتراك في تضمين محتوى موقع الويب الخاص بك في مجموعات بيانات Common Crawl.

هذا ما قصدته في بداية المقال عندما كتبت أن العملية “ليست مباشرة ولا مضمونة النجاح”.

سلسلة وكيل مستخدم CCBot هي:

سي سي بوت/2.0

أضف ما يلي إلى ملف robots.txt الخاص بك لحظر روبوت الزحف الشائع:

وكيل المستخدم: عدم السماح CCBot: /

هناك طريقة إضافية للتأكد من شرعية وكيل مستخدم CCBot وهي الزحف منه Amazon عناوين IP الخاصة بـ AWS.

يطيع CCBot أيضًا توجيهات العلامة الوصفية للروبوتات nofollow.

استخدم هذا في العلامة الوصفية لبرامج الروبوت الخاصة بك:

الاعتبار قبل حظر أي روبوتات

يمكن للشركات التي تقوم بتصفية عناوين URL وتصنيفها إنشاء قوائم بمواقع الويب لاستهدافها بالإعلانات، العديد من مجموعات البيانات، بما في ذلك Common Crawl.

على سبيل المثال، شركة اسمها تقدم Alpha Quantum مجموعة بيانات من عناوين URL المصنفة باستخدام تصنيف مكتب الإعلان التفاعلي. تعتبر مجموعة البيانات مفيدة لتسويق AdTech والإعلان السياقي. قد يؤدي الاستبعاد من قاعدة بيانات كهذه إلى خسارة الناشر للمعلنين المحتملين.

منع الذكاء الاصطناعي من استخدام المحتوى الخاص بك

تسمح محركات البحث لمواقع الويب بإلغاء الاشتراك في الزحف إليها. يسمح الزحف المشترك أيضًا بإلغاء الاشتراك. ولكن لا توجد حاليًا طريقة لإزالة محتوى موقع الويب الخاص بشخص ما من مجموعات البيانات الموجودة.

علاوة على ذلك، لا يبدو أن علماء الأبحاث يقدمون لناشري مواقع الويب طريقة لإلغاء الاشتراك في الزحف.

المقالة، هل استخدام ChatGPT لمحتوى الويب عادل؟ يستكشف موضوع ما إذا كان من الأخلاقي استخدام بيانات موقع الويب دون إذن أو طريقة لإلغاء الاشتراك.

قد يقدّر العديد من الناشرين ذلك إذا تم منحهم رأيًا أكبر في المستقبل القريب حول كيفية استخدام المحتوى الخاص بهم، خاصة من خلال منتجات الذكاء الاصطناعي مثل ChatGPT.

ما إذا كان ذلك سيحدث غير معروف في هذا الوقت.

المزيد من الموارد: