الأخبار التكنولوجية والاستعراضات والنصائح!

دليل المبتدئين ل Twitter واجهة برمجة تطبيقات البحث المتميزة – نحو الذكاء الاصطناعي

ستساعدك المقالة التالية: دليل المبتدئين ل Twitter واجهة برمجة تطبيقات البحث المتميزة – نحو الذكاء الاصطناعي

برمجة

كيفية استخدام Python و Twitter API لإنشاء بنفسك Twitter مجموعة البيانات

تعد الشبكات الاجتماعية دائمًا جزءًا من حياتنا في الوقت الحاضر. يمكن تفسير شعبيتها من خلال سهولة الوصول والراحة ، والتي تسمح للمستخدمين بتقديم كميات هائلة من المعلومات مع قيود محدودة أو بدون قيود على المحتوى. يتم توفير هذه الكتلة المستمرة والغنية من البيانات من خلال هذه المنصات بغرض دراسة المشاعر حول العلامات التجارية والمنتجات والأحداث والأخبار الحديثة والقضايا الاجتماعية والسياسية.

في فترة كوفيد -19 ، كان هناك نمو كبير على هذه المنصات. في Twitter، كان هناك استخدام متزايد لمنصة المعلومات الخاطئة المتعلقة بالوباء. لهذا السبب ، سأجمع التغريدات من الأيام السبعة الماضية التي تذكر فيروس كورونا وجوزيبي كونتي ، أي رئيس الوزراء في إيطاليا. هدفي هو شرح كيفية استخراج البيانات باستخدام Twitter API.

Twitter API

Twitter يوفر API الوصول إلى مجموعة متنوعة من الموارد المختلفة: التغريدات ، المستخدمون ، الرسائل المباشرة ، القوائم ، الاتجاهات ، الوسائط ، الأماكن. في هذه الحالة ، نحن نركز فقط على التغريدات. تتكون واجهة برمجة التطبيقات هذه حاليًا من إصدارين مدعومين ، v1.1 و v2 ، ولا يزالان قيد التطوير [1]. لذلك نحن نركز على الإصدار v1.1. علاوة على ذلك ، يقدم الإصدار v1.1 مستويات مختلفة: Standard و Premium و Enterprise. ال معيار الإصدار هو حل مجاني ، لكنه محدود. يعرض فقط التغريدات المنشورة في آخر 7 أيام ويبلغ حد المعدل 450 طلبًا لكل نافذة زمنية. بعد ذلك ، نحن مهتمون بالإصدار المميز ، الذي يقدم ملف قسط مدفوع الوصول الذي يوفر وصولاً متزايدًا و ساندبوكس مجاني الوصول مع مجموعة أقل من الحدود والإمكانيات من الوصول المتميز. على وجه الخصوص ، هناك نوعان من SandBox:

  • 30 يوم يوفر تغريدات من الثلاثين يومًا الماضية.
  • أرشيف كامل يوفر وصولاً كاملاً وفوريًا إلى التغريدات التي يرجع تاريخها إلى أول تغريدة في مارس 2006.

يوجد أدناه الجدول الذي يلخص الاختلافات بين طبقات SandBox و Premium.

في هذه المقالة ، سأستخدم SandBox للأرشيف الكامل لأنه مجاني ويسمح بتنزيل البيانات الأقدم من شهر واحد.

الخطوة 1: التقدم بطلب للحصول على حساب مطور

قبل تنزيل التغريدات ، يجب عليك أولاً التقدم بطلب للحصول على حساب مطور ، يجب الموافقة عليه. عند التقديم ، ستحتاج إلى تقديم معلومات حول الغرض من استخدامك Twitter واجهات برمجة التطبيقات في شكل معين. بعد الانتهاء من تجميع النموذج ، ستتلقى رسائل بريد إلكتروني تحتوي على أسئلة إضافية من Twitter’بخار. أحذرك من أن إنشاء حساب Developer سوف يستغرق بعض الوقت ، في المتوسط ​​بين أسبوع واحد وأسبوعين.

الخطوة 2: قم بإنشاء ملف Twitter المشروع والتطبيق

بمجرد الموافقة ، يمكنك إنشاء ملف مشروع وتوصيل مطور مرتبط برنامج، والتي ستوفر مجموعة من بيانات الاعتماد التي ستستخدمها لمصادقة جميع الطلبات إلى واجهة برمجة التطبيقات. لبدء استخدام API الخاص بك ، تحتاج إلى إعداد بيئة التطوير لنقطة النهاية. ما هي نقطة النهاية؟ ال نقطة النهاية يكون الحصول على اتصال مصدق عليه باستخدام ملف رمز لحاملها. بمجرد إنشاء الاتصال ، يتم تسليم التغريدات بتنسيق JSON من خلال اتصال دفق HTTP مستمر. في هذا البرنامج التعليمي ، اخترت الأرشيف الكامل

بمجرد الانتهاء من إعداد البيئة ، تحتاج فقط إلى حفظ التطبيق الخاص بك رمز الحامل، سيتم استخدامه لاحقًا لتنزيل التغريدات.

الخطوة 3: قم بإنشاء الملف twitter_keys.yaml

لكتابة وتشغيل كود Python ، أقترح استخدام جوجل كولاب، أداة أصدرتها Google. يوفر حر بيئة دفاتر Jupiter مع حزم مثبتة مسبقًا مثل الباندا و numpy و keras والمضيفين بالكامل على Google Cloud. علاوة على ذلك ، يقوم بحفظ دفاتر الملاحظات تلقائيًا على محرك Google الخاص بالمستخدم ، مما يتيح مشاركة الملفات بسهولة مع أشخاص آخرين. علاوة على ذلك ، إذا كانت تقدم GPU و TPU مجانًا!

قبل كتابة كود Python ، نحتاج إلى إنشاء ملف يسمى twitter_keys.yaml. من المفيد الاحتفاظ بجميع بيانات الاعتماد في ملف منفصل ، بدلاً من وضعها في الكود. قم بلصق وتحرير الأسطر التالية:

هناك القليل من الأشياء التي يجب تذكرها:

  1. عند تجاوز هذه الأسطر ، تحقق مما إذا كان هناك مسافات بادئة بعد الصف الأول ، وإلا فلن يعمل الكود!
  2. يمكن أن يكون نوع الحساب مميزًا أو مؤسسيًا. في هذه الحالة ، أركز على إعداد Premium.
  3. في الملف ، ما عليك سوى استبدال ملف اسم بيئة التطوير مع env_name في الارتباط https://api.twitter.com/1.1/tweets/search/fullarchive/env_name.json. للعثور على اسم بيئة التطوير ، يجب أن تعيد تحديد إعدادك مجددًا.
  4. حدد الخاص بك رمز لحاملها.

لا نحتاج إلى تحديد مفتاح المستهلك وسر المستهلك ، فبيانات الاعتماد المدرجة حتى الآن كافية لتنزيل التغريدات.

الخطوة 4: اكتب كود بايثون

لنقم بتثبيت المكتبة التي سنستخدمها في هذا البرنامج التعليمي.

searchtweets هي مكتبة Python ، وهي بمثابة غلاف لـ Twitter واجهات برمجة تطبيقات البحث المتميزة والمؤسسات [2].

بعد أن نتمكن من استيراد المكتبات:

بمجرد استيراد المكتبات ، نقوم بتحميل بيانات اعتماد الملف:

gen_rule_payload هي وظيفة تعمل على تنسيق قواعد واجهة برمجة التطبيقات للبحث في استعلامات json صالحة. لذلك ، فإنه ينشئ القواعد التي تطابق التغريدات بعلامات التصنيف # covid19 و #giuseppeconte وتحديد اللغة الإيطالية. لديها إعدادات افتراضية حساسة ، مثل جذب المزيد من التغريدات لكل مكالمة من العدد الافتراضي 100.

الآن نقوم بإنشاء ملف النتيجة الكائن ، الذي يأخذ القواعد ومعلمات التكوين الأخرى كمدخلات ، بما في ذلك التوقف الثابت عن عدد الصفحات للحد من استخدام استدعاء واجهة برمجة التطبيقات.

الوظيفة تدفق يعالج الطلبات وتقسيم الصفحات لاستعلام معين. تقوم بإرجاع المولد. للحصول على 500 تغريدة لدينا تشير إلى الكلمات المحددة في القواعد ، يمكننا القيام بذلك:

يوجد أدناه الحقول التي يمكن الوصول إليها من خلال وحدة Tweet Parser Tweet.

أخيرًا ، نقوم بمعالجة البيانات مسبقًا وننشئ DataFrame.

في النهاية ، نحفظ DataFrame في ملف CSV.

تهانينا! لقد استخرجت التغريدات من Twitter. إنشاء حساب Developer هو الخطوة التي تستغرق وقتًا أطول من الآخرين ، ولكن بعد القيام بذلك ، كل شيء شاق. آمل أن يكون هذا البرنامج التعليمي قد ساعدك. الكود بأكمله موجود على جيثب. أقترح عليك أيضًا تجربة SandBox الأخرى ، 30 يومًا ، إذا كنت تحتاج فقط إلى تنزيل تغريدات الشهر الماضي. للقيام بذلك ، تحتاج إلى تغيير حقل نقطة النهاية في الملف. في الرابط الثاني للمراجع ، يمكنك العثور على جميع المعلومات حول البحث في تغريدات مكتبة Python.

مراجع:

[1] https://developer.twitter.com/ar/docs

[2] https://github.com/twitterdev/search-tweets-python


دليل المبتدئين ل Twitter تم نشر Premium Search API في الأصل في Towards AI on Medium ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.

تم النشر عبر نحو الذكاء الاصطناعي