الأخبار التكنولوجية والاستعراضات والنصائح!

إنتل تشعر فجأة بقلق بالغ إزاء "القياس الحقيقي للعالم الحقيقي"

إنتل تشعر فجأة بقلق بالغ إزاء "القياس الحقيقي للعالم الحقيقي" 1

منذ Computex على الأقل ، أثارت Intel مخاوفها من المراجعين حول أنواع الاختبارات التي نجريها ، والتي يميل مراجعو التطبيقات إلى استخدامها ، وما إذا كانت تلك الاختبارات تجسد أداء "العالم الحقيقي". على وجه التحديد ، تشعر إنتل أنه يتم التركيز بشكل كبير على اختبارات مثل Cinebench ، بينما يتم تجاهل التطبيقات التي يستخدمها الأشخاص فعليًا.

دعنا نتخلص من بعض الأشياء في المقدمة.

كل شركة لديها علامات مرجعية تفضلها ومقاييس تكرهها. حقيقة أن بعض الاختبارات تعمل بشكل أفضل على AMD مقابل Intel ، أو على Nvidia مقابل AMD ، هي ليس، في حد ذاته ، دليل على أن المؤشر قد تم تصميمه عن عمد لصالح شركة أو أخرى. تميل الشركات إلى إثارة مخاوف بشأن المعايير التي يستخدمها المراجعون عندما يواجهون ضغوطًا تنافسية متزايدة في السوق. أولئك الذين يعتقدون أن Intel تثير أسئلة حول الاختبارات التي نراجعها بشكل جماعي ، جزئياً لأنها خاسرة في الكثير من تلك الاختبارات ليست خاطئة. لكن لمجرد أن الشركة لديها أسباب ذات مصلحة ذاتية لطرح الأسئلة لا يعني تلقائيًا أن الشركة مخطئة أيضًا. ونظرًا لأنني لا أقضي عشرات الساعات وأحيانًا طوال الليل في اختبار الأجهزة لإعطاء الناس فكرة خاطئة عن كيفية أدائها ، فأنا دائمًا على استعداد لإعادة النظر في استنتاجاتي الخاصة.

فيما يلي أفكاري الخاصة في هذا الموقف. لا أدعي التحدث عن أي مراجع آخر بخلاف نفسي.

إنتل تشعر فجأة بقلق بالغ إزاء "القياس الحقيقي للعالم الحقيقي" 2يتساءل المرء عما يعتقده ماكسون في هذا الأمر ، بالنظر إلى أنه كان شريكًا رئيسيًا لشركة Intel في SIGGRAPH.

ماذا يعني "العالم الحقيقي" فعليًا؟

يعتبر تفضيل معايير الأجهزة في العالم الحقيقي أحد أقل الآراء إثارة للجدل التي يمكن للمرء أن يحملها في مجال الحوسبة. لقد قابلت أشخاصًا لا يهتمون بالضرورة بالفرق بين الاختبارات الواقعية والتجارب في العالم الحقيقي ، لكنني لا أتذكر يومًا مقابلة شخص يعتقد أن الاختبارات في العالم الحقيقي غير مهمة. حقيقة أن الجميع يتفقون تقريباً على هذه النقطة لا تعني أن الجميع يوافقون على المكان الذي توجد فيه الخطوط الفاصلة بين العالم الحقيقي والمعايير الاصطناعية. خذ بعين الاعتبار السيناريوهات التالية:

    يقوم المطور بإنشاء معيار حسابي يختبر أداء وحدة معالجة الرسومات على كل من أجهزة AMD و Nvidia. إنه يقيس الأداء الذي يجب أن تقدمه كل من عائلات GPU في CUDA و OpenCL. توضح المقارنات أن نتائجها تحدد بشكل جيد للتطبيقات في هذا المجال. تقوم شركة تقديم ثلاثي الأبعاد بإنشاء إصدار مستقل من تطبيقها لمقارنة الأداء عبر وحدات المعالجة المركزية و / أو وحدات معالجة الرسومات. يجسد الاختبار المستقل بدقة الأداء الأساسي لمجموعة العرض ثلاثية الأبعاد (باهظة الثمن) في اختبار بسيط وسهل الاستخدام. تخلق شركة التقديم ثلاثي الأبعاد عددًا من مشاهد الاختبار لقياس مجموعة التطبيقات الكاملة. يركز كل مشهد على إبراز تقنية أو تقنية محددة. تم تصميمها بشكل جماعي لإظهار تأثير أداء العديد من الميزات بدلاً من تقديم تجسيد شامل واحد. تتضمن لعبة اختبار اختبار مضمن. بدلاً من نسخ مشهد دقيق من اللعبة ، يقوم المطورون ببناء عرض تجريبي يختبر كل جانب من جوانب أداء المحرك على مدار عدة دقائق. يمكن استخدام الاختبار لقياس أداء الميزات الجديدة في API مثل DX11.A تتضمن لعبة اختبار مدمج. يعتمد هذا الاختبار على خريطة واحدة أو حدث واحد داخل اللعبة. إنه يقيس الأداء بدقة في تلك الخريطة أو السيناريو المحدد ، ولكنه لا يتضمن أي بيانات على خرائط أو سيناريوهات أخرى.

سيكون لديك رأي خاص بك حول أي من هذه السيناريوهات (إن وجدت) تشكل معيارًا في العالم الحقيقي وأيها لا. اسمحوا لي أن أطرح عليك سؤالًا مختلفًا – سؤال أعتقد حقًا أنه أهم من اختبار ما إذا كان "العالم الحقيقي" أم لا. أي من هذه المعايير الافتراضية يخبرك بشيء مفيد حول أداء المنتج الذي يتم اختباره؟

الجواب هو: "يحتمل ، كلهم". أي معيار أختاره هو دالة للسؤال الذي أطرحه. لا يزال الاختبار الاصطناعي أو المستقل الذي يعمل كنموذج جيد لتطبيق مختلف يصمم بدقة الأداء في هذا التطبيق. قد يكون نموذجًا أفضل بكثير للأداء في العالم الحقيقي من الاختبارات التي تم إجراؤها في أحد التطبيقات التي تم تحسينها بشكل كبير لبنية محددة. على الرغم من أن جميع الاختبارات في التطبيق المُحسّن "واقعية" – فهي تعكس أعباء العمل والمهام الحقيقية – قد يكون التطبيق بحد ذاته غير ممثِّل.

جميع السيناريوهات التي أشرت إليها أعلاه لها القدرة على أن تكون معايير جيدة ، وهذا يتوقف على مدى تعميمها على التطبيقات الأخرى. التعميم هو مهم في المراجعة. في تجربتي ، يحاول المراجعون عمومًا الموازنة بين التطبيقات المعروفة لصالح إحدى الشركات بتطبيقات تعمل جيدًا على أجهزة الجميع. في كثير من الأحيان ، إذا تم تمكين ميزة خاصة بالمورد في مجموعة واحدة من البيانات ، فسوف تتضمن المراجعات مجموعة ثانية من البيانات مع نفس المميز المميز ، من أجل توفير مقارنة أكثر حيادية. قد يؤدي تشغيل الإشارات الخاصة بالمورد في بعض الأحيان إلى الإضرار بقدرة الاختبار على التحدث إلى جمهور أوسع.

تقترح Intel طريقة بديلة

حتى الآن ، تحدثنا بدقة حول ما إذا كان الاختبار هو عالم حقيقي في ضوء ما إذا كانت النتائج تتعمم على تطبيقات أخرى. هناك ، مع ذلك ، طريقة أخرى لتأطير الموضوع. استطلعت Intel المستخدمين لمعرفة التطبيقات التي استخدموها بالفعل ، ثم قدمت لنا تلك البيانات. تبدو هكذا:

إنتل تشعر فجأة بقلق بالغ إزاء "القياس الحقيقي للعالم الحقيقي" 3

يتمثل المعنى الضمني هنا في أنه من خلال اختبار التطبيقات الأكثر شيوعًا المثبتة على أجهزة الأشخاص ، يمكننا التقاط حالة استخدام أفضل وأكثر تمثيلا. هذه يشعر صحيح حدسي – ولكن الواقع هو أكثر تعقيدا.

فقط لأن التطبيق يستخدم بشكل متكرر لا يجعله معيارًا جيدًا بشكل موضوعي. بعض التطبيقات ليست صعبة بشكل خاص. على الرغم من وجود سيناريوهات مطلقة يمكن أن يكون قياس أداء Chrome فيها مهمًا ، مثل مساحة دفتر الملاحظات المنخفضة ، والاستعراضات الجيدة لهذه المنتجات سابقا تشمل هذه الأنواع من الاختبارات. في السياق المتحمس للغاية ، من غير المرجح أن يكون Chrome تطبيقًا للضرائب. هل هناك سيناريوهات اختبار يمكن أن تجعله فرض ضرائب؟ نعم فعلا. لكن هذه السيناريوهات لا تعكس الطريقة الأكثر استخدامًا للتطبيق.

تجربة العالم الحقيقي لاستخدام Chrome على Ryzen 7 3800XSEEAMAZON_ET_135 راجع Amazon التجارة ET مماثلة لاستخدامه على كور i9-9900K.SEEAMAZON_ET_135 راجع Amazon التجارة ET حتى لو لم يكن الأمر كذلك ، فإن Google تجعل من الصعب الاحتفاظ بإصدار سابق من Chrome متاحًا لاختبار A / B المستمر. يقوم العديد من الأشخاص بتشغيل الإضافات والحواجز ، والتي لها تأثيرها الخاص على الأداء. هل هذا يعني أن المراجعين يجب ألا يختبروا Chrome؟ بالطبع لا. هذا هو السبب في العديد من المراجعات الكمبيوتر المحمول على الاطلاق فعل اختبار Chrome ، لا سيما في سياق عمر البطارية المستند إلى المستعرض ، حيث يُعرف Chrome و Firefox و Edge بإنتاج نتائج مختلفة. تناسب المعيار لهذا الوضع.

كان هناك وقت قضيت فيه الكثير من الوقت في اختبار العديد من التطبيقات في هذه القائمة أكثر مما نفعل الآن. عندما بدأت حياتي المهنية ، ركزت معظم الأجنحة القياسية على التطبيقات المكتبية واختبارات الرسومات ثنائية الأبعاد الأساسية. أتذكر عندما يمكن أن يؤدي تبديل وحدة معالجة الرسومات الخاصة بشخص ما إلى تحسين جودة الصورة ثنائية الأبعاد و Windowsاستجابة واجهة المستخدم ، حتى بدون ترقية شاشتها. عندما كتبت في Ars Technica ، كتبت مقارنات بين استخدام وحدة المعالجة المركزية أثناء فك تشفير محتوى HD ، لأنه في ذلك الوقت ، كانت هناك اختلافات ذات مغزى يمكن العثور عليها. إذا كنت تفكر في وقت ظهور Atom netbooks لأول مرة ، فقد ركزت العديد من المراجعات على مشكلات مثل استجابة واجهة المستخدم مع حل وحدة معالجة الرسومات Nvidia Ion ومقارنتها بالرسومات المتكاملة من Intel. لماذا ا؟ لأن Ion أحدث فرقًا ملحوظًا في أداء واجهة المستخدم بشكل عام. لا يتجاهل المراجعون هذه المشكلات. تميل المنشورات إلى العودة إليها عند وجود تمايز ذي معنى.

لا أختار معايير المراجعة فقط لأن التطبيق شائع ، على الرغم من شعبيته قد الرقم في القرار النهائي. الهدف ، في المراجعة العامة ، هو اختيار الاختبارات التي ستعمم بشكل جيد على التطبيقات الأخرى. حقيقة أن الشخص لديه Steam أو Battle.net مثبتة لا تخبرني شيئًا. هل يلعب هذا الشخص لعبة Overwatch أو WoW Classic؟ هل يلعبون لعبة Minecraft أو No No’s’s Sky؟ هل اختاروا ألعاب MMORPG أو FPS ، أم أنها توقفت للتو في Goat Simulator 2017؟ هل يلعبون بالفعل أي ألعاب على الإطلاق؟ لا أستطيع أن أعرف دون المزيد من البيانات.

عادة ما يتم اختبار التطبيقات الموجودة في هذه القائمة والتي تظهر اختلافات في الأداء ذات مغزى في المهام الشائعة بالفعل. تقوم المنشورات مثل Puget Systems بنشر مقارنات الأداء بانتظام في مجموعة Adobe. في بعض الحالات ، يكون سبب عدم اختبار التطبيقات في كثير من الأحيان هو وجود مخاوف قديمة بشأن موثوقية ودقة مجموعة المعايير التي تتضمنها بشكل شائع.

أنا مهتم دائمًا بطرق أفضل لقياس أداء الكمبيوتر. لدى Intel دورًا على الإطلاق في هذه العملية – كانت الشركة مفيدة في العديد من المناسبات عندما يتعلق الأمر بإيجاد طرق لتسليط الضوء على ميزات جديدة أو استكشاف المشكلات وإصلاحها. ولكن الطريقة الوحيدة لإيجاد اختلافات ذات معنى في الأجهزة هي العثور على اختلافات ذات معنى في الاختبارات. مرة أخرى ، عمومًا ، سترى المراجعين يفحصون أجهزة الكمبيوتر المحمولة بحثًا عن الثغرات الموجودة في عمر البطارية واستهلاك الطاقة بالإضافة إلى الأداء. في وحدات معالجة الرسومات ، نبحث عن الاختلافات في وقت الإطار والإطار الزمني. نظرًا لعدم تمكن أي منا من تشغيل كل عبء عمل ، فإننا نبحث عن التطبيقات التي لها نتائج قابلة للتعميم. في ET ، أقوم بتشغيل تطبيقات عرض متعددة خصيصًا لضمان عدم تفضيلنا لأي بائع أو حل واحد. لهذا السبب أختبر سينبينش ، بليندر ، ماكسويل ريندر ، و الاكليل عندما يتعلق الأمر بترميز الوسائط ، فإن Handbrake هي الحل الفعلي للجميع – لكننا نتحقق من H.264 و H.265 لضمان التقاط سيناريوهات اختبار متعددة. عندما تثبت الاختبارات أنها غير دقيقة أو غير كافية لالتقاط البيانات التي أحتاجها ، فإنني أستخدم اختبارات مختلفة.

الانقسام الخاطئ

الاختلاف الذي يدور حول الجدال بين المعايير "الاصطناعية" و "العالم الحقيقي" هو إطار ضعيف للقضية. ما يهم ، في النهاية ، هو ما إذا كانت البيانات المرجعية التي قدمها المراجع بشكل جماعي تقدم عرضًا دقيقًا للأداء المتوقع للجهاز. كما تفاصيل Rob Williams في Techgage ، كانت إنتل سعيدة للغاية لاستخدام Maxon's Cinebench كمعيار في بعض الأحيان عندما كانت مراكز CPU الخاصة بها تسيطر على الأداء. في مقال نشر حديثًا على موقع Medium ، كتب Ryan Shrout من Intel:

لقد عقدنا اليوم في IFA حدثًا لحضور أعضاء من مجتمع الإعلام والمحللين حول موضوع قريب جدًا وعزيز جدًا من قلوبنا – أداء العالم الحقيقي. لقد عقدنا هذه الأحداث لبضعة أشهر نبدأ الآن في Computex ثم في E3 ، وتعلمنا الكثير على طول الطريق. عززت هذه العملية رأينا في المعايير الصناعية: فهي توفر قيمة إذا كنت تريد منظورًا سريعًا وضيقًا للأداء. لا نزال نستخدمها داخليًا ونعرف أن الكثير منكم يفعلون ذلك أيضًا ، ولكن الواقع هو أنهم غير دقيقين بشكل متزايد في تقييم الأداء في العالم الحقيقي للمستخدم ، بغض النظر عن شريحة المنتج المعني.

يبدو اللعينة. يتابع الأمر بهذه الشريحة:

إنتل تشعر فجأة بقلق بالغ إزاء "القياس الحقيقي للعالم الحقيقي" 4

لإظهار الدونية المفترضة للاختبارات التركيبية ، تعرض Intel 14 نتائج منفصلة ، 10 منها مأخوذة من 3DMark و PCMark. كلا هذين التطبيقين يعتبران بشكل عام تطبيقات صناعية. عندما تقدم الشركة بيانات عن أدائها مقابل ARM ، فإنها تسحب نفس الخدعة مرة أخرى:

إنتل تشعر فجأة بقلق بالغ إزاء "القياس الحقيقي للعالم الحقيقي" 5

لماذا تشير Intel مرة أخرى إلى التطبيقات الاصطناعية في نفس منشور المدونة الذي تصفه بالتحديد بأنه خيار سيئ مقارنةً باختبارات "العالم الحقيقي" التي يُفترض أنها متفوقة؟ ربما يرجع السبب في ذلك إلى أن Intel تقوم باختيار خياراتها المرجعية تمامًا كما نفعل مع المراجعين – مع مراعاة النتائج التمثيلية والقابلة للتكرار ، باستخدام اختبارات بأسعار معقولة ، مع مجموعات ميزات جيدة لا تتعطل أو تفشل لأسباب غير معروفة بعد التثبيت. ربما تواجه Intel أيضًا مشكلة في مواكبة التدفق الهائل للبرنامج الذي يتم إصداره بشكل مستمر وتختار الاختبارات لتمثيل منتجاتها التي يمكن أن تعتمد عليها. ربما تريد الاستمرار في تطوير معاييرها الصناعية الخاصة مثل WebXPRT دون إلقاء هذا الجهد بأكمله تحت حافلة ، على الرغم من أنها تحاول في الوقت نفسه الإشارة إلى أن المعايير التي اعتمدت عليها AMD غير دقيقة.

وربما يكون ذلك لأن الإطار الكامل للهيكل الاصطناعي مقابل العالم الحقيقي سيء في البداية.

اقرأ الآن: