“أمر خاطئ غير مقصود”.. فيسبوك تكشف بالتفصيل سبب العطل الكبير

“أمر خاطئ غير مقصود”.. فيسبوك تكشف بالتفصيل سبب العطل الكبير

[ad_1]

06 أكتوبر 2021 – 29 صفر 1443
09:14 AM

بعد الرسالة أخرج مهندسي فيسبوك من نظام يسمح لهم بحل المشكلة

“أمر خاطئ غير مقصود”.. فيسبوك تكشف بالتفصيل سبب العطل الكبير

أعلن مدير البنية التحتية في فيسبوك، سانتوش جاناردهان، في بيان تفصيلي، السبب الذي أدى إلى انقطاع خدمات فيسبوك عن العالم، يوم الاثنين.

وحسب وكالة “فرانس برس”، قال البيان، الذي نُشر عبر مدونة تابعة للشركة، الثلاثاء: إن الانقطاع كان بسبب أمر خاطئ “غير مقصود” تم توجيهه للشبكة الرئيسية العالمية التي “تربط جميع مرافق الحوسبة لدينا معًا، والتي تتكون من عشرات الآلاف من الأميال من كابلات الألياف الضوئية التي تعبر الكرة الأرضية وتربط جميع مراكز البيانات لدينا”.

وأوضح أنه “تتم إدارة حركة البيانات بين جميع هذه المراكز بواسطة أجهزة توجيه، وخلال قيام المهندسين بعمل صيانة دورية، فإنهم يحتاجون إلى فصل بعض أجزاء الشبكة الرئيسية، ربما بهدف إصلاح بعض الكابلات الضوئية، أو تحسين كفاءتها، أو تحديث برامج جهاز التوجيه نفسه”.

وخلال إحدى مهام الصيانة الروتينية، “تم إصدار أمر بهدف اختبار كفاءة الشبكة الرئيسة لمراكز البيانات، والذي أدى عن غير قصد إلى قطع جميع الاتصالات في الشبكة، وفصل مراكز بيانات على مستوى العالم”.

وأوضح أنه رغم تصميم أنظمة الشبكة لمراجعة أوامر مثل هذه لمنع حدوث مثل هذه الأخطاء؛ “حدث خطأ في أداة التدقيق منعها من إيقاف الأمر بشكل صحيح”.

وبسبب هذا التغيير، حدث “انقطاع كامل لاتصالات بين مراكز البيانات لدينا والإنترنت؛ وهو ما تسبب في مشكلة ثانية جعلت الأمور أسوأ”.

والمشكلة الثانية تتعلق بما يسمى إدارة أوامر أسماء النطاقات التي تسمح لعناوين الويب بنقل المستخدمين إلى وجهاتهم، وقالت: إن مراكز البيانات بدأت في رفض الطلبات القادمة من هذه الخوادم مع تعطل الشبكة الرئيسية؛ مما جعل الخوادم الخاصة بالشركة غير قابلة للوصول على الرغم من أنها كانت لا تزال تعمل، “وهذا جعل من المستحيل على بقية الإنترنت العثور على خوادمنا”.

DNS

وقال البيان: إن “كل هذا حدث بسرعة كبيرة”؛ فيما عجز مهندسو الشركة عن الوصول إلى مراكز البيانات الخاصة بالشركة من خلال الوسائل العادية لأن شبكاتهم كانت معطلة.

وبسبب هذا العطل، تم إرسال المهندسين إلى مراكز البيانات لتصحيح المشكلة وإعادة تشغيل الأنظمة، وهو ما احتاج إلى الكثير من الوقت لأن هذه المراكز مصممة بدرجة أمان عالية؛ فهي لا تسمح بإجراء تعديلات حتى مع الدخول إليها؛ لذلك استغرق الأمر وقتًا إضافيًّا لتنشيط بروتوكولات الوصول الآمن اللازمة لتصحيح المشكلة.

وبعد انقطاع دام حوالى ست ساعات، أعلنت شركة فيسبوك الاثنين، عودة خدماتها إلى العمل، وأنها تبذل جهودًا للعودة بالكامل إلى العمليات المنتظمة؛ مشيرة إلى أن سبب المشكلة التي حدثت، الاثنين، هو تغييرات في إعدادات أجهزة التوجيه (الراوتر).

المشكلة بأبسط شرح ممكن

وحسب وكالة “فرانس برس”، يعتقد خبراء في مجال الأمن السيبراني، أن المشكلة تتلخص في شيء يطلق عليه “بي جي بي” أو بروتوكول التوجيه بين البوابات، وهو النظام الذي يستخدمه الإنترنت لاختيار أسرع طريق لنقل حزم المعلومات.

وقارن سامي سليم من شركة “تيليهاوس” لمراكز البيانات، “بي جي بي” بـ”مراقبة الحركة الجوية”.

وأوضح أنه بالطريقة نفسها التي يقوم بها مراقبو الحركة الجوية أحيانًا بإجراء تغييرات على جداول الرحلات؛ “قام فيسبوك بتحديث هذه المسارات”، بحسب ما نقلت عنه “فرانس برس”.

أمر كارثي

لكن هذا التحديث اشتمل على خطأ جوهري، لم يتضح بعدُ كيف حدث تحديدًا؟ ولماذا؟ لكن أجهزة التوجيه في فيسبوك أرسلت رسالة إلى الإنترنت تفيد بأن خوادم الشركة (الكمبيوترات العملاقة التي تحمل وتنقل بيانات فيسبوك) لم تعد موجودة.

وبينما يؤكد خبراء أن البنية التحتية الفنية لفيسبوك تعتمد بشكل غير عادي على أنظمتها الخاصة؛ فقد تبين أن ذلك “أمر كارثي”.

فبعدما أرسل فيسبوك تحديث أجهزة التوجيه، أخرج مهندسيه من النظام الذي يسمح لهم بالإبلاغ بأن التحديث كان في الواقع خطأ؛ ولذلك لم يتمكنوا من حل المشكلة.

وأوضحت الشركة أن مهندسيها كشفوا أن سبب العطل الذي واجه مستخدمي منصاتها حول العالم هو “تغييرات في إعدادات أجهزة الراوتر الأساسية التي تنسق حركة مرور الشبكة بين مراكز البيانات لدينا”؛ مضيفة: “كان لهذا الاضطراب في حركة مرور الشبكة تأثير متتال على طريقة تواصل مراكز البيانات لدينا؛ مما أدى إلى توقف خدماتنا”.



[ad_2]

Source link

Leave a Reply