البيانات الضخمة والتعلم الآلي د. إياد سليمان

5 يناير، 2021

0 2٬669 9 دقائق

البيانات الضخمة والتعلم الآلي

د. إياد سليمان

تعريفات
البيانات, المعلومات, المعرفة والحكمة
البيانات Data هي مجموعة من الحروف أو الكلمات أو الأرقام أو الرموز أو الصور (الخام غير المعالجة) المتعلقة بموضوع معين. مثال على ذلك: بيانات الموظفين (الأسماء – الأرقام الوظيفية – المهن – الصور) بدون ترتيب ، وينتج عن هذه البيانات بعد المعالجة ما يطلق عليه مصطلح معلومات, فالمعلومات Information هي البيانات التي عولجت لتصبح ذات معنى ومغزى مُعيّن لاستعمال مُحدّد، لأغراض اتخاذ القرارات، وبذلك يمكن تداولها، وتسجيلها، ونشرها، وتوزيعها، فى صورة رسميّة أو غير رسميّة وفي أي شكلٍ, أما المعرفة Knowledge هي قدرة الفرد على استيعاب وإدراك ما يدور حوله من حقائق، والوعي في الحصول على المعلومات واكتسابها من خلال القيام بالتجارب أو بالملاحظة والتأمل وكما يمكن التوصل للمعرفة والوعي بواسطة مراقبة ما قام به الآخرين والاطلاع عليه والتمعن في ما توصلوا إليه من استنتاجات.
أما ما يهمنا هي الحكمة Wisdom وهي التمييز ما بين المقبول وغير المقبول، مقترناً بحكم عادل وبصيرة، وتشمل الحكمة القدرة على التعلّم, وتعبّر الحكمة عن المعرفة التي يكتسبها الفرد بسبب التجارب والخبرات التي مرّ بها وتساهم وتعزّز عمليّة تحويل الخبرة إلى حكمة.

البيانات الضخمةBig Data
تمثل البيانات الضخمة مرحلة هامة من مراحل تطور نظم المعلومات والإتصالات، وهي تعبر في مفهومها المبسط عن كمية هائلة من البيانات المعقدة التي يفوق حجمها قدرة البرمجيات والآليات الحاسوبية التقليدية على تخزينها ومعالجتها وتوزيعها، الأمر الذي أدى إلى وضع حلول بديلة متطورة تمكن من التحكم في تدفقها والسيطرة عليها.

تمتلك تقنية البيانات الضخمة إمكانية تحليل بيانات مواقع الإنترنت وأجهزة الإستشعار وبيانات شبكات التواصل الإجتماعي، حيث أن تحليل هذه البيانات يسمح بوجود ارتباطات بين مجموعة من البيانات المستقلة لكشف جوانب عديدة، ومنها على سبيل المثال التنبؤ للإتجاهات التجارية للشركات ومُكافحة الجريمة فى المجال الأمني وغيرها. كما توفر هذه التنبؤات لصانعي القرار أدوات مبتكرة لفهم أفضل للظروف وبالتالي اتخاذ قرارات صحيحة تحقق الأهداف المطلوبة

تصنف البيانات (Data classification) الخام إلى ثلاثة أنواع. أولا، بيانات مُهيكلة (Structured Data) وهى البيانات المنظمة في جداول أو قواعد بيانات(Data Base). ثانيا، بيانات غير مهيكلة (Unstructured Data) وتٌمثل النسبة الأكبر من البيانات، وهى البيانات التي يتم الحصول عليها يومياً من كتابات نصية وصور وفيديو ورسائل ونقرات على مواقع الإنترنت. ثالثا، بيانات شبه مهيكلة(Semi-structured data) وتُعد نوعاً من البيانات المهيكلة إلا أن البيانات لا تكون في صورة جداول أو قواعد بيانات.

يمكننا الآن الحديث عن مفهوم البيانات الضخمة وهي عبارة عن مجموعة أو مجموعات من البيانات بمختلف تصانيفها لها خصائصهاالفريدة (مثل الحجم، السرعة، التنوع، التباين، صحة البيانات) والتي لا يمكن مُعالجتها بكفاءة باستخدام التكنولوجيا الحالية والتقليدية لتحقيق الإستفادة منها.

البيانات الضخمة لها ثلاث خصائص كما يلي:
الحجم ( Volume) – هو حجم البيانات المستخرجة من مصدر ما، وهو ما يحدد قيمة وإمكانيات البيانات لكي تُصنف من ضمن البيانات الضخمة، وبحلول العام 2020 سيحتوى الفضاء الإلكتروني على ما يقرب من 40.000 ميتابايت من البيانات الجاهزة للتحليل وإستخلاص المعلومات.

التنوع (Variety) – يُقصد به تنوع البيانات المستخرجة، والتي تُساعد المستخدمين سواء كانوا باحثين أو مُحللين على إختيار البيانات المناسبة لمجال بحثهم وتتضمن بيانات مُهيكلة(Structured Data) في قواعد بيانات وبيانات غير مهيكلة (Unstructured Data) مثل: الصور ومقاطع وتسجيلات الصوت وأشرطة الفيديو والرسائل القصيرة وسجلات المكالمات وبيانات الخرائط (GPS)، وتتطلب وقتاً وجهداً لتهيئتها في شكل مناسب للتجهيز والتحليل.

السرعة (Velocity) – يُقصد بها سرعة إنتاج وإستخراج البيانات إرسالها لتغطية الطلب عليها حيث تعتبر السرعة عنصراً حاسماً في اتخاذ القرار بناء على هذه البيانات، وهو الوقت الذي نستغرقه من لحظة وصول هذه البيانات إلى لحظة الخروج بالقرار بناء عليها.

مصادر البيانات الضخمة
يوجد العديد من مصادر البيانات الضخمة منها المصادر الناشئة عن إدارة أحد البرامج سواء أكان برنامج حكومي أو غير حكومي، كالسجلات الطبية الإلكترونية وزيارات المستشفيات وسجلات التأمين والسجلات المصرفية وبنوك الطعام وغيرها. المصادر التجارية أو ذات الصلة بالمعاملات تعد مصدرا آخر كالبيانات الناشئة عن معاملات بين كيانين، على سبيل المثال معاملات البطاقات الإئتمانية والمعاملات التي تجرى عن طريق الإنترنت بوسائل منها الأجهزة المحمولة. كما أن هناك مصادر معتمدة على شبكات أجهزة الإستشعار وأجهزة التتبع فعلى سبيل المثال، التصوير بالأقمار الصناعية، وأجهزة استشعار الطرق، وأجهزة استشعار المناخ وتتبع البيانات المستمدة من الهواتف المحمولة والنظام العالمي لتحديدالمواقع وغيرها يمكن أن تكون أحد مصادر البيانات الضخمة. هناك نوع آخر من المصادر وهو المتعلق بسلوك المستخدم مثل مرات البحث على الإنترنت عن منتج أو خدمة ما أو أي نوع آخر من المعلومات، ومرات مشاهدة إحدى الصفحات على الإنترنت. وأخيرا، مصادر البيانات المتعلقة بالآراء مثل التعليقات على وسائط التواصل الإجتماعي مثل فيسبوك وتويتر وغيرها.

تطبيقات البيانات الضخمة
القطاع الحكومى والبيانات الضخمة (Big Data)
عندما يتعلق الأمر بإدارة البيانات، أغلب المنظمات الحكومية تواجه مشكلة وجود كميات هائلة من البيانات في أنظمة الكمبيوتر، ومعظم هذة البيانات غير منظمة أو مُهيكلة (unstructured data) وهذا يعني أنها لا تناسب أي نموذج بيانات معرّف مسبقاً. لفهم الأنماط الموجودة في هذه البيانات يجب أن تطبق المنظمات الحكومية نماذج إحصائية تسعى لإلتقاط ومعالجة كميات هائلة من البيانات غير المهيكلة و تسمى هذه العملية بـالبيانات الضخمة.

تحليل البيانات الضخمة (Big Data) وتحسين التعليم
أدى إستخدام أدوات التعلم عبر الإنترنت والبرامج القائمة على التفاعل بصورة متزايدة في مجال التعليم إلى زيادة حجم البيانات، واختلاف نوعية البيانات الكبيرة التي يُمكن جمعها من بيئات التعلم، فهنا نجد بيانات كبيرة عن المتعلمين، وخبرات التعلم لدى المتعلمين، كما نجد بيانات متعمقة داخل بيئات التعلم، وبيانات حول التفاعلات الإجتماعية في بيئات التعلم، وبيانات مُفصلة عن أنشطة التعلم من نصوص ووسائط ومقاطع فيديو وغيرها، كما تختلف هذه البيانات في نوعيتها وعمقها بنسب متفاوتة.

يمكن الإستفادة من تحليل هذه الأنواع من البيانات الضخمة في التعليم، لتوفير مجموعة مُتنوعة من الفرص والخيارات بهدف تحسين تعلم الطلاب من خلال التعلم التكيفي أو التعليم القائم على الكفاءة، مما ينتج عنه تعلم أفضل نتيجة لتشخيص أسرع وأكثر تعمقاً في بيانات حقيقية تراكمية لاحتياجات التعلم أو المتاعب التي تواجهه أثناء عملية التعلم، بما في ذلك تقييم المهارات مثل التفكير المنظم، والتعاون، وحل المشاكل في سياق عميق، وتقييم لمجال وموضوع المعرفة، بالإضافة لتحديد التدخلات المستهدفة لتحسين نجاح الطلاب وخفض التكاليف الإجمالية للطلاب والمؤسسات، واستخدام البيئات القائمة والمعلومات المعقدة في صنع القرارات وتحديد السياسات.

تحليل البيانات الضخمة لتحسين عملية صنع القرار
إن عملية اتخاذ القرارات تُعد محور العملية الإدارية وجوهرها وإن نجاح المؤسسة أوالقطاع الحكومي يتوقف إلى حد كبير على قدرة وكفاءة القيادة الإدارية على إتخاذ القرارات الإدارية المناسبة. إن عملية صنع القرار تبدأ بتجميع البيانات ومُعالجتها واستخلاص المعلومات التي بناء عليها يتم اتخاذ القرار حيث بدأت تعتمد العديد من الشركات الكبيرة والقطاعات الحكومية على سياسة تحليل البيانات الضخمة والمعقدة والتي تحتاج إلى البرمجيات المتخصصة في مجال إدارة البيانات والتحليلات، والتي لا يمكن مُعالجتها باستخدام أداة واحدة فقط أو العمل على تطبيقات مُعالجة بيانات تقليدية، فمن المعروف أن جمع البيانات والمعلومات تُساعد على التوصيف الدقيق للمشكلة وتحليلها للوصول إلى نتائج دقيقة، لذلك كان لابد من إعتماد نظام إداري يشمل تحليل البيانات الضخمة والهائلة جداً.

الإستفادة من البيانات الضخمة في المجال الإقتصادي
لقد أصبح بإمكان الشركات والمؤسسات والهيئات اليوم على إختلاف أنواعها تحليل حركة العملاء من شراء وبيع ونحوه بدقة أكبر ليتمكنوا وفقاً لذلك من معرفة السلع الأكثر طلباً أو تلك الراكدة ويقترحوا على عملائهم سلع معينة وفقاً لعمليات الشراء التي تتم. كما أصبح لديهم القدرة على فهم سلوك العملاء بشكل أكثر دقة وتحديد المميزين منهم ومن هم بحاجة لمساعدة أو لتحديد توجهاتهم أو مُراقبة أدائهم. هذا الأمر ليس فقط لمراكز البيع التقليدية بل يشمل المتاجر الإلكترونية على شبكة الإنترنت وعلى نطاق أوسع.

فأصبح يتفاجأ مُستخدم شبكات التواصل الإجتماعي أو البريد الإلكتروني في أحيان كثيرة، بظهور إعلانات تجارية لسلع قام مسبقاً بالبحث عنها في تطبيقات أخرى، بل أكثر من ذلك هناك بعض الخوارزميات التي تستخدم بيانات تحديد الموقع على جهاز الهاتف لاقتراح الإعلانات. ومن هنا نجد أن ذلك يحدث نتيجة لتحليل البيانات الضخمة الناتجة من هذه المواقع والإستفادة منها في التسويق وذلك باستخدام كل جزء صغير من البيانات المتاحة عن المستخدمين لمعرفة ميولهم وتفضيلاتهم بغية عرض البضائع بأمثل طريقة ممكنة تجلب لشركات التسوق الإلكتروني أعظم ربح ممكن.

الإستفادة من البيانات الضخمة في المجال الطبى
تحول البشر شيئاً فشيئاً من طب التعامل مع الأمراض إلى طب يسعى للتنبؤ بالأمراض ومنعها، وتقديم العلاج الملائم لكل شخص بمساعدة كم هائل من المعلومات يجمعها هاتفه الذكي، مما يفتح الباب لعصر جديد من الطب تلعب فيه البيانات الصحية الضخمة وتحليلاتها دوراً بارزاً. أصبح بإمكان المستشفيات الحكومية والمراكز الطبية والأطباء الإستفادة من البيانات الضخمة في دراسة سلوكيات المرضى عبر تحليل ملفاتهم الطبية والزيارات التي قاموا بها للعلاج والتقنيات القابلة للإرتداء مما قد يساعدهم على تقديم خدمات طبية أفضل.

المهام التي نود القيام بها
• ضبط سلوك النظام للمستخدم (تقديم التوصيات في أمازون, نتائج البحث في جوجل, تعديل الدواء ليناسب المريض…)
• فهم البيانات تلقائيا (قراءة مخطوطة, التعرف على الوجه, تحديد موضوع الأخبار…)
• التنبؤ بالمستقبل (حالة الطقس, أسعر الأسهم, التعرف على الأوبئة…)
• تنظيم المعلومات (إيجاد الصور في المواضيع ذات الصلة على الويب, تحديد الجينات ذات السلوك المماثل, تلخيص مستند…)

بفضل البيانات الضخمة، يمكن الحصول على نتائج مذهلة
• يمكنك تنبؤ الأماكن والمناطق على الخريطة التي قد تحدث فيها الجريمة
• التنبؤ بنقاط العنف أو تفشي الأوبئة بدقة
• تحديد الأحداث في تويتر قبل حدوثها بساعات
• على مدى العقد الماضي ، ظهر مجال جديد من الأبحاث Cliodynamics يقودها مجموعة من علماء الرياضيات وعلماء الفيزياء النظرية والاقتصاديين وعلماء الاجتماع الذين يحاولون اكتشاف القواعد التي تحرك مسار التاريخ
• يركز الدواء المستقبلي على الوقاية والتنبؤ والتشخيص المبكر
• التنبؤ بنجاح الطفل في المدرسة وفقًا للبيانات الاجتماعية الاقتصادية ومن هم أصحابه في الحي والمدرسة
• التنبؤ إذا ما كان الطفل مستعدًا أو غير جاهز للمدرسة بناءً على الألعاب المعرفية
• التنبؤ بنجاح الطالب في دراسته الجامعية وفقًا لبيانات القبول
• التنبؤ إذا ما كان الموظف مناسبًا للوظيفة التي تقدم اليها استنادًا إلى بيانات سيرته الذاتية

كيف نقوم بهذا !؟
من الممكن تطوير برنامج حاسوب لكل مهمة
• من قبل خبراء يعرفون المشكلة
• فهم عميق للآلية (على سبيل المثال ، كيف يعمل كل عقار)
• كتابة البرمجيات التي تستخدم هذه المعلومات لحل المشكلة.

الإشكاليات
– مطلوب استثمار ضخم في كل مشكلة (وقت وأموال)
– العديد من الخبراء لا يعرفون كيف يفسرون نجاحهم
– العديد من الآليات غير مفهومة علميا من ناحية الدقة

التعلم الآلي Machine Learning
استخدام الكم الهائل من البيانات التي تم جمعها لمعرفة كيفية إنجاز المهام. على سبيل المثال :
• نتعلم من العديد من الأمثلة عن الكتابة اليدوية كيف يبدو شكل الحرف
• نستخدم مجموعات من الصور لتحديد طرق لمقارنة الصور
• نستخدم معلومات عن المرضى ، وأدويتهم ، ونتائج العلاج ، لإنشاء قاعدة مناسبة لإختيار دواء لكل مريض

يتم التعلم تلقائيا بواسطة الطرق عامة التي تتوافق مع العديد من المشاكل المختلفة
الإيجابيات
– ليست هناك حاجة لفهم آلآليات المستخدمة لحل المشكلة
– يمكن النجاح دون مساعدة الخبراء
– ليست هناك حاجة لتطوير أدوات مختلفة تمامًا لكل مشكلة على حدة

أسس التعلم الآلي
تعتمد طرق التعلم الآلي على افتراض أن للخوارزميات القدرة على الوصول لأمثلة يمكن التعلم منها.
يتم تقسيم الطرق إلى فئتين:
• التعلم المُراقَبLearning Supervised- يقوم الإنسان في التعلم المراقب بتزويد المعطيات والإخراج المطلوب، بالإضافة إلى تزويد مدى دقة التنبؤات أثناء تدريب الخوارزمية، وحالما تنتهي الخوارزمية من التعلم، سوف تُطبِّق ما تعلَّمَتْه على بياناتٍ جديدةٍ
• التعلم غير المراقب Unsupervised Learning – لا حاجة لتدريب الخوارزمية مع المخرجات المطلوبة، وعوضًا عن ذلك، تستخدم نهجًا تكراريًا يدعى: التعلّم العميق – deep learning ؛ لمراجعة البيانات والاستنتاج منها

التعلم المراقب Supervised Learning
الهدف منها إرفاق تسمية label لكل مثال
• لكل مريض: ما الدواء المناسب له
• لكل حدث في الأخبار: ما هو الموضوع الذي تتناوله
• لكل يوم: ما هي حالة الطقس لهذا اليوم
• لكل صورة: من يظهر في الصورة

كل مثال يوصف حسب المعلومات ذات الصلة
• لكل مريض : البيانات الشخصية+ القياسات التي أخذت منه
• لكل حدث في الأخبار: النص الذي يصفها
• لكل يوم: قياسات المعطيات الجوية في اليوم السابق
• لكل صورة: النقاط pixels التي تكونه

خوارزمية التعلم المراقب لها حق الوصول إلى مجموعة من الأمثلة الدلالية:
• أمثلة على التسمية المرفقة بالفعل
• يمكن أن تأتي التسمية من قياس تم إجراؤه من أشخاص ذكروا الأمثلة: “معلمي” الخوارزمية

الغرض من الخوارزمية: دراسة قاعدة تربط وصف المثال بالتسمية المناسبة:
• “إذا كان المريض أكبر من 90 عامًا ، فلن يساعده الدواء”
• “ذا كان الضغط الجوي في يوم معين أقل من 30 ، سيسقط المطر في اليوم التالي”

بعد ذلك ، ستستخدم الخوارزمية الأمثلة المعلّمة التي تم استلامها كمدخلات
سيتم تطبيق القاعدة التي تعلمتها الخوارزمية على الأمثلة الجديدة ، التي لم يتم تسميتها، وسيتوقع التسمية الصحيحة لكل مثال:
• سيتلقى كل مريض يأتي إلى المستشفى توصية من النظام بشأن الأدوية التي يجب أن يتناولها كل يوم
• سيتم تطبيق القاعدة على القياسات الجوية وستتنبأ بالطقس ليوم غد

ستصبح القاعدة ناجحة إذا إستطاعت أن تتنبأ بالتسمية الصحيحة في نسبة عالية من الأمثلة الجديدة

التعلم غير المراقب Unsupervised Learning
هي مشكلة يكون الهدف منها هو تنظيم المعلومات أو البحث عن أنماط فيها
• توزيع أخبار جديدة على مجموعات من الأخبار المماثلة
• العثور على سجلات مختلفة للمرضى الذين ينتمون إلى نفس حالة المريض
• ضغط الصور عن طريق إيجاد عدد صغير من المتغيرات التي تصفها
• العثور على عدد صغير من الصور المناسبة من ألبوم صور ضخم

تقبل الخوارزمية بيانات وصف لأمثلة بدون تصنيفات
في بعض الأحيان النجاح هو غير موضوعي
• هل هذه الأخبار تشبه بعضها البعض؟
• هل الصور التي تم اختيارها من الألبوم تمثل بالفعل الحدث الموضح فيه؟

خوارزميات التعلّم
التعلّم المراقب:
• الجار الأكثر قرباK-Nearest Neighbor
• فواصل خطية و SVM
• أشجار القرارDecision tree
• Bayesian learning
• الشبكات العصبية Neural networks

التعلّم غير المراقب :
• تقليل الأبعاد Dimensionality reduction
• clustering
• نماذج مطابقة Model fitting

أصبحت تكنولوجيا المعلومات توظف أدواتها لتحليل ومعالجة البيانات الضخمة(Big Data) والتي تهدف الى إسترجاعها من الأنظمة المختلفة في العديد من المجالات ومنها المجال العسكرى والمجال الطبى والقطاع الحكومي والإقتصادي والتعليمي وغيرها .حيث تتم عملية استرجاع البيانات ومعالجتها واستخدامها بغرض تطوير المنتجات أو استحداث منتجات جديد، أو توفير المعلومات اللازمة لمساعدة متخذي القرار لصناعة مخرج مناسب وتطوير عملية التسويق الإلكترونى وتطوير الأدوية والمساعدة فى إكتشاف الأمراض وتحقيق الأمن القومي وتحسين العملية التعليمية وكل ذلك يتحقق بإستخدام طرق التعلم الآلي Machine Learning