مقدمة
كثير ما نسمع عن مصطلح البيانات العملاقة Big Data وإرتباطها بتقنيات الحوسبة السحابية. مصطلح سهل ممتنع، سهل في معناه المباشر صعب في توحيد تعاريفه، كل تعريف يعتمد على وجهة نظر صاحبه، مقدم الخدمة له تعريف، المستخدم العادي له تعريف، والخبراء المخضرمين لهم تعريف أيضا. أي كان التعريف فكلها تصب في مجرى واحد أو كما يقال (كل الطرق تؤدي إلى روما).
نظرا لأهمية هذا المصطلح وإرتباطه المباشر بتقنيات الحوسبة السحابية -كما ذكرنا مسبقا- وجب علينا الكتابة عنه هنا مع أخذ جميع وجهات النظر المذكورة في الإعتبار… فما هي البيانات العملاقة؟
ماهي البيانات العملاقة؟
من وجهة نظر الخبراء، هي مجموعات متعددة من البيانات (المنظمة أو الغير منظمة) تضخمت وتعقدت لدرجة إستحالة التعامل معها عبر قواعد البيانات وأنظمة المعالجة التقليدية. من وجهة نظر مقدمي الخدمات، هي الأدوات والعمليات التي تحتاجها المنظمات للتعامل مع كمية كبيرة من البيانات لغرض التحليل. الطرفان إتفقا على إنها بيانات هائلة لا يمكن معالجتها بالطرق التقليدية.
الوقت والتكلفة الكبيرة التي تحتاجها البيانات العملاقة لتحليلها إضطرت التقنيون إلى الاعتماد على أنظمة الذكاء الاصطناعي Artificial Intelligence التي تستخدم خوارزميات معقدة للعمل عليها، والتي بدورها تعتمد على تقنيات الحوسبة السحابية لإتمام عملها.
لا يحدد مصطلح البيانات العملاقة أحجام معينة، لكن عادة يكون المقصود به البيانات التي تقاس بالبيتا بايت petabyte (ألف تيرا بايت) أو الايكسا بايت exabyte (مليون تيرابيات).
تصنيفات البيانات العملاقة (3Vs)
من الخطأ الاعتقاد بأن البيانات العملاقة تصنف بالحجم فقط، في الواقع هي تصنف بشكل أساسي على ما يسمى بمبدأ (3Vs) وهو مبدأ يتكون من:
الحجم (Volume):
المقصود به حجم البيانات المستخرجة من مصدر ما، وهو ما يحدد قيمة وإمكانات البيانات لكي تصنف من ضمن البيانات العملاقة. ذكرنا سابقا بأن الحجم يقاس عادة بالبيتا بايت… إلخ.
التنوع (Variety):
المقصود به نوع البيانات المستخرجة، وهو ما يساعد المحللين على إختيار البيانات المناسبة لمجال بحثهم. مثل الصور، الفيديو، الصوتيات… إلخ.
السرعة (Velocity):
المقصود بها سرعة إنتاج وإستخراج البيانات لتغطية الطلب عليها. مثلا الحصول على البيانات في الوقت الحقيقي، أو الحصول على البيانات في فترات متفاوتة… إلخ
التطور التقني المتواصل أدى إلى إضافة تصنيفات جديدة للبيانات العملاقة منها تباين وتضارب البيانات (Variability)، دقة وجودة البيانات (Veracity)، ودرجة تعقيد البيانات (Complexity).
تعدين البيانات Data Mining
يمكن الإستفادة من البيانات العملاقة في عملية تعدين البيانات أو Data Mining وهي عملية بحث وتحليل البيانات للحصول على أنماط متشابهة بها وتحويلها إلى معلومات مفيدة للباحث للإستفادة منها في أماكن أخرى. وهي عملية تتم بشكل آلي أو شبه آلي تتقاطع فيها أنظمة الذكاء الإصطناعي والأجهزة المتعلمة مع قواعد البيانات العملاقة والأساليب الإحصائية المعقدة.
أمثلة على البيانات العملاقة
لتسهيل فهم ماهية البيانات العملاقة يجب ذكر أمثلة عنها. التالي مجموعة مبسطة لتمثيل ماهية البيانات العملاقة من واقع الحياة:
- فيسبوك تتعامل مع 50 مليار صورة من قاعدة مستخدميها الضخمة.
- كما في أغسطس 2012، قووقل تتعامل مع حوالي 100 مليار عملية بحث في الشهر.
- إي باي تستخدم مستودعي بيانات بمجموع مساخة تخزين حجمها 90 بيتا بايت لغرض بحوث وتوصيات المستخدمين.
خاتمة
نحن في زمن أصبحت الإنترنت تنتج كمية مهولة من البيانات التي كثيرا ما تكون هامة عند إستخدامها بشكل أمثل وعلى وجه نظامي، ولكنها قد تكون كارثية على الخصوصية عندما تستخدم بشكل غير قانوني، وهو الذي يعتقد بأن بعض المنظمات الأمريكية الأمنية تقوم بعمله. دائما ما نسمع بأن البيانات التي نرفعها على الإنترنت تضل هناك بشكل أو بآخر حتى لو قمنا بحذفها، وتقنيات البيانات العملاقة هي أحد أساليب تحليلها، سواء بعلمك أو بدون علمك.