ما هي أنواع البيانات الضخمة؟
نشرت: 2022-11-24يمكن أن يؤدي فهم أنواع البيانات الضخمة إلى إعدادك بشكل أفضل للتعامل مع مجموعات البيانات الكبيرة
العديد من التطورات في الذكاء الاصطناعي والتعلم الآلي وتحليلات الأعمال ممكنة بسبب البيانات الضخمة. تدعم البيانات الخوارزميات التي تجعل السيارات ذاتية القيادة ، وتقترح الفيلم التالي الذي يجب أن نشاهده ، وتخبر قادة الأعمال بكيفية زيادة الإيرادات.
ولكن لا يتم إنشاء كل البيانات بالطريقة نفسها.
لتصنيف وتنظيم وتحليل البيانات التي تم إنشاؤها بواسطة شركة وعملائها بشكل فعال ، يحتاج محلل الأعمال أو عالم البيانات إلى معرفة نوع البيانات التي يتعاملون معها.
/ ما هي البيانات الضخمة؟
تشير البيانات الضخمة إلى معلومات كبيرة الحجم وعالية السرعة وعالية التنوع تحتاج إلى معالجة وتحليل متطورين. البيانات وحدها ليست مفيدة - تحليلها هو المفتاح لتحسين العمليات التجارية. تستخدم الشركات العديد من التقنيات لتحليل البيانات الضخمة ، مثل التنقيب عن البيانات ، والتي تسلط الضوء على الأنماط في البيانات. على سبيل المثال ، يمكن للشركات استخراج البيانات لمعرفة عروض المبيعات التي ستجذب مستهلكين معينين. عندما تتعامل الشركات مع البيانات الضخمة بشكل صحيح ، فإنها تسهل اتخاذ قرارات أفضل وتساعدها على تقديم خدمة عملاء أفضل ومنتجات أفضل.
دعنا نتعمق في الخصائص والأنواع الرئيسية للبيانات الضخمة.
خصائص البيانات الضخمة: 5 Vs
في حين أن البيانات الضخمة هي مصطلح عام ينطبق على العديد من أنواع البيانات ، إلا أن هناك خمس خصائص تُستخدم عادةً لتحديد البيانات الضخمة (تُعرف أيضًا باسم 5 Vs أو ميزات البيانات الضخمة).
1. الحجم
هذه الخاصية موجودة في الاسم: البيانات الضخمة كبيرة. تعريف الكبير نسبي ، ويتغير اعتمادًا على التكنولوجيا المتاحة في ذلك الوقت. على سبيل المثال ، كان محرك الأقراص الثابتة الذي تبلغ سعته 3 غيغا بايت يعتبر في يوم من الأيام ضخمًا ، بينما أصبح الكمبيوتر المحمول الآن بسعة تخزين تيرابايت قياسيًا.
2. السرعة
يتم إنشاء البيانات الضخمة بسرعة. ترسل المستشعرات الموجودة على أجهزة إنترنت الأشياء رسائل عدة مرات في الثانية. تراقب تحليلات مواقع الويب كل حركة ماوس يقوم بها الزائرون لاكتساب نظرة ثاقبة على عاداتهم في التصفح. غالبًا ما تحتاج التطبيقات التي تستخدم هذه البيانات إلى معالجتها في أقرب وقت ممكن من الوقت الفعلي.
3. متنوعة
التنوع هو الموضوع الرئيسي لهذه المقالة (لذا استمر في القراءة للمزيد!). هناك تنوع كبير في البيانات الضخمة. كل منظمة تقوم بجمع البيانات تفعل ذلك من مصادر متعددة وبأشكال متعددة. لتحويل هذه البيانات إلى معلومات مفيدة ، يجب دمج البيانات من مصادر متنوعة.
4. الصدق
الدقة هي خاصية تحدد جودة البيانات. ليست كل البيانات التي تم جمعها كاملة. قد يكون غير دقيق أو يحتوي على نقاط بيانات تالفة. يمكن أن تضر البيانات الضخمة الفوضوية أكثر مما تنفع ؛ قد يلزم تنظيف البيانات أو التخلص منها لتقديم رؤى دقيقة.
5. القيمة
لا يعني امتلاك عمل تجاري قدرًا كبيرًا من البيانات أن جميع بياناته مفيدة. السمة المميزة الأخرى للبيانات الضخمة هي أنها ستوفر قيمة في شكل رؤى.
هل تفكر في التعاقد مع شركة لتحليل البيانات للمساعدة في البيانات الضخمة؟ تصفح قائمتنا لأفضل شركات تحليل البيانات وتعرف على المزيد حول خدماتها في دليل التوظيف في Capterra.
3 أنواع رئيسية من البيانات الضخمة
بينما يمكننا إنشاء عدد لا نهائي من الفئات لأنواع مختلفة من البيانات الضخمة ، إلا أنه من الأسهل بكثير فرز البيانات الضخمة إلى ثلاثة أنواع رئيسية: منظمة ، وغير منظمة ، وشبه منظمة.
1. البيانات المنظمة
البيانات الضخمة المنظمة هي البيانات المخزنة في مخطط ثابت. الأكثر شيوعًا ، هذا يعني أنه يتم تخزينه في نظام إدارة قواعد البيانات العلائقية أو RDBMS. يتم تخزين هذه البيانات في جداول حيث يحتوي كل سجل على مجموعة ثابتة من الخصائص ، ولكل خاصية نوع بيانات ثابت.
أحد الأمثلة على ذلك هو سجلات المستخدم في قاعدة بيانات :.
بطاقة تعريف | البريد الإلكتروني | اسم | مدينة | حالة | الرمز البريدي |
1 | بوب | مدينة كانساس | MO | 64030 | |
2 | سارا | شيكاغو | انا | 60007 | |
3 | سام | نيويورك | نيويورك | 10001 | |
4 | ريك | لوس أنجلوس | كاليفورنيا | 90001 |
كل سجل في هذا الجدول له نفس البنية ، ولكل خاصية نوع معين. على سبيل المثال ، يقتصر عمود الحالة على حرفين كبيرين ، ويقتصر أعمدة المعرف والرمز البريدي على الأعداد الصحيحة. إذا حاولت إدراج سجل في قاعدة البيانات لا يتناسب مع هذه البنية ، فلن يسمح بذلك ، وسيظهر خطأ.
عادةً ما تكون البيانات الضخمة المنظمة علائقية. هذا يعني أنه يمكن ربط سجل مثل جدول المستخدم أعلاه بسجل أو سجلات في جدول آخر. لنفترض أن جدول المستخدم مخصص لعربة التسوق ، ولكل مستخدم طلبات.
بطاقة تعريف | معرف المستخدم | العنصر | المجموع |
1 | 1 | كوب ![]() | 2.00 |
2 | 2 | صَحن | 4.00 |
3 | 2 | لوحة | 3.00 |
4 | 4 | ملعقة | 1.00 |
تربط خاصية User_ID لجدول الطلبات أعلاه الطلبات بالأرقام التعريفية في جدول المستخدم. يمكننا أن نرى أن سارة لديها أمرين ، وأن سام لم يطلبها بعد.
هذا النوع من البنية الثابتة يجعل البيانات متسقة ويسهل إدخالها والاستعلام عنها وتنظيمها. اللغة المستخدمة للاستعلام عن جداول قاعدة البيانات مثل هذه هي SQL (لغة الاستعلام الهيكلية). باستخدام SQL ، يمكن للمطورين كتابة استعلامات تربط السجلات في جداول قاعدة البيانات في مجموعات لا حصر لها بناءً على علاقاتهم.
عيب البيانات المنظمة هو أن تحديث بنية الجدول يمكن أن يكون عملية معقدة. يجب التفكير كثيرًا في هياكل الجداول قبل أن تبدأ في استخدام قاعدة البيانات. هذا النوع من البيانات الضخمة ليس مرنًا مثل البيانات شبه المنظمة.
2. البيانات غير المهيكلة
وفقًا لبعض التقديرات ، فإن 80-90٪ من البيانات غير منظمة. [ 1 ] ولكن ما هي البيانات الضخمة غير المهيكلة؟ أي بيانات لا تتناسب مع الفئتين الأخريين هنا تعتبر غير منظمة.
كل ما يتم تخزينه رقميًا هو بيانات. تتضمن البيانات غير المنظمة النصوص والبريد الإلكتروني والفيديو والصوت وسجلات الخادم وصفحات الويب وما إلى ذلك. على عكس البيانات المنظمة وشبه المنظمة التي يمكن الاستعلام عنها والبحث فيها بطريقة متسقة ، لا تتبع البيانات غير المنظمة نموذج بيانات متسق.
هذا يعني أنه بدلاً من مجرد استخدام الاستعلامات لتحويل هذه البيانات إلى معلومات مفيدة ، يجب استخدام عملية أكثر تعقيدًا ، اعتمادًا على مصدر البيانات. هذا هو المكان الذي يمكن أن يكون فيه التعلم الآلي والذكاء الاصطناعي ومعالجة اللغة الطبيعية والتعرف البصري على الأحرف (OCR) مفيدًا.
أحد الأمثلة على البيانات غير المنظمة هو الإيصالات الممسوحة ضوئيًا والمخزنة لتقارير النفقات. في تنسيق صورتهم الأصلية ، تكون البيانات عديمة الفائدة بشكل أساسي. هنا ، يمكن لبرنامج OCR تحويل الصور إلى بيانات منظمة يمكن إدراجها بعد ذلك في قاعدة بيانات.
عيب البيانات الضخمة غير المهيكلة هو صعوبة معالجتها ، ويحتاج كل مصدر بيانات إلى معالج مخصص. تشمل المزايا مجرد وجود أنواع عديدة من البيانات غير المهيكلة ، حيث لا يمكن العثور على الرؤى التي تم جمعها منها في كثير من الأحيان في أي مصدر بيانات آخر.
3. البيانات شبه المنظمة
تتناسب البيانات الضخمة شبه المنظمة بين البيانات المهيكلة وغير المنظمة. المصدر الشائع للبيانات شبه المنظمة هو من قواعد بيانات NoSQL. البيانات في قاعدة بيانات NoSQL منظمة ، لكنها ليست علائقية ولا تتبع مخططًا ثابتًا.
على سبيل المثال ، قد يبدو سجل المستخدم في قاعدة بيانات NoSQL كما يلي:
{_id: ObjectId ("5effaa5662679b5af2c57829") ، البريد الإلكتروني: "[email protected]" ، الاسم: "Sam" ، العنوان: "101 Main Street" city: "Independence" ، الولاية: "Iowa"}
هنا ، يصل المستخدمون إلى البيانات التي يحتاجون إليها عن طريق المفاتيح الموجودة في السجل. وعلى الرغم من أنه يشبه السجلات في مثال البيانات المنظمة أعلاه ، إلا أنه ليس بتنسيق جدول ثابت.
بدلاً من ذلك ، يكون بتنسيق JSON ، والذي يستخدم لتخزين ونقل كائنات البيانات. في حين أن هذا السجل الوحيد في قاعدة البيانات قد يحتوي على هذه المجموعة من السمات ، فإن هذا لا يعني أن بقية السجلات سيكون لها نفس البنية. قد يفتقر السجل التالي إلى عنوان شارع ولكن بدلاً من ذلك يحتوي على رمز بريدي.
ميزة البيانات شبه المهيكلة المخزنة في قاعدة بيانات NoSQL هي أنها مرنة للغاية. إذا كنت بحاجة إلى إضافة المزيد من البيانات إلى سجل ما ، فما عليك سوى إضافته بمفتاح جديد. قد يكون هذا أيضًا عيبًا إذا كنت بحاجة إلى أن تكون البيانات متسقة.
لكن بيانات NoSQL ليست النوع الوحيد من البيانات الضخمة شبه المنظمة. XML و YAML هما تنسيقان مرنان آخران للبيانات تستخدمهما التطبيقات لنقل البيانات وتخزينها. يمكن أيضًا اعتبار البريد الإلكتروني بيانات شبه منظمة حيث يمكن تحليل أجزاء منه باستمرار ، مثل عناوين البريد الإلكتروني والوقت المرسل وعناوين IP ، في حين أن الجسم عبارة عن بيانات غير منظمة.
مقارنة البيانات المهيكلة وشبه المهيكلة وغير المهيكلة
يوضح هذا الجدول بشكل أفضل الاختلافات بين هذه الأنواع الثلاثة من البيانات الضخمة:
منظم | شبه منظم | غير منظم | |
شكل | البيانات الأكثر شيوعًا من قواعد البيانات العلائقية حيث يتم ترتيب البيانات في جداول منظمة ولها أنواع محددة مثل الأعداد الصحيحة والعائمة والنص. | البيانات الأكثر شيوعًا من قواعد بيانات NoSQL والتي يتم نقلها بلغة تسلسل البيانات مثل JSON أو XML أو YAML. | لا تتبع البيانات غير المنظمة أي مخطط ويمكن أن تأخذ شكل ملفات السجل والنص الخام والصور ومقاطع الفيديو والمزيد. |
الاستعلام | يمكن الاستعلام بسرعة باستخدام SQL بطريقة منظمة ومتسقة. | يمكن الاستعلام عن هذه البيانات ، ولكن نظرًا لطبيعتها شبه المنظمة ، قد لا تكون السجلات متسقة. | يجب تحليل البيانات الأولية ومعالجتها باستخدام رمز مخصص في كثير من الحالات. |
المعاملات | تدعم قواعد البيانات المعاملات لضمان تحديث البيانات التابعة. | المعاملات مدعومة جزئيًا في قواعد بيانات NoSQL. | المعاملات غير ممكنة مع البيانات غير المهيكلة. |
المرونة | مجموعات البيانات المنظمة لها عملية تحديث معقدة وليست مرنة للغاية. | قواعد بيانات NoSQL مرنة لأنه يمكن تحديث مخططات البيانات ديناميكيًا. | البيانات غير المهيكلة هي الأكثر مرونة ولكنها أيضًا الأصعب في المعالجة. |
قم بتقييم مصادر البيانات الخاصة بك للبدء في استخدام البيانات الضخمة
تتمثل الخطوة الأولى الجيدة في أي مشروع للبيانات الضخمة في إجراء جرد لجميع مصادر البيانات المتاحة لك ولعملك وتصنيفها حسب النوع. يتيح لك ذلك بدء معالجة البيانات وتجميعها لتقديم رؤى مفيدة.
لمعرفة المزيد حول البيانات الضخمة ودورها في الأعمال الحديثة ، تحقق من هذه الموارد:
ما هي البيانات الضخمة وكيف يتم إنشاؤها؟
كيفية إنشاء استراتيجية ذكاء الأعمال الجديدة الخاصة بك