ما هو التنقيب عن البيانات؟ كيف يعمل، الفوائد، التقنيات، والأمثلة
١٢ دقيقة

ما هو التنقيب عن البيانات؟ كيف يعمل، الفوائد، التقنيات، والأمثلة

(التنقيب عن البيانات : Data Mining)

ما هو التنقيب عن البيانات؟

تعدين البيانات هو عملية البحث وتحليل كمية كبيرة من البيانات الخام بهدف تحديد الأنماط واستخراج المعلومات المفيدة.

تستخدم الشركات برامج التنقيب عن البيانات للتعرف بشكل أفضل على عملائها. يمكن أن يساعدها ذلك في تطوير استراتيجيات تسويق أكثر فعالية، وزيادة المبيعات، وتقليل التكاليف. يعتمد التنقيب عن البيانات على جمع البيانات الفعال، والتخزين، ومعالجة الكمبيوتر.

النقاط الرئيسية

  • التنقيب عن البيانات هو عملية تحليل كمية كبيرة من المعلومات لاكتشاف الاتجاهات والأنماط.
  • يمكن للشركات استخدام التنقيب عن البيانات لكل شيء بدءًا من معرفة ما يهتم به العملاء أو ما يرغبون في شرائه وصولاً إلى اكتشاف الاحتيال وتصفيه البريد العشوائي.
  • تقوم برامج التنقيب عن البيانات بتحليل الأنماط والروابط في البيانات بناءً على المعلومات التي يطلبها أو يقدمها المستخدمون.
  • تستخدم شركات وسائل التواصل الاجتماعي تقنيات التنقيب عن البيانات لتحويل مستخدميها إلى سلعة بهدف تحقيق الربح.
  • لقد تعرض استخدام التنقيب عن البيانات للنقد، حيث إن المستخدمين غالبًا ما يكونون غير مدركين لحدوث التنقيب عن البيانات باستخدام معلوماتهم الشخصية، خاصة عندما يتم استخدامها للتأثير على تفضيلاتهم.

كيف يعمل التنقيب عن البيانات

تتضمن عملية التنقيب عن البيانات استكشاف وتحليل كتل كبيرة من المعلومات لاستخلاص أنماط واتجاهات ذات معنى. يتم استخدامها في إدارة مخاطر الائتمان، الكشف عن الاحتيال، وتصفية البريد العشوائي. كما أنها أداة لأبحاث السوق تساعد في الكشف عن مشاعر أو آراء مجموعة معينة من الناس. تنقسم عملية التنقيب عن البيانات إلى أربع خطوات:

  1. يتم جمع البيانات وتحميلها في مستودعات البيانات إما في الموقع أو على خدمة سحابية.
  2. يقوم محللو الأعمال وفرق الإدارة والمتخصصون في تكنولوجيا المعلومات بالوصول إلى البيانات وتحديد كيفية تنظيمها.
  3. يقوم برنامج التطبيقات المخصص بفرز وتنظيم البيانات.
  4. يقوم المستخدم النهائي بعرض البيانات في صيغة سهلة للمشاركة، مثل رسم بياني أو جدول.

برامج تخزين البيانات والتنقيب عنها

تقوم برامج التنقيب عن البيانات بتحليل العلاقات والأنماط في البيانات بناءً على طلبات المستخدمين. وهي تنظم المعلومات في فئات.

على سبيل المثال، قد يرغب مطعم في استخدام التنقيب عن البيانات لتحديد العروض الخاصة التي يجب أن يقدمها وفي أي أيام. يمكن تنظيم البيانات في فئات بناءً على متى يزور العملاء وماذا يطلبون.

في حالات أخرى، يقوم محللو البيانات بالبحث عن مجموعات من المعلومات بناءً على العلاقات المنطقية أو ينظرون إلى الارتباطات والأنماط التسلسلية لاستنتاج الاتجاهات في سلوك المستهلكين.

يُعتبر التخزين جانبًا مهمًا في التنقيب عن البيانات. التخزين هو عملية مركزية لبيانات المنظمة في قاعدة بيانات واحدة أو برنامج واحد. يتيح ذلك للمنظمة تقسيم أجزاء من البيانات لمستخدمين محددين لتحليلها واستخدامها وفقًا لاحتياجاتهم.

تقنيات التنقيب عن البيانات

تستخدم عملية التنقيب عن البيانات الخوارزميات وتقنيات متنوعة أخرى لتحويل مجموعات كبيرة من البيانات إلى نتائج مفيدة. تشمل الأنواع الأكثر شيوعًا لتقنيات التنقيب عن البيانات قواعد الارتباط، التصنيف، التجميع، أشجار القرار، الجار الأقرب (K-Nearest Neighbor)، الشبكات العصبية، والتحليل التنبؤي.

  • التصنيف يستخدم فئات محددة مسبقًا لتعيينها إلى الكائنات. تصف هذه الفئات خصائص العناصر أو تمثل ما تشترك فيه نقاط البيانات مع بعضها البعض. تتيح هذه التقنية في التنقيب عن البيانات تصنيف البيانات الأساسية وتلخيصها بشكل أكثر تنظيمًا عبر ميزات أو خطوط منتجات متشابهة.
  • التجميع مشابه للتصنيف. ومع ذلك، يحدد التجميع أوجه التشابه بين الكائنات، ثم يجمع تلك العناصر بناءً على ما يجعلها مختلفة عن العناصر الأخرى. بينما قد ينتج عن التصنيف مجموعات مثل "شامبو"، "بلسم"، "صابون"، و"معجون أسنان"، قد يحدد التجميع مجموعات مثل "العناية بالشعر" و"صحة الأسنان".
  • خوارزمية الجار الأقرب (K-Nearest Neighbor - KNN) هي خوارزمية تصنف البيانات بناءً على قربها من بيانات أخرى. تعتمد خوارزمية KNN على الافتراض بأن نقاط البيانات القريبة من بعضها البعض تكون أكثر تشابهًا مع بعضها البعض مقارنة ببيانات أخرى. تُستخدم هذه التقنية غير المعلمية والمراقبة للتنبؤ بخصائص مجموعة بناءً على نقاط بيانات فردية.
  • الشبكات العصبية تعالج البيانات من خلال استخدام العقد. تتكون هذه العقد من مدخلات وأوزان ومخرج. يتم رسم البيانات من خلال التعلم الموجه، بطريقة مشابهة لكيفية ترابط الدماغ البشري. يمكن برمجة هذا النموذج لتقديم قيم عتبة لتحديد دقة النموذج.

عملية التنقيب عن البيانات

لكي يكونوا الأكثر فعالية، يتبع محللو البيانات عادةً تدفقًا معينًا من المهام على طول عملية التنقيب عن البيانات. بدون هذا الهيكل، قد يواجه المحلل مشكلة في منتصف تحليله كان من الممكن تجنبها بسهولة لو كانوا قد استعدوا لها في وقت سابق. عادةً ما يتم تقسيم عملية التنقيب عن البيانات إلى الخطوات التالية.

الخطوة 1: فهم العمل التجاري

قبل التعامل مع أي بيانات أو استخراجها أو تنظيفها أو تحليلها، من المهم فهم الكيان الأساسي والمشروع المطروح. ما هي الأهداف التي تحاول الشركة تحقيقها من خلال التنقيب عن البيانات؟ ما هو وضعهم التجاري الحالي؟ ما هي نتائج تحليل SWOT؟ قبل النظر إلى أي بيانات، تبدأ عملية التنقيب بفهم ما سيحدد النجاح في نهاية العملية.

الخطوة 2: فهم البيانات

بمجرد تحديد مشكلة العمل بوضوح، حان الوقت للبدء في التفكير في البيانات. يشمل ذلك المصادر المتاحة، وكيف سيتم تأمينها وتخزينها، وكيف سيتم جمع المعلومات، وكيف قد يبدو الناتج النهائي أو التحليل. تتضمن هذه الخطوة أيضًا تحديد حدود البيانات والتخزين والأمان والجمع وتقييم كيفية تأثير هذه القيود على عملية التنقيب عن البيانات.

الخطوة 3: تحضير البيانات

يتم جمع البيانات، ورفعها، واستخراجها، أو حسابها. ثم يتم تنظيفها، وتوحيدها، وتنقيتها من القيم الشاذة، وتقييمها للبحث عن الأخطاء، وفحصها للتأكد من معقوليتها. خلال هذه المرحلة من التنقيب عن البيانات، قد يتم أيضًا فحص البيانات من حيث الحجم، حيث أن مجموعة كبيرة جدًا من المعلومات قد تبطئ العمليات الحسابية والتحليل بشكل غير ضروري.

الخطوة 4: بناء النموذج

مع توفر مجموعة بيانات نظيفة، حان الوقت لتحليل الأرقام. يستخدم علماء البيانات الأنواع المذكورة أعلاه من التنقيب في البيانات للبحث عن العلاقات والاتجاهات والارتباطات أو الأنماط التسلسلية. قد يتم أيضًا إدخال البيانات في نماذج تنبؤية لتقييم كيفية ترجمة المعلومات السابقة إلى نتائج مستقبلية.

الخطوة 5: تقييم النتائج

الجانب المرتكز على البيانات في التنقيب عن البيانات ينتهي بتقييم نتائج نموذج أو نماذج البيانات. قد يتم تجميع النتائج من التحليل وتفسيرها وتقديمها لصناع القرار الذين تم استبعادهم إلى حد كبير من عملية التنقيب عن البيانات حتى هذه النقطة. في هذه الخطوة، يمكن للمنظمات أن تختار اتخاذ قرارات بناءً على النتائج.

الخطوة 6: تنفيذ التغيير والمراقبة

تختتم عملية التنقيب عن البيانات باتخاذ الإدارة خطوات استجابة لنتائج التحليل. قد تقرر الشركة أن المعلومات لم تكن قوية بما فيه الكفاية أو أن النتائج لم تكن ذات صلة، أو قد تقوم الشركة بتغيير استراتيجي بناءً على النتائج. في كلتا الحالتين، تقوم الإدارة بمراجعة التأثيرات النهائية على الأعمال وتعيد إنشاء دورات تنقيب عن البيانات المستقبلية من خلال تحديد مشاكل أو فرص عمل جديدة.

ستحتوي نماذج معالجة التنقيب عن البيانات المختلفة على خطوات مختلفة، على الرغم من أن العملية العامة عادة ما تكون متشابهة إلى حد كبير. على سبيل المثال، يحتوي نموذج اكتشاف المعرفة في قواعد البيانات على تسع خطوات، بينما يحتوي نموذج CRISP-DM على ست خطوات، ونموذج عملية SEMMA يحتوي على خمس خطوات.

تطبيقات التنقيب عن البيانات

في عصر المعلومات اليوم، يمكن لأي قسم أو صناعة أو قطاع أو شركة الاستفادة من التنقيب عن البيانات.

المبيعات

تشجع التنقيب عن البيانات على استخدام رأس المال بشكل أذكى وأكثر كفاءة لدفع نمو الإيرادات. فكر في جهاز تسجيل المبيعات في مقهاك المحلي المفضل. مع كل عملية بيع، يجمع هذا المقهى وقت إجراء الشراء والمنتجات التي تم بيعها. باستخدام هذه المعلومات، يمكن للمقهى صياغة خط منتجاته بشكل استراتيجي.

تسويق

بمجرد أن يعرف المقهى التشكيلة المثالية له، حان الوقت لتنفيذ التغييرات. ومع ذلك، لجعل جهود التسويق أكثر فعالية، يمكن للمتجر استخدام التنقيب عن البيانات لفهم الأماكن التي يرى فيها العملاء الإعلانات، وتحديد الفئات الديموغرافية المستهدفة، وأماكن وضع الإعلانات الرقمية، وما هي استراتيجيات التسويق التي تتجاوب بشكل أكبر مع العملاء. يشمل ذلك مواءمة الحملات التسويقية، والعروض الترويجية، وعروض البيع المتقاطع، والبرامج مع نتائج التنقيب عن البيانات.

التصنيع

بالنسبة للشركات التي تنتج سلعها الخاصة، يلعب التنقيب عن البيانات دورًا أساسيًا في تحليل تكلفة كل مادة خام، وما هي المواد التي تُستخدم بكفاءة أكبر، وكيف يُستغل الوقت خلال عملية التصنيع، وما هي الاختناقات التي تؤثر سلبًا على العملية. يساعد التنقيب عن البيانات في ضمان تدفق السلع دون انقطاع.

اكتشاف الاحتيال

جوهر التنقيب عن البيانات هو العثور على الأنماط والاتجاهات والارتباطات التي تربط بين نقاط البيانات. لذلك، يمكن للشركة استخدام التنقيب عن البيانات لتحديد القيم الشاذة أو الارتباطات التي لا ينبغي أن توجد. على سبيل المثال، قد تقوم الشركة بتحليل التدفق النقدي الخاص بها وتجد معاملة متكررة إلى حساب غير معروف. إذا كان هذا غير متوقع، فقد ترغب الشركة في التحقيق فيما إذا كانت الأموال تُدار بشكل غير صحيح.

الموارد البشرية

غالبًا ما تحتوي أقسام الموارد البشرية على مجموعة واسعة من البيانات المتاحة للمعالجة، بما في ذلك بيانات عن الاحتفاظ بالموظفين، والترقيات، ونطاقات الرواتب، ومزايا الشركة، واستخدام تلك المزايا، واستطلاعات رضا الموظفين. يمكن لتقنيات التنقيب عن البيانات ربط هذه البيانات للحصول على فهم أفضل لأسباب مغادرة الموظفين وما يجذب الموظفين الجدد.

خدمة العملاء

قد يكون رضا العملاء ناتجًا عن (أو مدمرًا بسبب) العديد من الأحداث أو التفاعلات. تخيل شركة تقوم بشحن البضائع. قد يكون العميل غير راضٍ عن أوقات الشحن، أو جودة الشحن، أو الاتصالات. وقد يشعر نفس العميل بالإحباط بسبب فترات الانتظار الطويلة على الهاتف أو بطء الردود عبر البريد الإلكتروني. يقوم التنقيب عن البيانات بجمع المعلومات التشغيلية حول تفاعلات العملاء وتلخيص النتائج لتحديد نقاط الضعف وتسليط الضوء على ما تقوم به الشركة بشكل صحيح.

مزايا وعيوب التنقيب عن البيانات

فوائد التنقيب عن البيانات

  • إنه يعزز الربحية والكفاءة
  • يمكن تطبيقه على أي نوع من البيانات ومشاكل الأعمال.

  • يمكن أن يكشف عن معلومات واتجاهات مخفية

سلبيات التنقيب عن البيانات

  • إنه معقد

  • النتائج والفوائد غير مضمونة

  • يمكن أن يكون مكلفًا

المزايا الموضحة

  • تطبيقات واسعة: يمكن أن يختلف التنقيب عن البيانات بشكل كبير عبر التطبيقات، ولكن يمكن استخدام العملية العامة مع أي تطبيق جديد أو قديم تقريبًا. يمكن جمع وتحليل أي نوع من البيانات تقريبًا، ويمكن معالجة كل مشكلة تجارية تقريبًا تعتمد على الأدلة القابلة للتأهيل باستخدام التنقيب عن البيانات.
  • المعلومات والاتجاهات المخفية: الهدف النهائي من التنقيب عن البيانات هو أخذ أجزاء خام من المعلومات وتحديد ما إذا كان هناك تماسك أو ارتباط بين البيانات. هذه الفائدة من التنقيب عن البيانات تسمح للشركة بخلق قيمة من المعلومات التي تمتلكها والتي قد لا تكون واضحة بشكل كبير. على الرغم من أن نماذج البيانات يمكن أن تكون معقدة، إلا أنها يمكن أن تقدم نتائج مثيرة، وتكشف عن اتجاهات مخفية، وتقترح استراتيجيات فريدة.

شرح العيوب

  • التعقيد: يُعتبر تعقيد التنقيب عن البيانات أحد أكبر عيوبه. غالبًا ما تتطلب تحليلات البيانات مهارات تقنية وأدوات برمجية معينة. قد تجد الشركات الصغيرة أن هذا يمثل حاجز دخول يصعب التغلب عليه.
  • تكلفة عالية: هناك أيضًا عنصر تكلفة مرتبط بالتنقيب عن البيانات. قد تتطلب أدوات البيانات اشتراكات مكلفة، وقد تكون بعض البيانات باهظة الثمن للحصول عليها. يمكن تهدئة مخاوف الأمان والخصوصية، ولكن قد تكون البنية التحتية الإضافية لتكنولوجيا المعلومات مكلفة أيضًا. قد يكون التنقيب عن البيانات أكثر فعالية عند استخدام مجموعات بيانات ضخمة؛ ومع ذلك، يجب تخزين هذه المجموعات وتتطلب قوة حوسبة كبيرة لتحليلها.

تنقيب البيانات ووسائل التواصل الاجتماعي

إحدى أكثر التطبيقات ربحية لتعدين البيانات تم تنفيذها من قبل شركات وسائل التواصل الاجتماعي. تجمع المنصات مثل Facebook وTikTok وInstagram وX (المعروفة سابقًا باسم Twitter) كميات هائلة من البيانات حول مستخدميها بناءً على أنشطتهم عبر الإنترنت.

يمكن استخدام تلك البيانات لاستنتاج تفضيلاتهم. يمكن للمعلنين توجيه رسائلهم إلى الأشخاص الذين يبدو أنهم الأكثر احتمالاً للاستجابة بشكل إيجابي.

أصبح التنقيب عن البيانات على وسائل التواصل الاجتماعي نقطة جدل كبيرة، حيث أظهرت العديد من التقارير الاستقصائية والفضائح مدى التطفل الذي يمكن أن يكون عليه جمع بيانات المستخدمين. في صميم المشكلة يكمن أن المستخدمين قد يوافقون على الشروط والأحكام للمواقع دون أن يدركوا كيف يتم جمع معلوماتهم الشخصية أو لمن يتم بيع معلوماتهم.

أمثلة على التنقيب في البيانات

يمكن استخدام التنقيب عن البيانات لأغراض جيدة، أو يمكن استخدامه بشكل غير قانوني. إليك مثال على كلا الحالتين.

eBay والتجارة الإلكترونية

تجمع eBay كميات هائلة من المعلومات يوميًا من البائعين والمشترين. تستخدم الشركة التنقيب عن البيانات لتحديد العلاقات بين المنتجات، وتقييم نطاقات الأسعار المرغوبة، وتحليل أنماط الشراء السابقة، وتشكيل فئات المنتجات.

توضح eBay عملية التوصية كما يلي:

  1. يتم تجميع بيانات العناصر الخام وبيانات المستخدم التاريخية.
  2. يتم تشغيل السكربتات على نموذج مدرب لتوليد وتوقع العنصر والمستخدم.
  3. يتم إجراء بحث KNN.
  4. يتم كتابة النتائج في قاعدة بيانات.
  5. التوصية في الوقت الفعلي تأخذ معرف المستخدم، وتستدعي نتائج قاعدة البيانات، وتعرضها للمستخدم.

فضيحة فيسبوك-كامبريدج أناليتيكا

مثال تحذيري على التنقيب في البيانات هو فضيحة بيانات فيسبوك-كامبريدج أناليتيكا. خلال العقد الثاني من القرن الحادي والعشرين، قامت شركة الاستشارات البريطانية كامبريدج أناليتيكا المحدودة بجمع بيانات شخصية من ملايين مستخدمي فيسبوك. تم تحليل هذه المعلومات لاحقًا لاستخدامها في الحملات الرئاسية لعام 2016 لكل من تيد كروز ودونالد ترامب. يُشتبه في أن كامبريدج أناليتيكا تدخلت في أحداث بارزة أخرى مثل استفتاء خروج بريطانيا من الاتحاد الأوروبي.

في ضوء هذا التنقيب غير المناسب عن البيانات وسوء استخدام بيانات المستخدمين، وافقت فيسبوك على دفع 100 مليون دولار لتضليل المستثمرين بشأن استخداماتها لبيانات المستهلكين. وادعت هيئة الأوراق المالية والبورصات أن فيسبوك اكتشفت سوء الاستخدام في عام 2015 لكنها لم تصحح إفصاحاتها لأكثر من عامين.

ما هي أنواع تنقيب البيانات؟

هناك نوعان رئيسيان من التنقيب عن البيانات: التنقيب التنبؤي عن البيانات والتنقيب الوصفي عن البيانات. التنقيب التنبؤي عن البيانات يستخرج البيانات التي قد تكون مفيدة في تحديد نتيجة معينة. التنقيب الوصفي عن البيانات يُعلم المستخدمين بالنتيجة المعطاة.

كيف يتم التنقيب عن البيانات؟

يعتمد التنقيب عن البيانات على البيانات الضخمة وعمليات الحوسبة المتقدمة بما في ذلك التعلم الآلي وأشكال أخرى من الذكاء الاصطناعي (AI). الهدف هو العثور على أنماط يمكن أن تؤدي إلى استنتاجات أو تنبؤات من مجموعات بيانات كبيرة وغير منظمة.

ما هو مصطلح آخر للتنقيب عن البيانات؟

يُعرف التنقيب عن البيانات أيضًا بالمصطلح الأقل استخدامًا "اكتشاف المعرفة في البيانات"، أو KDD.

أين يُستخدم التنقيب عن البيانات؟

تم تصميم تطبيقات التنقيب عن البيانات لتتناول تقريبًا أي مسعى يعتمد على البيانات الضخمة. تبحث الشركات في القطاع المالي عن الأنماط في الأسواق. تحاول الحكومات تحديد التهديدات الأمنية المحتملة. تستخدم الشركات، وخاصة الشركات عبر الإنترنت ووسائل التواصل الاجتماعي، التنقيب عن البيانات لإنشاء حملات إعلانية وتسويقية مربحة تستهدف مجموعات محددة من المستخدمين.

الخلاصة

تمتلك الشركات الحديثة القدرة على جمع المعلومات حول عملائها ومنتجاتها وخطوط التصنيع والموظفين والمتاجر. قد لا تروي هذه القطع العشوائية من المعلومات قصة، ولكن استخدام تقنيات وأدوات وتطبيقات التنقيب عن البيانات يساعد في تجميع المعلومات.

الهدف النهائي من عملية التنقيب عن البيانات هو تجميع البيانات، وتحليل النتائج، وتنفيذ استراتيجيات تشغيلية بناءً على نتائج التنقيب عن البيانات.