الإحصاءات الوصفية: التعريف، النظرة العامة، الأنواع، والأمثلة

الإحصاءات الوصفية: التعريف، النظرة العامة، الأنواع، والأمثلة

(الإحصاءات الوصفية : descriptive statistics)

ما هي الإحصاءات الوصفية؟

الإحصائيات الوصفية هي معاملات معلوماتية موجزة تلخص مجموعة بيانات معينة، والتي يمكن أن تكون تمثيلًا لكامل المجتمع أو عينة من المجتمع. يتم تقسيم الإحصائيات الوصفية إلى مقاييس النزعة المركزية ومقاييس التشتت (الانتشار). تشمل مقاييس النزعة المركزية المتوسط، الوسيط، والمنوال، بينما تشمل مقاييس التشتت الانحراف المعياري، التباين، المتغيرات الدنيا والقصوى، التفلطح، والالتواء.

النقاط الرئيسية

  • الإحصاءات الوصفية تلخص أو تصف خصائص مجموعة البيانات.
  • تتكون الإحصائيات الوصفية من ثلاث فئات أساسية من المقاييس: مقاييس النزعة المركزية، مقاييس التشتت (أو الانتشار)، وتوزيع التكرار.
  • تصف مقاييس النزعة المركزية مركز مجموعة البيانات (المتوسط، الوسيط، المنوال).
  • تصف مقاييس التشتت مدى انتشار مجموعة البيانات (التباين، الانحراف المعياري).
  • تصف مقاييس توزيع التكرار حدوث البيانات داخل مجموعة البيانات (العدد).

فهم الإحصاءات الوصفية

تساعد الإحصائيات الوصفية في وصف وشرح خصائص مجموعة بيانات معينة من خلال تقديم ملخصات قصيرة حول العينة وقياسات البيانات. تُعتبر مقاييس المركز من أكثر أنواع الإحصائيات الوصفية شهرة. على سبيل المثال، يتم استخدام المتوسط، والوسيط، والمنوال في جميع مستويات الرياضيات والإحصاء تقريبًا لتعريف ووصف مجموعة البيانات. يتم حساب المتوسط، أو المعدل، عن طريق جمع جميع الأرقام داخل مجموعة البيانات ثم القسمة على عدد الأرقام داخل المجموعة.

على سبيل المثال، مجموع مجموعة البيانات التالية هو 20: (2، 3، 4، 5، 6). المتوسط هو 4 (20/5). الوضع في مجموعة البيانات هو القيمة التي تظهر بشكل متكرر، والوسيط هو الرقم الموجود في منتصف مجموعة البيانات. إنه الرقم الذي يفصل الأرقام الأعلى عن الأرقام الأدنى داخل مجموعة البيانات. ومع ذلك، هناك أنواع أقل شيوعًا من الإحصاءات الوصفية التي لا تزال مهمة جدًا.

يستخدم الناس الإحصائيات الوصفية لإعادة صياغة الأفكار الكمية الصعبة الفهم عبر مجموعة بيانات كبيرة إلى أوصاف سهلة الفهم. على سبيل المثال، يوفر المعدل التراكمي للطالب (GPA) فهماً جيداً للإحصائيات الوصفية. فكرة المعدل التراكمي هي أنه يأخذ نقاط البيانات من مجموعة من درجات الدورات الفردية، ويقوم بحساب متوسطها معاً لتقديم فهم عام لأداء الطالب الأكاديمي بشكل عام. يعكس المعدل التراكمي الشخصي للطالب متوسط أدائه الأكاديمي.

الإحصائيات الوصفية، خاصة في مجالات مثل الطب، غالبًا ما تعرض البيانات بصريًا باستخدام الرسوم البيانية النقطية، والهيستوجرامات، والرسوم البيانية الخطية، أو عروض الجذع والأوراق. سنتحدث أكثر عن المرئيات لاحقًا في هذه المقالة.

أنواع الإحصاءات الوصفية

جميع الإحصائيات الوصفية إما أن تكون مقاييس للنزعة المركزية أو مقاييس للتغير، والمعروفة أيضًا بمقاييس التشتت.

الميل المركزي

تُركّز مقاييس النزعة المركزية على القيم المتوسطة أو الوسطى لمجموعات البيانات، بينما تُركّز مقاييس التشتت على انتشار البيانات. تُستخدم هذه المقاييس الرسوم البيانية والجداول والمناقشات العامة لمساعدة الناس على فهم معنى البيانات المُحلّلة.

تصف مقاييس النزعة المركزية موقع المركز لتوزيع مجموعة بيانات. يقوم الشخص بتحليل تكرار كل نقطة بيانات في التوزيع ويصفها باستخدام المتوسط أو الوسيط أو المنوال، والتي تقيس الأنماط الأكثر شيوعًا لمجموعة البيانات التي تم تحليلها.

مقاييس التشتت

تساعد مقاييس التشتت (أو مقاييس الانتشار) في تحليل مدى تشتت التوزيع لمجموعة من البيانات. على سبيل المثال، بينما قد تقدم مقاييس النزعة المركزية للشخص متوسط مجموعة البيانات، فإنها لا تصف كيفية توزيع البيانات داخل المجموعة.

بينما قد يكون متوسط البيانات 65 من 100، يمكن أن توجد نقاط بيانات عند 1 و100. تساعد مقاييس التباين في توضيح ذلك من خلال وصف شكل وانتشار مجموعة البيانات. النطاق، الرباعيات، الانحراف المطلق، والتباين هي أمثلة على مقاييس التباين.

النظر في مجموعة البيانات التالية: 5، 19، 24، 62، 91، 100. مدى هذه المجموعة من البيانات هو 95، والذي يتم حسابه بطرح أصغر رقم (5) في مجموعة البيانات من أكبر رقم (100).

توزيع

التوزيع (أو توزيع التكرار) يشير إلى عدد المرات التي يظهر فيها نقطة بيانات معينة. بدلاً من ذلك، يمكن أن يشير إلى عدد المرات التي لا تظهر فيها نقطة بيانات معينة. لنأخذ بعين الاعتبار مجموعة البيانات التالية: ذكر، ذكر، أنثى، أنثى، أنثى، أخرى. يمكن تصنيف توزيع هذه البيانات على النحو التالي:

  • عدد الذكور في مجموعة البيانات هو 2.
  • عدد الإناث في مجموعة البيانات هو 3.
  • عدد الأفراد الذين يعرّفون أنفسهم كـ "آخر" هو 1.
  • عدد غير الذكور هو 4.

أحادي المتغير مقابل ثنائي المتغير

في الإحصاءات الوصفية، يتم تحليل البيانات أحادية المتغير من خلال متغير واحد فقط. يُستخدم هذا النوع من التحليل لتحديد خصائص سمة واحدة ولا يُستخدم لتحليل أي علاقات أو أسباب.

على سبيل المثال، تخيل غرفة مليئة بطلاب المدارس الثانوية. لنفترض أنك تريد جمع متوسط أعمار الأفراد في الغرفة. هذه البيانات الأحادية المتغير تعتمد فقط على عامل واحد: عمر كل شخص. من خلال جمع هذه المعلومة الواحدة من كل شخص وقسمتها على العدد الإجمالي للأشخاص، يمكنك تحديد متوسط العمر.

البيانات الثنائية، من ناحية أخرى، تحاول ربط متغيرين من خلال البحث عن الارتباط. يتم جمع نوعين من البيانات، ويتم تحليل العلاقة بين قطعتين من المعلومات معًا. نظرًا لأنه يتم تحليل متغيرات متعددة، قد يُشار إلى هذا النهج أيضًا باسم متعدد المتغيرات.

لنقل إن كل طالب في المدرسة الثانوية في المثال أعلاه يخضع لاختبار تقييم للكلية، ونريد أن نرى ما إذا كان الطلاب الأكبر سنًا يحققون نتائج أفضل من الطلاب الأصغر سنًا. بالإضافة إلى جمع أعمار الطلاب، نحتاج إلى معرفة درجة كل طالب في الاختبار. ثم، باستخدام تحليلات البيانات، نقوم بتصوير ما إذا كان هناك علاقة بين عمر الطالب ودرجات الاختبار بشكل رياضي أو بياني.

الإحصاءات الوصفية والمرئيات

أحد الجوانب الأساسية في الإحصاء الوصفي هو التمثيل البياني. يمكن أن يكون تصور توزيع البيانات بشكل فعال قويًا للغاية، ويتم ذلك بعدة طرق.

الرسوم البيانية هي أدوات لعرض توزيع البيانات الرقمية. تقوم بتقسيم البيانات إلى فئات أو فواصل وتمثل تكرار أو عدد النقاط البيانية التي تقع في كل فئة من خلال أعمدة ذات ارتفاعات مختلفة. تساعد الرسوم البيانية في تحديد شكل التوزيع، والنزعة المركزية، وتباين البيانات.

تصور آخر هو الرسوم البيانية الصندوقية. الرسوم البيانية الصندوقية، والمعروفة أيضًا باسم الرسوم البيانية الصندوقية والشاربة، تقدم ملخصًا موجزًا لتوزيع البيانات من خلال تسليط الضوء على إحصائيات الملخص الرئيسية بما في ذلك الوسيط (الخط الأوسط داخل الصندوق)، والرباعيات (حواف الصندوق)، والقيم المتطرفة المحتملة (النقاط خارج الصندوق، أو "الشارب"). الرسوم البيانية الصندوقية تصور بصريًا انتشار البيانات وانحرافها، وهي مفيدة بشكل خاص لمقارنة التوزيعات عبر مجموعات أو متغيرات مختلفة.

الإحصاءات الوصفية والقيم المتطرفة

عند مناقشة الإحصائيات الوصفية، من المهم الإشارة إلى القيم المتطرفة. القيم المتطرفة هي نقاط بيانات تختلف بشكل كبير عن الملاحظات الأخرى في مجموعة البيانات. قد تكون هذه القيم أخطاء، أو شذوذات، أو أحداث نادرة داخل البيانات.

يُعتبر اكتشاف وإدارة القيم الشاذة خطوة في الإحصاء الوصفي لضمان تحليل بيانات دقيق وموثوق. لتحديد القيم الشاذة، يمكنك استخدام تقنيات رسومية (مثل الرسوم الصندوقية أو الرسوم البيانية النقطية) أو طرق إحصائية (مثل درجة Z أو طريقة IQR). تساعد هذه الأساليب في تحديد الملاحظات التي تنحرف بشكل كبير عن النمط العام للبيانات.

يمكن أن يكون لوجود القيم الشاذة تأثير ملحوظ على الإحصاءات الوصفية، مما يؤدي إلى تحريف النتائج والتأثير على تفسير البيانات. يمكن للقيم الشاذة أن تؤثر بشكل غير متناسب على مقاييس النزعة المركزية، مثل المتوسط، حيث تسحبه نحو قيمها القصوى. على سبيل المثال، متوسط مجموعة البيانات (1، 1، 1، 997) هو 250، على الرغم من أن ذلك بالكاد يمثل مجموعة البيانات بشكل دقيق. يمكن لهذا التشويه أن يؤدي إلى استنتاجات مضللة حول السلوك النموذجي لمجموعة البيانات.

اعتمادًا على السياق، يمكن في كثير من الأحيان معالجة القيم الشاذة عن طريق إزالتها (إذا كانت خاطئة أو غير ذات صلة بالفعل). بدلاً من ذلك، قد تحتوي القيم الشاذة على معلومات مهمة ويجب الاحتفاظ بها للقيمة التي قد تكون قادرة على إظهارها. أثناء تحليل بياناتك، فكر في مدى أهمية ما يمكن أن تساهم به القيم الشاذة وما إذا كان من المنطقي أكثر حذف تلك النقاط من حسابات الإحصاءات الوصفية الخاصة بك.

الإحصاءات الوصفية مقابل الإحصاءات الاستدلالية

الإحصائيات الوصفية لها وظيفة مختلفة عن الإحصائيات الاستدلالية، حيث تُستخدم الإحصائيات الاستدلالية لاتخاذ القرارات أو لتطبيق خصائص من مجموعة بيانات واحدة على أخرى.

تخيل مثالًا آخر حيث تبيع شركة صلصة حارة. تجمع الشركة بيانات مثل عدد المبيعات، ومتوسط الكمية المشتراة لكل معاملة، ومتوسط المبيعات لكل يوم من أيام الأسبوع. كل هذه المعلومات وصفية، حيث تروي قصة ما حدث بالفعل في الماضي. في هذه الحالة، لا يتم استخدامها لأغراض أخرى سوى كونها معلوماتية.

الآن لنفترض أن الشركة تريد إطلاق صلصة حارة جديدة. تجمع نفس بيانات المبيعات المذكورة أعلاه، لكنها تستخدم المعلومات لإجراء توقعات حول ما ستكون عليه مبيعات الصلصة الحارة الجديدة. إن استخدام الإحصاءات الوصفية وتطبيق الخصائص على مجموعة بيانات مختلفة يجعل مجموعة البيانات إحصاءات استدلالية. لم نعد نقوم فقط بتلخيص البيانات؛ بل نستخدمها للتنبؤ بما سيحدث فيما يتعلق بمجموعة بيانات مختلفة تمامًا (في هذه الحالة، منتج الصلصة الحارة الجديد).

ما هي الإحصاءات الوصفية؟

الإحصائيات الوصفية هي وسيلة لوصف خصائص مجموعة بيانات من خلال توليد ملخصات حول عينات البيانات. على سبيل المثال، قد يتضمن تعداد السكان إحصائيات وصفية تتعلق بنسبة الرجال إلى النساء في مدينة معينة.

ما هي أمثلة على الإحصاءات الوصفية؟

عند تلخيص موسم دوري البيسبول الرئيسي، قد تتضمن الإحصائيات الوصفية معدلات ضرب الفرق، وعدد النقاط المسموح بها لكل فريق، ومتوسط الانتصارات لكل قسم.

ما هو الغرض الرئيسي من الإحصاءات الوصفية؟

الهدف الرئيسي من الإحصاءات الوصفية هو تقديم معلومات حول مجموعة بيانات. في المثال أعلاه، هناك عشرات من فرق البيسبول، ومئات من اللاعبين، وآلاف من المباريات. تلخص الإحصاءات الوصفية كميات كبيرة من البيانات إلى أجزاء مفيدة من المعلومات.

ما هي أنواع الإحصاءات الوصفية؟

الأنواع الثلاثة الرئيسية للإحصاءات الوصفية هي توزيع التكرار، والنزعة المركزية، وتباين مجموعة البيانات. يسجل توزيع التكرار مدى تكرار حدوث البيانات، بينما تسجل النزعة المركزية نقطة المركز لتوزيع البيانات، ويسجل تباين مجموعة البيانات درجة تشتتها.

هل يمكن استخدام الإحصاءات الوصفية لاستنتاجات أو توقعات؟

من الناحية التقنية، تساعد الإحصائيات الوصفية فقط في فهم خصائص البيانات التاريخية. تُستخدم الإحصائيات الاستدلالية، وهي فرع منفصل من الإحصائيات، لفهم كيفية تفاعل المتغيرات مع بعضها البعض في مجموعة البيانات وربما التنبؤ بما قد يحدث في المستقبل.

الخلاصة

تشير الإحصائيات الوصفية إلى تحليل وتلخيص وتوصيل النتائج التي تصف مجموعة من البيانات. وعلى الرغم من أنها غالبًا ما تكون غير مفيدة في اتخاذ القرارات، إلا أن الإحصائيات الوصفية لا تزال تحمل قيمة في توضيح ملخصات عالية المستوى لمجموعة من المعلومات مثل المتوسط، الوسيط، المنوال، التباين، النطاق، وعدد المعلومات.