ما هو المتوسط المقتطع؟
المتوسط المقتطع هو طريقة لحساب المتوسط تبدأ باستبدال القيم الأصغر والأكبر بالملاحظات الأقرب إليها. يتم ذلك للحد من تأثير القيم الشاذة أو القيم المتطرفة غير الطبيعية على الحساب.
بعد استبدال القيم، يتم استخدام صيغة المتوسط الحسابي لحساب المتوسط الموزون.
النقاط الرئيسية
- المتوسط المقتطع هو طريقة حساب متوسط تتضمن استبدال أصغر وأكبر القيم في مجموعة البيانات بالملاحظات الأقرب إليها.
- يخفف من تأثير القيم الشاذة عن طريق استبدالها بقيم أقل تطرفًا.
- المتوسط المربوط ليس هو نفسه المتوسط المقتطع، والذي يتضمن إزالة نقاط البيانات بدلاً من استبدالها، على الرغم من أن نتائج الاثنين تميل إلى أن تكون متقاربة.
- المتوسط المقتطع ليس هو نفسه المتوسط الحسابي الذي لا يقوم بتعديل القيم الشاذة.
صيغة المتوسط المقتطع
متوسط وينسورايزد = (x_n ... x_{n+1} + x_{n+2} ... x_n) / N
حيث:
n = عدد أكبر وأصغر نقاط البيانات التي سيتم استبدالها بالملاحظة الأقرب إليها
N = العدد الإجمالي لنقاط البيانات
يتم التعبير عن المتوسطات المعدلة بطريقتين. يشير المتوسط المعدل "kn" إلى استبدال "k" من أصغر وأكبر الملاحظات، حيث "k" هو عدد صحيح. بينما يشير المتوسط المعدل "X%" إلى استبدال نسبة مئوية معينة من القيم من كلا طرفي البيانات.
يتم تحقيق المتوسط المقتطع عن طريق استبدال أصغر وأكبر نقاط البيانات، ثم جمع جميع نقاط البيانات وقسمة المجموع على العدد الإجمالي لنقاط البيانات.
ماذا يخبرك المتوسط الموزون؟
المتوسط المقتطع أقل حساسية للقيم المتطرفة لأنه يمكن أن يستبدلها بقيم أقل تطرفًا. بمعنى آخر، يكون أقل عرضة للتأثر بالقيم المتطرفة مقارنة بالمتوسط الحسابي. ومع ذلك، إذا كان التوزيع يحتوي على ذيول سميكة، فإن تأثير إزالة القيم الأعلى والأدنى في التوزيع سيكون له تأثير ضئيل بسبب الدرجة العالية من التباين في أرقام التوزيع.
أحد العيوب الرئيسية لاستخدام المتوسطات المعدلة (Winsorized means) هو أنها بطبيعتها تُدخل بعض التحيز في مجموعة البيانات. من خلال تقليل تأثير القيم المتطرفة، يتم تعديل التحليل ليكون أفضل، ولكنه أيضًا يزيل بعض المعلومات عن البيانات الأساسية.
### نقاط القوة في المتوسط المقصوص
هناك عدة حالات يكون فيها استخدام المتوسط المقتطع هو الأفضل. هذه الحالات العامة مذكورة أدناه، مع أمثلة أكثر تحديدًا عن الأماكن التي قد يكون فيها المتوسط المقتطع الأكثر فائدة في القسم التالي. الأوقات التي يكون من الأفضل فيها استخدام المتوسط المقتطع تشمل عندما يكون هناك:
- القيم الشاذة في مجموعة البيانات. استخدام المتوسط الحسابي التقليدي قد يؤدي إلى نتائج خاطئة عندما تحتوي مجموعة البيانات الخاصة بك على قيم شاذة، أو قيم متطرفة تختلف بشكل كبير عن النقاط الأخرى في البيانات. يوفر المتوسط المعدل (Winsorized mean) تمثيلاً أكثر دقة للاتجاه المركزي ويقلل من تأثير هذه القيم الشاذة.
- التوزيعات المنحرفة. يمكن أن يكون المتوسط الموزون مفيدًا لمجموعات البيانات ذات التوزيعات المنحرفة بشكل كبير. في التوزيعات المنحرفة، قد توجد قيم متطرفة وذيل طويل في أحد الجانبين. لتقليل الانحراف وخلق تقدير أكثر موثوقية للنزعة المركزية، يتم استخدام التوزين.
- البيانات مع أخطاء القياس. قد تتسبب أخطاء القياس في ظهور القيم المتطرفة عندما تكون موجودة في البيانات. يمكن تقليل هذه الأخطاء في القياس باستخدام المتوسط المقتطع.
- التقلبات المؤقتة في القيمة. يمكن أن يكون المتوسط المقتطع مفيدًا في الحالات التي قد تؤدي فيها التغيرات المؤقتة في البيانات إلى أرقام متطرفة، لأنه مقاوم لهذه التقلبات. بمرور الوقت، يصبح المتوسط المقتطع أكثر موثوقية واستقرارًا من خلال استبدال هذه القيم الشاذة.
- حجم العينة المحدود: عندما يكون هناك عدد قليل من النقاط البيانية وحجم عينة صغير، قد يكون تأثير القيم المتطرفة على المتوسط التقليدي أكبر. في هذه الحالات، يمكن أن يوفر المتوسط المقتطع تقديرًا أكثر دقة للنزعة المركزية.
مستوى المتوسط المقتطع
مستوى التعديل (winsorization) مهم جدًا لاستخدام المتوسط المعدل بشكل فعال. يحدد مستوى التعديل النسبة المئوية للقيم المتطرفة التي سيتم استبدالها بقيم أقل تطرفًا. لتحديد مستوى التعديل المناسب، يجب النظر في استكشاف البيانات، والاعتماد على المعرفة في المجال، وإجراء تحليلات الحساسية، والتشاور مع الخبراء الذين قد يكونون أكثر دراية بما قد تبدو عليه القيم المتطرفة.
عند تقييم مستوى التعديل باستخدام تقنية "وينسورايزد"، فإن فهم طبيعة القيم المتطرفة وأسبابها يمكن أن يساعد في تحديد المستوى المناسب. يمكن للقيم المتطرفة أن تؤثر على التحليل الإحصائي، لذا قد يكون من المفيد استخدام مستوى تعديل أعلى إذا كانت تؤثر بشكل غير ملائم على النتائج. ومع ذلك، قد يكون المستوى الأدنى أكثر ملاءمة إذا كان الهدف هو الحفاظ على بعض الخصائص الأصلية للبيانات. عند اختيار المستوى، قم بتقييم مدى أهمية الحفاظ على تكوين البيانات الأصلية بالنسبة لك.
في العديد من الحالات، يكون من الضروري امتلاك معرفة بمجال البيانات عند تحديد مستوى التعديل (winsorization). فكر في أي مجموعة بيانات وما سيكون النطاق النموذجي للقيم. بدون المعرفة التاريخية والضمنية بالصناعة، سيكون من الصعب جدًا تحديد البيانات السيئة. في بعض الحالات، يكون من الضروري إجراء التجارب لملاحظة كيف يتغير المتوسط المعدل (winsorized mean) مع المستويات المختلفة.
متوسط وينسورايد والمواقف الواقعية
بشكل أكثر تحديدًا، هناك عدد من الحالات أو الصناعات التي يكون فيها المتوسط المقتطع أكثر منطقية من أشكال القياس الأخرى. قد تشمل هذه الحالات الواقعية، ولكنها ليست محدودة بالفئات التالية.
المالية/الاستثمارات
تقلبات السوق يمكن أن يكون لها تأثير كبير على البيانات المالية. قد تظهر أسعار الأسهم، وعوائد الأصول، ومؤشرات مالية أخرى مستويات متطرفة في عالم المال والاستثمار. يمكن تقليل تأثير تقلبات الأسعار الشديدة والقيم المتطرفة عندما يتم حساب تقديرات البيانات المالية باستخدام المتوسط المربوط.
الرواتب/الأجور
توزيعات الرواتب أو الرواتب داخل الشركات يمكن أن تكون في بعض الأحيان منحرفة بشكل كبير. هذا صحيح بشكل خاص في القطاعات التي يوجد فيها فجوة كبيرة في الدخل أو القطاعات التي تكافئ بشكل كبير أولئك الذين قضوا فترة طويلة في الصناعة أو "تعاقب" أولئك الذين بدأوا للتو حياتهم المهنية. من خلال تقليل تأثير الدخل المرتفع أو المنخفض بشكل غير طبيعي، يمكن أن يساعد المتوسط المقتطع في توفير قياس أكثر دقة لنطاق الرواتب النموذجي.
الرعاية الصحية
بسبب الأمراض الطبية النادرة أو الإجراءات المتطرفة، قد تحتوي البيانات الطبية على قيم شاذة. يمكن فهم المؤشرات الصحية مثل ضغط الدم، مستويات الكوليسترول، أو فترات تعافي المرضى بشكل أفضل إذا تمت إزالة القيم المتطرفة. على سبيل المثال، قد تكون المعلومات أكثر فائدة عند معرفة متوسط جماعي للمرضى إذا لم يكن هناك انحراف في مجموعة البيانات بسبب قراءات طبية مرتفعة أو منخفضة بشكل غير طبيعي.
التعليم
بسبب مجموعة متنوعة من العوامل، قد يحصل بعض الأطفال على نتائج اختبارات مرتفعة أو منخفضة بشكل غير عادي. قد لا يكون من المفيد دمج هذه الدرجات غير الطبيعية عند تقييم أداء مجموعة معينة؛ لذلك، يمكن حساب متوسط درجة التقييم باستخدام "المتوسط المونسوري" لإزالة أي تأثيرات سلبية (أو إيجابية) قد يكون لها الطالب عند تقييم كيفية إدراك معلم أو دورة معينة.
رضا العملاء
على نفس المنوال، عند تقييم تقييمات رضا العملاء، قد تظهر القيم المتطرفة لأن نسبة صغيرة من المستهلكين قدموا تعليقات إيجابية أو سلبية للغاية. في المثال السابق المتعلق بفصل دراسي، ربما يقوم طالب واحد غير راضٍ بخفض درجة تقييم الدورة. يمكن أن يساعد المتوسط الموزون (Winsorized mean) في تقليل تأثير هذه الدرجات المتطرفة وإنتاج صورة أكثر واقعية عن السعادة العامة.
بيانات البيئة
مع حدوث ظواهر جوية غير شائعة أو ظروف جوية قاسية بشكل متزايد، قد تكون هناك حالات يكون فيها من المفيد استخدام بيانات بيئية بدون هذه الحالات القصوى. على سبيل المثال، النظر في قياس متوسط جودة الهواء أو كمية تلوث المياه. قد تؤدي مستويات التلوث العالية أو المنخفضة بشكل غير طبيعي في أي من السياقين إلى تضليل صانعي القرار في فهم ما قد يكون الوضع اليومي المتوسط؛ على سبيل المثال، قد يتم تخصيص الموارد الاقتصادية البيئية بشكل غير صحيح.
مثال على كيفية استخدام المتوسط المقتطع
دعونا نحسب المتوسط المقتطع (winsorized mean) لمجموعة البيانات التالية: 1، 5، 7، 8، 9، 10، 34. في هذا المثال، نفترض أن المتوسط المقتطع هو من الدرجة الأولى، حيث نستبدل أصغر وأكبر القيم بأقرب الملاحظات لها.
تظهر مجموعة البيانات الآن كما يلي: 5، 5، 7، 8، 9، 10، 10. أخذ المتوسط الحسابي للمجموعة الجديدة ينتج عنه متوسط وينسورايزد قدره 7.7، أو (5 + 5 + 7 + 8 + 9 + 10 + 10) مقسومًا على 7. لاحظ أن المتوسط الحسابي كان سيكون أعلى - 10.6. يقلل المتوسط الوينسورايزد بشكل فعال من تأثير القيمة 34 كقيمة شاذة.
أو فكر في المتوسط المربوط بنسبة 20% الذي يأخذ أعلى 10% وأدنى 10% ويستبدلها بأقرب قيمة تالية لها. سنقوم بتطبيق الربط على مجموعة البيانات التالية: 2، 4، 7، 8، 11، 14، 18، 23، 23، 27، 35، 40، 49، 50، 55، 60، 61، 61، 62، 75. سيتم استبدال أصغر نقطتين وأكبر نقطتين في البيانات—20% من 20 نقطة بيانات—بأقرب قيمة تالية لها. وبالتالي، تصبح مجموعة البيانات الجديدة كما يلي: 7، 7، 7، 8، 11، 14، 18، 23، 23، 27، 35، 40، 49، 50، 55، 60، 61، 61، 61، 61. المتوسط المربوط هو 33.9، أو مجموع البيانات (678) مقسومًا على العدد الكلي لنقاط البيانات (20).
المتوسط المقتطع مقابل القياسات الأخرى
هناك عدة أشكال شائعة أخرى لـ "المتوسط"، كل منها يختلف قليلاً عن المتوسط المقتطع. أيضًا، هناك قياسات أخرى مثل الوسيط التي تقدم معلومات مشابهة ولكن مختلفة. بشكل عام، تم تصميم المتوسط المقتطع ليكون أكثر مقاومة للقيم المتطرفة مقارنة بأنواع المتوسطات الأخرى. قد تشمل هذه الأنواع الأخرى من القياسات:
- المتوسط التقليدي/الحسابي: يتم حساب المتوسط التقليدي، المعروف أيضًا بالمتوسط الحسابي، عن طريق جمع جميع النقاط في مجموعة البيانات ثم القسمة على عدد النقاط. يكون هذا المتوسط حساسًا للقيم المتطرفة ويمكن أن يتأثر بشكل كبير بالقيم الشاذة.
- الوسيط: الوسيط ليس حسابًا للمتوسط على الإطلاق؛ بل يمثل القيمة الوسطى لمجموعة بيانات عند ترتيبها تصاعديًا أو تنازليًا. على عكس المتوسط التقليدي، لا يتأثر الوسيط بالقيم المتطرفة لأنه يأخذ في الاعتبار فقط القيمة أو القيم المركزية في مجموعة البيانات.
هل يمكن للمتوسط المقتطع التعامل مع العديد من القيم الشاذة؟
نعم، يمكن للمتوسط المقتطع التعامل مع العديد من القيم الشاذة داخل مجموعة البيانات. فهو يقوم بشكل فعال باستبدال النسبة المحددة من القيم المتطرفة، بغض النظر عن عدد القيم الشاذة الموجودة. من خلال استبدال القيم الشاذة المتعددة بقيم أقل تطرفًا، يظل المتوسط المقتطع أقل حساسية لتأثير هذه القيم الشاذة.
هل يمكن استخدام المتوسط المقتطع مع البيانات غير الرقمية؟
ليس حقًا. يُصمم المتوسط المقتطع بشكل أساسي للبيانات الرقمية، حيث يتضمن استبدال القيم المتطرفة الرقمية بقيم رقمية أخرى. بالنسبة للبيانات غير الرقمية، مثل المتغيرات الفئوية أو البيانات النصية، قد تكون هناك مقاييس إحصائية قوية أخرى أو تقنيات معالجة مسبقة أكثر ملاءمة.
هل يعني التعديل بطريقة وينسور الحفاظ على تباين البيانات؟
يحتفظ المتوسط المقتطع (Winsorized mean) بتنوع البيانات أكثر من المتوسط المقطوع (trimmed mean)، حيث يقوم فقط باستبدال القيم المتطرفة بقيم أقرب إلى الجزء المركزي من مجموعة البيانات. لذلك، فإنه يحافظ على مدى البيانات الأصلي وتنوعها بشكل أكبر، مما يجعله خيارًا مرغوبًا في الحالات التي يكون فيها الحفاظ على التنوع أمرًا ضروريًا.
كيف يؤثر المتوسط المقتطع على اختبار الفرضيات؟
يمكن أن يؤثر المتوسط المقتطع (Winsorized mean) على نتائج اختبار الفرضيات من خلال تقليل تأثير القيم المتطرفة على الاختبارات الإحصائية. في الحالات التي قد تؤدي فيها القيم الشاذة إلى استنتاجات خاطئة، يمكن أن يوفر المتوسط المقتطع نتائج اختبار أكثر موثوقية، مما يجعله أداة مفيدة في اختبار الفرضيات مع البيانات غير الطبيعية أو المنحرفة.
الخلاصة
المتوسط المقتطع هو مقياس إحصائي يُستخدم لحساب متوسط مجموعة بيانات عن طريق استبدال نسبة محددة من القيم المتطرفة أو الشواذ بقيم أقل تطرفًا. هذه الطريقة تقلل من تأثير القيم المتطرفة، مما يوفر تقديرًا أكثر قوة للنزعة المركزية يكون أقل حساسية للقيم المتطرفة مقارنة بالمتوسط الحسابي التقليدي.