اختبارات جودة الملاءمة: فهم وتطبيقات في الإحصائيات

اختبارات جودة الملاءمة: فهم وتطبيقات في الإحصائيات

(ملاءمة الجودة : goodness-of-fit)

ما هو مدى ملاءمة النموذج؟

يشير مصطلح جودة الملاءمة إلى اختبار إحصائي يحدد مدى توافق بيانات العينة مع توزيع من مجتمع ذي توزيع طبيعي. ببساطة، يفترض ما إذا كانت العينة منحرفة أو تمثل البيانات التي تتوقع العثور عليها في المجتمع الفعلي.

يحدد مدى ملاءمة النموذج الفجوة بين القيم الملاحظة وتلك المتوقعة من النموذج في حالة التوزيع الطبيعي. هناك عدة طرق لتحديد مدى ملاءمة النموذج، بما في ذلك اختبار كاي-تربيع.

النقاط الرئيسية

  • اختبار جودة المطابقة هو اختبار إحصائي يحاول تحديد ما إذا كانت مجموعة من القيم الملاحظة تتطابق مع تلك المتوقعة وفقًا للنموذج المعمول به.
  • يمكنهم أن يوضحوا لك ما إذا كانت بيانات عينتك تتناسب مع مجموعة بيانات متوقعة من مجتمع ذي توزيع طبيعي.
  • هناك أنواع متعددة من اختبارات جودة المطابقة، ولكن الأكثر شيوعًا هو اختبار كاي تربيع.
  • يحدد اختبار كاي تربيع ما إذا كانت هناك علاقة بين البيانات الفئوية.
  • يحدد اختبار كولموغوروف-سميرنوف ما إذا كانت العينة تأتي من توزيع محدد للسكان.

فهم مدى ملاءمة النموذج (Goodness-of-Fit)

اختبارات جودة المطابقة هي طرق إحصائية تستخلص استنتاجات حول القيم الملاحظة. على سبيل المثال، يمكنك تحديد ما إذا كانت مجموعة العينة تمثل حقًا السكان بالكامل. وبالتالي، تحدد هذه الاختبارات كيفية ارتباط القيم الفعلية بالقيم المتوقعة في نموذج معين. عند استخدامها في اتخاذ القرارات، تجعل اختبارات جودة المطابقة من السهل التنبؤ بـ الاتجاهات والأنماط في المستقبل.

كما هو مذكور أعلاه، هناك عدة أنواع من اختبارات جودة المطابقة. تشمل هذه الاختبارات اختبار كاي-تربيع، وهو الأكثر شيوعًا، بالإضافة إلى اختبار كولموغوروف-سميرنوف، واختبار شابيرو-ويلك. تُجرى هذه الاختبارات عادةً باستخدام برامج الكمبيوتر. ولكن يمكن للإحصائيين إجراء هذه الاختبارات باستخدام صيغ مخصصة لنوع الاختبار المحدد.

لإجراء الاختبار، تحتاج إلى متغير معين، بالإضافة إلى افتراض حول كيفية توزيعه. كما تحتاج إلى مجموعة بيانات تحتوي على قيم واضحة وصريحة، مثل:

  • القيم الملاحظة، والتي تُشتق من مجموعة البيانات الفعلية
  • القيم المتوقعة، والتي تؤخذ من الافتراضات الموضوعة
  • العدد الإجمالي للفئات في المجموعة

تُستخدم اختبارات جودة المطابقة بشكل شائع لاختبار مدى طبيعية البواقي أو لتحديد ما إذا كانت عينتان قد جُمعتا من توزيعات متطابقة.

تحديد مستوى ألفا

لفهم اختبار جودة المطابقة بشكل صحيح، من المهم أن يقوم الإحصائيون بتحديد مستوى ألفا، مثل القيمة الاحتمالية (p-value) لاختبار كاي-تربيع. تشير القيمة الاحتمالية إلى احتمال الحصول على نتائج قريبة من أقصى القيم للنتائج الملاحظة. هذا يفترض أن الفرضية الصفرية صحيحة. تؤكد الفرضية الصفرية أنه لا يوجد علاقة بين المتغيرات، بينما تفترض الفرضية البديلة أن هناك علاقة موجودة.

بدلاً من ذلك، يتم قياس تكرار القيم الملاحظة واستخدامها لاحقًا مع القيم المتوقعة ودرجات الحرية لحساب مربع كاي. إذا كانت النتيجة أقل من ألفا، فإن الفرضية الصفرية تكون غير صالحة، مما يشير إلى وجود علاقة بين المتغيرات.

أنواع اختبارات جودة المطابقة

اختبار كاي تربيع

قيمة كاي تربيع (χ²) تساوي مجموع (O_i - E_i) تربيع مقسومًا على E_i، حيث يتم حساب المجموع من i = 1 إلى k.

اختبار كاي تربيع، المعروف أيضًا باختبار كاي تربيع للاستقلالية، هو طريقة في الإحصاءات الاستدلالية تختبر صحة الادعاء المقدم حول مجتمع معين بناءً على عينة عشوائية.

يُستخدم حصريًا للبيانات التي تُقسم إلى فئات (صناديق)، ويتطلب حجم عينة كافٍ لإنتاج نتائج دقيقة. لكنه لا يشير إلى نوع أو شدة العلاقة. على سبيل المثال، لا يحدد ما إذا كانت العلاقة إيجابية أو سلبية.

لحساب اختبار كاي تربيع لجودة المطابقة، قم بتحديد مستوى الألفا المرغوب للدلالة. إذا كان مستوى الثقة لديك هو 95% (أو 0.95)، فإن الألفا تكون 0.05. بعد ذلك، حدد المتغيرات الفئوية التي ترغب في اختبارها، ثم قم بتعريف فرضيات حول العلاقات بينها.

اختبار كولموغوروف-سميرنوف (K-S)

( D = \max \limits_{1 \leq i \leq N} \left( F(Y_i) - \frac{i-1}{N}, \frac{i}{N} - F(Y_i) \right) )

( D ) هو القيمة القصوى للفرق بين دالة التوزيع التراكمي ( F(Y_i) ) والقيمتين ( \frac{i-1}{N} ) و ( \frac{i}{N} ) لكل ( i ) من 1 إلى ( N ).

سمي اختبار كولموغوروف-سميرنوف (K-S) نسبة إلى الرياضيين الروسيين أندريه كولموغوروف ونيكولاي سميرنوف، وهو طريقة إحصائية تحدد ما إذا كانت عينة معينة تنتمي إلى توزيع محدد داخل مجتمع معين.

هذا الاختبار، الذي يُوصى به للعينات الكبيرة samples (مثل، أكثر من 2000)، هو اختبار غير معلمي. وهذا يعني أنه لا يعتمد على أي توزيع ليكون صالحًا. الهدف هو إثبات الفرضية الصفرية، وهي أن العينة تتبع التوزيع الطبيعي.

مثل اختبار كاي-تربيع، يستخدم اختبار كولموغوروف-سميرنوف فرضية العدم والفرضية البديلة ومستوى ألفا للدلالة. تشير فرضية العدم إلى أن البيانات تتبع توزيعًا محددًا داخل المجتمع، بينما تشير الفرضية البديلة إلى أن البيانات لا تتبع توزيعًا محددًا داخل المجتمع. يُستخدم مستوى ألفا لتحديد القيمة الحرجة المستخدمة في الاختبار. ولكن على عكس اختبار كاي-تربيع، ينطبق اختبار كولموغوروف-سميرنوف على التوزيعات المستمرة.

غالبًا ما يُرمز إلى إحصائية الاختبار المحسوبة بالحرف D. وهي تحدد ما إذا كان سيتم قبول الفرضية الصفرية أو رفضها. إذا كان D أكبر من القيمة الحرجة عند ألفا، يتم رفض الفرضية الصفرية. وإذا كان D أقل من القيمة الحرجة، يتم قبول الفرضية الصفرية.

اختبار أندرسون-دارلينج (A-D)

[ S = \sum_{i = 1}^{N} \frac{(2i - 1)}{N} \left[ \ln F(Y_i) + \ln(1 - F(Y_{N + 1 - i})) \right] ]

المعادلة السابقة توضح أن ( S ) هو مجموع من ( i = 1 ) إلى ( N ) للعبارة (\frac{(2i - 1)}{N}) مضروبة في مجموع اللوغاريتم الطبيعي لدالة التوزيع ( F ) عند ( Y_i ) واللوغاريتم الطبيعي لواحد ناقص دالة التوزيع ( F ) عند ( Y_{N + 1 - i} ).

اختبار أندرسون-دارلينج (A-D) هو تعديل لاختبار كولموغوروف-سميرنوف (K-S)، ولكنه يعطي وزنًا أكبر لأطراف التوزيع. يكون اختبار K-S أكثر حساسية للاختلافات التي قد تحدث بالقرب من مركز التوزيع، بينما يكون اختبار A-D أكثر حساسية للتغيرات التي تُلاحظ في الأطراف. نظرًا لأن مخاطر الأطراف وفكرة "الأطراف الثقيلة" شائعة في الأسواق المالية، يمكن لاختبار A-D أن يوفر قوة أكبر في التحليلات المالية.

مثل اختبار K-S، ينتج اختبار A-D إحصائية، يرمز لها بـ A2، والتي يمكن مقارنتها مع الفرضية الصفرية.

اختبار شابيرو-ويلك (S-W)

W = (\frac{\left(\sum_{i=1}^{n} a_i (x_{(i)})^2\right)}{\sum_{i=1}^{n} (x_i - \bar{x})^2})

W يساوي مجموع (a_i) مضروبًا في مربع (x_{(i)}) من (i = 1) إلى (n)، مقسومًا على مجموع مربع الفرق بين (x_i) و(\bar{x}) من (i = 1) إلى (n).

يحدد اختبار شابيرو-ويلك (S-W) ما إذا كانت العينة تتبع توزيعًا طبيعيًا. يتحقق الاختبار من الطبيعة الطبيعية فقط عند استخدام عينة تحتوي على متغير واحد من البيانات المستمرة، ويوصى به لأحجام العينات الصغيرة التي تصل إلى 2000.

يستخدم اختبار شابيرو-ويلك مخطط احتمالي يُسمى QQ Plot، والذي يعرض مجموعتين من الكوانتيل على المحور الرأسي مرتبة من الأصغر إلى الأكبر. إذا كانت كل كوانتيل تأتي من نفس التوزيع، فإن سلسلة المخططات تكون خطية.

يُستخدم مخطط QQ لتقدير التباين. باستخدام تباين مخطط QQ مع التباين المقدر للسكان، يمكن تحديد ما إذا كانت العينة تنتمي إلى توزيع طبيعي. إذا كان ناتج قسمة كلا التباينين يساوي أو قريب من 1، يمكن قبول الفرضية الصفرية. إذا كان أقل بكثير من 1، يمكن رفضها.

تمامًا مثل الاختبارات المذكورة أعلاه، يستخدم هذا الاختبار ألفا ويشكل فرضيتين: الفرضية الصفرية والفرضية البديلة. تنص الفرضية الصفرية على أن العينة تأتي من التوزيع الطبيعي، بينما تنص الفرضية البديلة على أن العينة لا تأتي من التوزيع الطبيعي.

اختبارات جودة المطابقة الأخرى

بالإضافة إلى الأنواع الأكثر شيوعًا من الاختبارات المذكورة أعلاه، هناك العديد من اختبارات ملاءمة التوزيع الأخرى التي يمكن للمحلل استخدامها:

  • معيار كرامر-فون ميسيس (CVM) هو اختبار لجودة المطابقة يُستخدم لتقييم مدى توافق مجموعة من البيانات الملاحظة مع توزيع احتمالي مفترض. يُستخدم غالبًا في الاقتصاد أو الهندسة أو المالية، ويعتمد على دالة التوزيع التراكمي للبيانات الملاحظة والتوزيع المفترض.
  • معيار معلومات أكايك (AIC) هو مقياس لجودة النموذج الإحصائي بالنسبة لمجموعة معينة من البيانات، ويوفر توازنًا بين جودة التوافق للنموذج وتعقيده. يعتمد على نظرية المعلومات ويقيس كمية المعلومات المفقودة من النموذج عند استخدامه لتقريب التوزيع الحقيقي الأساسي للبيانات.
  • يقارن اختبار هوسمر-ليمشو بين التكرارات المتوقعة لنتيجة ثنائية مع التكرارات الملاحظة لتلك النتيجة في مجموعات أو فترات مختلفة. عادةً ما يتم تشكيل المجموعات عن طريق تقسيم الاحتمالات المتوقعة للنتيجة إلى عشر مجموعات أو فئات.
  • اختبار Kuiper مشابه لاختبار Kolmogorov-Smirnov، ولكنه أكثر حساسية للاختلافات في أطراف التوزيع.
  • اختبار موران I أو مؤشر موران هو اختبار إحصائي يُستخدم لتقييم الارتباط الذاتي المكاني في البيانات. الارتباط الذاتي المكاني هو مقياس لمدى تشابه أو اختلاف ملاحظات متغير ما في الفضاء.

أهمية اختبارات جودة المطابقة

تعتبر اختبارات جودة المطابقة مهمة في الإحصائيات لعدة أسباب. أولاً، توفر طريقة لتقييم مدى ملاءمة النموذج الإحصائي لمجموعة من البيانات الملاحظة. الأهمية الرئيسية لإجراء اختبار جودة المطابقة هي تحديد ما إذا كانت البيانات الملاحظة متسقة مع النموذج الإحصائي المفترض. وبالتبعية، قد يكون اختبار جودة المطابقة مفيدًا في الاختيار بين النماذج المختلفة التي قد تكون أكثر ملاءمة للبيانات.

يمكن لاختبارات جودة المطابقة أيضًا المساعدة في تحديد القيم الشاذة أو الاختلالات السوقية التي قد تؤثر على ملاءمة النموذج. يمكن أن يكون للقيم الشاذة تأثير كبير على ملاءمة النموذج وقد تحتاج إلى إزالتها أو التعامل معها بشكل منفصل. في بعض الأحيان، لا يمكن تحديد القيم الشاذة بسهولة حتى يتم دمجها في نموذج تحليلي.

يمكن لاختبارات جودة المطابقة أيضًا أن توفر معلومات حول تباين البيانات والمعلمات المقدرة للنموذج. يمكن أن تكون هذه المعلومات مفيدة في إجراء التنبؤات وفهم سلوك النظام الذي يتم نمذجته. بناءً على البيانات التي يتم إدخالها في النموذج، قد يكون من الضروري تحسين النموذج ليتناسب مع مجموعة البيانات التي يتم اختبارها، والبواقي التي يتم حسابها، وقيمة p-value للبيانات التي قد تكون متطرفة.

اختبار جودة المطابقة مقابل اختبار الاستقلالية

اختبار جودة المطابقة واختبار الاستقلال هما اختباران إحصائيان يُستخدمان لتقييم العلاقة بين المتغيرات؛ لذلك، قد يكون من السهل الخلط بينهما. ومع ذلك، كل منهما مصمم للإجابة على أسئلة مختلفة.

يُستخدم اختبار جودة المطابقة لتقييم مدى توافق مجموعة من البيانات الملاحظة مع توزيع احتمالي معين. من ناحية أخرى، يُستخدم اختبار الاستقلالية لتقييم العلاقة بين متغيرين. يُستخدم لاختبار ما إذا كان هناك أي ارتباط بين متغيرين. الغرض الرئيسي من اختبار الاستقلالية هو معرفة ما إذا كان التغيير في متغير واحد مرتبطًا بتغيير في متغير آخر.

يُستخدم اختبار الاستقلال عادةً عندما يكون السؤال البحثي مركزًا على فهم العلاقة بين متغيرين وما إذا كانا مرتبطين أو مستقلين. في كثير من الحالات، يُوجه اختبار الاستقلال نحو متغيرين محددين (مثل: هل يسبب التدخين سرطان الرئة؟). من ناحية أخرى، يُستخدم اختبار حسن المطابقة على مجموعة كاملة من البيانات الملاحظة لتقييم مدى ملاءمة نموذج معين.

مثال على جودة المطابقة

إليك مثال افتراضي يوضح كيفية عمل اختبار جودة المطابقة.

افترض أن صالة رياضية صغيرة في المجتمع تعمل تحت فرضية أن أعلى نسبة حضور تكون في أيام الاثنين والثلاثاء والسبت، بينما يكون الحضور متوسطًا في أيام الأربعاء والخميس، وأقل نسبة حضور تكون في أيام الجمعة والأحد. بناءً على هذه الافتراضات، توظف الصالة الرياضية عددًا معينًا من الموظفين كل يوم لتسجيل دخول الأعضاء، وتنظيف المرافق، وتقديم خدمات التدريب، وتعليم الفصول.

لكن النادي الرياضي لا يحقق أداءً جيدًا من الناحية المالية، ويرغب المالك في معرفة ما إذا كانت افتراضات الحضور ومستويات التوظيف صحيحة. يقرر المالك عدّ عدد الحضور في النادي الرياضي كل يوم لمدة ستة أسابيع. يمكنهم بعد ذلك مقارنة الحضور المفترض للنادي مع الحضور الفعلي باستخدام اختبار جودة المطابقة كاي-تربيع كمثال.

الآن بعد أن حصلوا على البيانات الجديدة، يمكنهم تحديد كيفية إدارة الصالة الرياضية بشكل أفضل وتحسين الربحية.

ماذا يعني ملاءمة النموذج؟

اختبار جودة المطابقة هو اختبار فرضية إحصائي يُستخدم لمعرفة مدى تطابق البيانات الملاحظة مع البيانات المتوقعة. يمكن لاختبارات جودة المطابقة أن تساعد في تحديد ما إذا كانت العينة تتبع توزيعًا طبيعيًا، أو إذا كانت المتغيرات الفئوية مرتبطة، أو إذا كانت العينات العشوائية تأتي من نفس التوزيع.

لماذا يعتبر ملاءمة النموذج مهمة؟

تساعد اختبارات جودة المطابقة في تحديد ما إذا كانت البيانات الملاحظة تتماشى مع ما هو متوقع. يمكن اتخاذ القرارات بناءً على نتيجة اختبار الفرضية الذي يتم إجراؤه. على سبيل المثال، يريد أحد تجار التجزئة معرفة أي منتج يجذب الشباب. يقوم التاجر بإجراء استبيان على عينة عشوائية من الأشخاص الكبار والصغار لتحديد المنتج المفضل. باستخدام اختبار كاي-تربيع، يحددون أنه، بثقة 95%، توجد علاقة بين المنتج A والشباب. بناءً على هذه النتائج، يمكن تحديد أن هذه العينة تمثل شريحة الشباب. يمكن لمسوقي التجزئة استخدام هذه المعلومات لإعادة تشكيل حملاتهم.

ما هو مدى ملاءمة الاختبار في اختبار كاي تربيع؟

اختبار كاي تربيع يحدد ما إذا كانت هناك علاقات بين المتغيرات الفئوية وما إذا كانت العينة تمثل الكل. يقدّر مدى قرب البيانات الملاحظة من البيانات المتوقعة، أو مدى تطابقها.

كيف تقوم بإجراء اختبار جودة المطابقة؟

يتكون اختبار جودة المطابقة من طرق اختبار مختلفة. سيساعد الهدف من الاختبار في تحديد الطريقة المناسبة للاستخدام. على سبيل المثال، إذا كان الهدف هو اختبار التوزيع الطبيعي على عينة صغيرة نسبيًا، فقد يكون اختبار شابيرو-ويلك مناسبًا. إذا كان الهدف هو تحديد ما إذا كانت العينة جاءت من توزيع محدد داخل مجتمع معين، فسيتم استخدام اختبار كولموغوروف-سميرنوف. يستخدم كل اختبار صيغة فريدة خاصة به. ومع ذلك، لديهم قواسم مشتركة، مثل الفرضية الصفرية ومستوى الدلالة.

الخلاصة

تحدد اختبارات جودة المطابقة مدى توافق بيانات العينة مع ما هو متوقع من المجتمع. من بيانات العينة، يتم جمع قيمة ملاحظة ومقارنتها بالقيمة المتوقعة المحسوبة باستخدام مقياس التفاوت. هناك اختبارات فرضية لجودة المطابقة مختلفة متاحة اعتمادًا على النتيجة التي تسعى لتحقيقها.

يعتمد اختيار اختبار ملاءمة الجودة المناسب بشكل كبير على ما تريد معرفته عن العينة ومدى حجمها. على سبيل المثال، إذا كنت ترغب في معرفة ما إذا كانت القيم الملاحظة للبيانات الفئوية تتطابق مع القيم المتوقعة للبيانات الفئوية، فاستخدم اختبار كاي-تربيع. إذا كنت ترغب في معرفة ما إذا كانت عينة صغيرة تتبع توزيعًا طبيعيًا، فقد يكون اختبار شابيرو-ويلك مفيدًا. هناك العديد من الاختبارات المتاحة لتحديد ملاءمة الجودة.