في لحظةٍ ما في سنة 2010، كان مات موتيل على شفا مجد علمي: إذ اكتشف أن المتطرفين سياسيًّا يرون العالم «حرفيًّا» باللونين الأبيض، والأسود.
كانت النتائج «جليَّة كالنهار»، كما يتذكر موتيل، طالب الدكتوراة في علم النفس بجامعة فرجينيا، بتشارلوتسفيل. فبيانات الدراسة ـ المستمَدَّة من حوالي ألفي شخص ـ تبدي أن المعتدلين سياسيًّا شاهدوا الحلول الوسطى بشكل أدق من المتطرفين يسارًا أو يمينًا. يقول موتيل: «كانت الفرضية جذابة، وقد وفرت البيانات دعمًا واضحًا لها». بلغت قيمة “بي” P value ، وهي مؤشر إحصائي على قوة الدليل شائع الاستخدام بين الباحثين، حوالي 0.01، وهي قيمة تفسَّر عادة بأن البيانات ذات «دلالة إحصائية عالية». وبدت إمكانية نشر بحث موتيل بدورية بالغة الأهمية، والتأثير في متناول اليد، لكن الواقع تَدَخَّل.. ونظرًا لحساسيتهما تجاه الجدل حول قابلية نتائج التجربة للتكرار، قرر موتيل وأستاذه، برَيان نوزيك، تكرار الدراسة. ومع بيانات إضافية، جاءت قيمة المؤشر“بي” تساوي 0.59، أي لا تقترب حتى من المستوى التقليدي المقبول لدلالة البيانات إحصائيًّا: 0.05. اختفى التأثير المرصود سابقًا ومعه أحلام موتيل الفتية في الشهرة1.
وظهر أن المشكلة ليست في البيانات أو في تحليلات موتيل الإحصائية. بل تكمن في الطبيعة المتقلبة المفاجئة لقيم المؤشر “بي”، وهي غير موثوقة أو موضوعية، كما يفترض معظم العلماء. يقول ستيفن زيلياك، عالم الاقتصاد بجامعة روزفلت بشيكاغو، إلينوي، وناقد مثابر لطريقة استخدام الإحصاء: «إن قيم المؤشر “بي” لا تقوم بعملها، لأنها لا تستطيع ذلك».
وهذا مقلق، وبشكل خاص بالنسبة إلى علماء كثر، في ضوء المخاوف حول إمكانية إعادة إنتاج الدراسة بنتائجها. ففي عام 2005، اقترح جون يوانيدس، عالم الأوبئة بجامعة ستانفورد بكاليفورنيا، أن معظم النتائج المنشورة زائفة2؛ ومنذ ذاك الحين، أرغمت سلسلة ذائعة من إشكاليات عدم قابلية التجارب للتكرار العلماء على إعادة التفكير بكيفية تقييم النتائج.
في الوقت ذاته، يبحث الإحصائيون عن طرق أفضل للتفكير بشأن اختبار وتقييم البيانات، لمساعدة العلماء على تجنب فقدان معلومات مهمة، أو الاهتمام بالدلالات الكاذبة. يقول ستيفن جودمان، الطبيب والإحصائي بجامعة ستانفورد: «حالما تغيِّر فلسفتك الإحصائية، ستجد فجأة أن أشياء مختلفة أصبحت مهمة، ثم يتبين أن ‘قوانين’ الإحصاء التي ظننّاها يومًا مُنزلة من السماء لم تَعُد مقدسة. فقد جاءت في الحقيقة منّا، عبر المنهجية التي تبنّيناها».
خارج السياق
كان لمؤشر “بي” دومًا ناقدوه. ففي العقود التسعة لوجوده، شُبِّه المؤشر بالبعوض (مزعج يستحيل القضاء عليه)، وبملابس الإمبراطور الجديدة (حافلة بمشكلات ظاهرة يتجاهلها الجميع)، وبأداة في يد ‘الأكاديمي الخبيث العقيم’ الذي ينتهك الممارسة العلمية ثم يتركها دون نتاج3. اقترح أحد الباحثين إعادة تسمية هذه المنهجية الإحصائية بـ«اختبار استدلال الفرضية الإحصائية»3، ربما لأن اختصار التسمية الإنجليزية، (Statistical Hypothesis Inference Testing)، بالأحرف الأولى يعطي كلمة سلبية المعنى.
المفارقة الساخرة أنه عندما أدخل الإحصائي البريطاني رونالد فيشر اختبار مؤشر “بي” في عشرينات القرن الماضي، لم يقصد به أن يكون اختبارًا حاسمًا نهائيًّا. كانت نيته أن يكون الاختبار طريقة غير رسمية للحكم على الدلالة الإحصائية للدليل بالمعنى التقليدي: أي أنه يستحق نظرة ثانية. كانت الفكرة إجراء تجربة، ثم النظر فيما إن كانت النتائج تتسق مع ما تسفر عنه فرصة عشوائية، أم لا. وينبغي للباحثين أولًا تعيين ‘فرضية العَدم’ (الصفرية) التي يريدون إبطالها، مثل عدم وجود ارتباط أو اختلاف بين مجموعتين. ثم يقومون بدور المُدافِع عن فرضية العدم، ثم يحسِبون احتمال الحصول على نتائج لا تقل تطرفًا عن النتائج المرصودة فعلًا في التجربة. هذا الاحتمال هو مؤشر “بي”. ورأى فيشر أنه كلما صغرت قيمة المؤشر، تعاظمت أرجحية بطلان فرضية العدم.
مع وضوح ودقة مؤشر “بي”، أراد فيشر منه أن يكون مجرد جزء واحد من عملية سلسة غير رقمية تخلط البيانات والخلفية المعرفية؛ لتصل إلى استنتاجات علمية، لكن المؤشر سرعان ما اكتسح عبر حركة ترمي إلى جعْل عملية صنع القرار على أساس الأدلة صارمة وموضوعية بأقصى قدر ممكن. كان رأس حربة هذه الحركة في أواخر العشرينات غريمَيْن لَدُودَيْن لفيشر، هما: الرياضي البولندي جرزي نيمَن، والإحصائي البريطاني إيجون بيرسون، اللذان اقترحا إطارًا بديلًا لتحليل البيانات شمل القوة الإحصائية، والموجبات الزائفة، والسالبات الزائفة، ومفاهيم أخرى كثيرة مألوفة الآن في دروس الإحصاء التمهيدية. وقد تركا مؤشر “بي” عمدًا.
وبينما احتدم الصراع بين الغرماء، اعتبر نيمن بعض أعمال فيشر رياضيًّا «أسوأ من كونها حتى عديمة الفائدة»؛ واعتبر فيشر نهج نيمن «طفوليًّا» و«مفزعًا بالنسبة إلى حرية الفكر في الغرب»، في حين فقد باحثون آخرون صبرهم، وشرعوا في كتابة كتب إرشادية في الإحصاء للباحثين. ونظرًا إلى أن كثيرًا من المؤلفين لم يكونوا إحصائيين، وليس لديهم الفهم الكافي لأي من النهجين، فقد أنشأوا نظامًا هجينًا حشروا فيه مؤشر فيشر لقوة الدليل سهل الحساب، مع نظام نَيمن وبيرسون الصارم القائم على القواعد. ويكون هذا، مثلًا، حين يتم اعتبار قيمة 0.05 لمؤشر «بي» ‘ذات دلالة إحصائية’. يقول جودمان: «لم يكن أبدًا القصد من حساب مؤشر “بي” أن يُستخدَم على نحو استخدامه اليوم».
ماذا يعني كل ذلك؟
إحدى النتائج هي زيادة الالتباس حول ما يعنيه مؤشر “بي”4، لننظر لدراسة موتيل حول المتطرفين سياسيًّا. سينظر معظم العلماء إلى قيمة مؤشر “بي” البالغة 0.01، ويقولون إن احتمال كون نتائجه كاذبة يبلغ %1 فقط، لكنهم سيكونون مخطئين.. فقيمة مؤشر “بي” لا تستطيع قول ذلك؛ وكل ما يمكنها فعله هو إجمال البيانات التي تفترض فرضية عدمٍ محددة. فهي لا تملك العمل باتجاه عكسي، وتقرير الحقيقة الكامنة. فذلك يتطلب معلومات أخرى: احتمالات أن يكون هناك تأثير حقيقي (ارتباط) في المقام الأول. وتجاهل ذلك يشبه أن يستيقظ المرء بصداع، ويخلص إلى أنه مصاب بورم دماغي نادر، وهو أمر ممكن، لكنه غير محتمل، بحيث يتطلب أدلة أكثر بكثير لكي يجُبَّ تفسيرًا يوميًّا معتادًا كرد فعل حساس عادي. وكلما زادت عدم قابلية الفرضية للتصديق ـ التخاطر، والغرباء، ومسار التماثل ـ زادت فرصة أن يكون الاكتشاف المثير مجرد دلالة كاذبة، مهما كانت قيمة مؤشر “بي”.
هذه مفاهيم شائكة، لكن بعض الإحصائيين حاولوا تقديم قواعد تحويل عامة (انظر: «علة محتملة»). وفقًا لعملية حسابية واسعة الانتشار5، عندما تبلغ قيمة مؤشر “بي” 0.01 فهي تناظر احتمال وجود دلالة كاذبة بنسبة %11، حسب الاحتمال الكامن لوجود تأثير حقيقي. وقيمة 0.05 لمؤشر “بي” تزيد احتمال الدلالة الكاذبة إلى %29 على الأقل. وهكذا، يكون احتمال الدلالة الكاذبة في نتائج موتيل أكثر من واحد في العشرة. وبالمثل، يكون احتمال تكرار نتائجه الأصلية ليس %99، كما يفترض الكثيرون، بل احتمال قريب من %73، أو ربما %50 فقط، إذا رغب في نتائج مكررة ذات ‘دلالة إحصائية عالية’6،7. وبكلمات أخرى.. كان عدم قدرته على تكرار النتائج مفاجئًا بالدرجة نفسها لمفاجأة أن تكون في قرعة، وتختار أحد وجهي العملة، ثم تظهر النتيجة بالوجه الآخر.
يتحسر المنتقدون أيضًا على الطريقة التي يستطيع بها مؤشر “بي” تشجيع التفكير المشوش. ومثال ذلك هو ميله إلى صرف الانتباه عن الحجم الحقيقي للتأثير. فمثلًا، أظهرت دراسة في العام الماضي ـ شارك فيها أكثر من 19 ألف شخص8 ـ أن الذين تعرفوا على أزواجهم عبر الإنترنت أقل عرضة للطلاق (كان مؤشر “بي”: p < 0.002)، ويرجح أن يحصلوا على رضا زوجي عالٍ (p < 0.001)، مقارنةً بالأزواج الذين التقوا خارج الإنترنت (انظر: Nature http://doi.org/rcg; 2013). ربما بدا ذلك مثيرًا للإعجاب، لكن التأثيرات كانت ضئيلة: فالتعارف عبر الإنترنت زحزح معدل الطلاق لأسفل من %7.67 إلى %5.96، وبالكاد زحزح السعادة الزوجية لأعلى من 5.48 إلى 5.64، على مقياس من سبعة. إنّ اقتناص قيم ضئيلة لمؤشر “بي”، وتجاهل السؤال الأكبر، يعادل الوقوع فريسة لـ«إغراء توكيد الدلالة الإحصائية»، حسب قول جيف كيومنج، عالِم النفس غير المتفرغ بجامعة لاتروبيه في ميلبورن، أستراليا. والدلالة الإحصائية ليست مؤشرًا على الأهمية العملية. يقول كيومنج: «ينبغي لنا أن نسأل ‘كم من التأثير هنالك’؟، لا أن نسأل ‘هل ثمة تأثير هنا؟’»
ربما كانت أسوأ المغالطات من نوع خداع الذات، ذلك الذي أشاع عنه عالم النفس بجامعة بنسلفانيا، يوري سايمونسون وزملاؤه تعبير «قرصنة بي» (P-hacking)؛ ويُعرف أيضًا بتجريف البيانات ونبشها واصطيادها واقتناص دلالتها وغمسها مرتين. إنّ «قرصنة المؤشر»، حسب قول سايمونسون، هي «أن تجرب أشياء متعددة؛ حتى تحصل على النتائج المرغوبة»، ولو حتى بدون وعي. ربما كان ذلك أول تعبير إحصائي يحتل تعريفًا في القاموس الحضري على الإنترنت، حيث جاءت أمثلة استخدامه بالغة التعبير: «يبدو أن ذلك الاكتشاف قد تحصّل من خلال قرصنة بي، فقد أسقط المؤلفون أحد الشروط، حتى تكون قيمة مؤشر “بي” أقل من 0.05»... «إنها قرصان بي، فهي دائمًا تراقب البيانات خلال جمعها».
«لم يكن أبدًا القصد من حساب مؤشر “بي” أن يُستخدَم على نحو استخدامه اليوم».
لمثل هذه الممارسات تأثير يحول الاكتشافات من دراسات استكشافية ـ ينبغي النظر إليها بتشكك ـ إلى ما يبدو إثباتًا سليمًا، لكنه يختفي عند التكرار. أظهرت محاكاة سايمونسون9 أن التغيرات ـ في قليل من قرارات تحليل البيانات ـ يمكنها زيادة معدل الموجبات الزائفة في دراسة واحدة إلى %60. يقول سايمونسون إن قرصنة “بي” مرجحة حاليًا بشكل خاص في بيئة الدراسات الراهنة، التي تقتنص تأثيرات صغيرة كامنة في بيانات مشوشة. ومن الصعب تحديد مدى انتشار هذه المشكلة، لكن لدى سايمونسون إحساس بخطورة الموقف. في أحد التحليلات10، وجد سايمونسون دليلًا على أن أبحاث نفسية منشورة كثيرة تورد قيمًا لمؤشر “بي” تتكتل بشكل مريب حول قيمة 0.05، تمامًا كما يُتَوقع عندما يتعقب الباحثون قِيَم دالة إحصائيًّا لمؤشر “بي” حتى يجدوها.
لعبة الأرقام
رغم كل هذه الانتقادات، يبقى الإصلاح بطيئًا. يقول جودمان: «الإطار الأساسي للإحصاء لم يتغير منذ أن طرحه فيشر ونيمن وبيرسون». وقد رثى لذلك جون كامبل ـ عالم النفس بجامعة منيسوتا في مينيابوليس حاليًا ـ في عام 1982، حين كان رئيس تحرير دورية علم النفس التطبيقي (Journal of Applied Psychology)، قائلًا: «من المستحيل تقريبًا جر المؤلفين بعيدًا عن مؤشر “بي”. وكلما زادت الأصفار بعد الفاصلة -أي انخفضت قيمته- زاد تعلق الباحثين به»11. في عام 1989، عندما بدأ كينيث روثمَن من جامعة بوسطن، بماساتشوستس، إصدار دورية علم الأوبئة (Epidemiology)، بذل ما في وسعه لتثبيط استخدام مؤشر “بي” على صفحاتها، لكنه ترك الدورية في عام 2001، ومنذئذ بدأ مؤشر “بي” في الظهور من جديد.
حاليًا، ينقّب يوانّيدِس في قاعدة بيانات الأبحاث الطبية المنشورة PubMed بحثًا عن بصيرة لاستخدام المؤلفين عبر مختلف التخصصات لمؤشر “بي” والأدلة الإحصائية الأخرى. يقول يوانّيدِس: «إن نظرة خاطفة إلى عيِّنة من الأبحاث المنشورة حديثًا تقنعك بأن استخدام مؤشر “بي” لا يزال شائعًا جدًّا جدًّا».
يحتاج أي إصلاح أن يزيل ثقافة بحثية راسخة. وينبغي له أن يغير كيفية تدريس الإحصاء، وكيفية إجراء التحليل، وكيفية تسجيل النتائج، وتأويلها، لكن على الأقل ـ حسب قول جودمان ـ يسلِّم الباحثون بأن هناك مشكلة. «هذه الصيحة تعني أن كثيرًا من نتائجنا المنشورة ليست حقيقية». يقول جودمان إن عمل باحثين ـ مثل يوانّيدِس ـ يُظهِر الصلة بين إشكاليات الإحصاء النظرية والصعوبات الفعلية، «فالمشكلات التي تنبأ بها الإحصائيون هي بالضبط ما نراه الآن، غير أننا لا نملك كافة الإصلاحات بعد».
أشار الإحصائيون إلى عدد من التدابير التي قد تساعد في ذلك. ولتجنب فخ التفكير في كون النتائج دالة أو غير دالة إحصائيًّا، يرى كيومنج أنه ينبغي للباحثين أن يوردوا دائمًا حجم التأثير وفترات الثقة (التأكد). تنطوي هذه المؤشرات على ما لا يتضمنه مؤشر “بي”، ألا وهو حجم التأثير، وأهميته النسبية.
يدعو بعض الإحصائيين إلى أن تُستبدل بمؤشر “بي” طرق تستفيد من قاعدة بايز (Bayes’ rule)، وهي نظرية من القرن الثامن عشر، تصف كيفية التفكير حول الاحتمالات باعتبارها درجة معقولية نتيجة ما، عوضًا عن قابليتها للتكرار. يستتبع هذا قدرًا معينًا من الذاتية، وهو أمر كان يحاول رواد الإحصاء تجنبه، لكن إطار قاعدة باير يجعل من السهل نسبيًّا للمراقبين أن يدمجوا ما يعرفونه حول الموضوع في استنتاجاتهم، وأن يحسبوا كيفية تغير الاحتمالات بظهور دليل جديد.
يحاجج آخرون لصالح نهج أكثر شمولًا، بتشجيع الباحثين على تجربة طرق متعددة لتحليل مجموعة البيانات نفسها. يشبِّه ستيفن سنّ، الإحصائي بمركز أبحاث الصحة العامة في لوكسمبورج سيتي، هذا باستخدام روبوت لتنظيف أرضية، رغم أنه لا يستطيع أن يجد طريقه داخل ركن، فأي طريقة لتحليل البيانات ستصطدم ـ في نهاية المطاف ـ بالحائط، وسنحتاج إلى بعض التفكير السليم لتحريك العملية مرة أخرى. ويقول إنه إذا جاءت الطرق المتعددة بإجابات مختلفة، «فذلك يعني أن نكون أكثر إبداعًا، وأن نحاول التوصل إلى العلة»، مما يفترض أن يؤدي إلى فهم أفضل للحقيقة الكامنة.
يقول سايمونسون إن إحدى أقوى الحمايات للعلماء أن يُقِرُّوا بكل شيء. وهو نفسه يشجع المؤلفين على وَسْم دراساتهم بمصداقية بمؤشر “بي” P-certified، لا بقرصنة «بي» P-hacked، بتضمين هذه الكلمات: «نحن نورد كيفية تحديد حجم العينة، وكافة البيانات المستبعدة (إن وجدت)، وكافة المعالجات، وكافة الإجراءات المتخذة في الدراسة». يأمل سايمونسون أن يثبط إفصاح كهذا قرصنة “بي”، أو ـ على الأقل ـ ينبه القراء لأي إشكالات، متيحًا لهم الحكم وفقًا لما سبق.
يقول أندرو جيلمان، عالم السياسة والإحصاء بجامعة كولومبيا بمدينة نيويورك، إن هناك فكرة أخرى ذات صلة تجذب الانتباه، هي التحليل ثنائي المرحلة، أو ‘التكرار سابق التسجيل’. في هذا النهج، تُجرَى تحليلات استكشافية وأخرى توكيدية بشكل مختلف، وتُوسَم بشكل واضح. وعوضًا عن إجراء أربع دراسات منفصلة صغيرة، وإيراد نتائجها في ورقة بحث واحدة، ينبغي للباحثين أولًا إجراء دراستين صغيرتين، وجمع النتائج محتملة الأهمية، دون تخوف مفرط من الدلالات الكاذبة. وعلى أساس هذه النتائج، سيقرر الباحثون بالضبط كيف خططوا لتوكيد النتائج، وسيسجلون مسبقًا نواياهم في قاعدة بيانات عامة، مثل نطاق العلوم المفتوح (Open Science Framework) (https://osf.io). وينبغي لهم إجراء دراسات التكرار ونشر النتائج بجانب نتائج الدراسات الاستكشافية. يقول جيلمان إن هذا النهج يتيح الحرية والمرونة في التحليلات، بينما يوفر صرامة كافية لخفض عدد الدلالات الكاذبة التي تُنشر.
وعلى نطاق أوسع.. يحتاج الباحثون إلى إدراك محدودية الإحصاء التقليدي، حسب قول جودمان. وينبغي لهم أن يجلبوا إلى تحليلاتهم عناصر الحكم العلمي حول معقولية الفرضية، وأن يدرسوا المحدودية المستبعدة عادةً من المناقشة، كنتائج التجارب المماثلة، والآليات المقترحة، والمعلومات الإكلينيكية، وغيرها. يقول الإحصائي ريتشارد رويال بكلية بلومبرج للصحة العامة بجامعة جونز هوبكنز في بلتيمور، ميريلاند، إن هناك ثلاثة أسئلة ينبغي للعالم ـ في نهاية الدراسة ـ الإجابة على: ما هو الدليل؟ ماذا ينبغي أن أعتقد؟ ما الذي ينبغي فعله؟ إن طريقة واحدة لا تستطيع الإجابة على هذه الأسئلة. يقول جودمان: «الأرقام هي بداية النقاش العلمي، وليست نهايته».
ساحة النقاش