معلومة

الحاجة إلى مساعدة لاستنتاج اختبارات الفرضيات الإحصائية التي تم إجراؤها في مقالة قديمة

الحاجة إلى مساعدة لاستنتاج اختبارات الفرضيات الإحصائية التي تم إجراؤها في مقالة قديمة


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا في حاجة ماسة إلى المساعدة من أجل استنتاج اختبارات الفرضيات الإحصائية التي تم إجراؤها في مقالة قديمة. ومع ذلك ، أحتاج إلى إجراء بعض التخمينات المعقولة فقط من ملخص الورقة نظرًا لأن النص الأصلي باللغة الصينية وهو أمر لا يمكنني فهمه (بعد بحث مكثف لم أتمكن أيضًا من العثور على النص الأصلي حتى باللغة الصينية)

عنوان الورقة: "الكشف عن التبادل اللوني الشقيق في العمال المعرضين لقار قطران الفحم وفحم الكوك المتطايرة"

ملخص البحث (الذي نشر عام 1998 هو كالتالي):

من أجل معرفة التغيرات في التأثيرات السمية الوراثية على العمال المعرضين مهنياً للهيدروكربونات العطرية متعددة الحلقات (PAHs) ، تم اكتشاف التبادل اللوني الشقيق (SCE) من خلال طرق زراعة الخلايا الليمفاوية المحيطية في 23 عاملاً تعرضوا لقطران الفحم (CTP) وفي تعرض 19 عاملاً لمواد متطايرة في أفران الكوك (COV) و 12 عنصر تحكم عادي. أشارت النتائج إلى أن اختبار SCE في العاملين المهنيين كان أعلى بكثير من ذلك في الضوابط (11.31 مقابل 6.37 ، P <0.001). كان SCE في العمال المعرضين لـ CTP و COV أعلى من السيطرة (10.27 و 12.58 مقابل 6.37) على التوالي. في العمال المعرضين لـ CTP و COV ، لم تكن هناك اختلافات في SCE للمدخنين وغير المدخنين (P> 0.05). يشار إلى أن CTP و COV تسببا في سمية وراثية قوية وإصابة الكروموسوم.

برأيك ، كيف تعتقد أنه تم تنظيم reasarch أعلاه

على سبيل المثال: أ) ما هي أنواع اختبار الفرضيات الإحصائية التي تم إجراؤها من قبل الباحثين ب) ما نوع البيانات التي تم جمعها واستخدامها لكل اختبار فرضية إحصائية ج) ما هي الطرق المستخدمة في كل اختبار فرضية؟


ربما يمكن لشخص آخر أن يشرح بالتفصيل كيفية عمل "ثقافة الخلايا الليمفاوية المحيطية" ، ولكن هذا ما تقترحه النتائج الإحصائية لي:

أشارت النتائج إلى أن اختبار SCE في العاملين المهنيين كان أعلى بكثير من ذلك في الضوابط (11.31 مقابل 6.37 ، P <0.001).

هذا اختبار t من عينتين. تم تجميع العمال المهنيين في مجموعة واحدة وتمت مقارنة متوسط ​​قيمة SCE لهؤلاء العمال (11.31) بالضوابط (6.37). الفرضية الصفرية هي أن الوسائل ليست مختلفة. يرفضون فرضية العدم. سيكون من الجيد تضمينها الأخطاء المعيارية للوسائل ، بحيث يكون لديك فكرة عن مقدار التباين داخل المجموعات.

كان SCE في العمال المعرضين لـ CTP و COV أعلى من السيطرة (10.27 و 12.58 مقابل 6.37) على التوالي.

من المحتمل أن يكون هذا ANOVA مع ثلاث مجموعات (CTP ، و COV ، والتحكم). يعد هذا الاختبار زائداً عن الحاجة مع الاختبار الأول ، حيث سيخبرك الاختبار اللاحق المناسب أن كلا من CTP و COV أعلى بكثير من التحكم. ولكن نظرًا لأنهم يبلغون عن قيمة P واحدة فقط ، فمن المحتمل أن يكون هذا هو اختبار F الشامل لـ ANOVA. لذلك كل ما يمكنهم قوله من خلال هذا الاختبار هو "على الأقل مجموعة واحدة مختلفة". أنت لا تعرف ، على سبيل المثال ، ما إذا كان CTP و COV مختلفين عن بعضهما البعض. ليس من الواضح من النص أنهم أجروا اختبارًا بعد الاختبار (Tukey's HSD ، على سبيل المثال) ، لكنني أشك في ذلك.

في العمال المعرضين لـ CTP و COV ، لم تكن هناك اختلافات في SCE للمدخنين وغير المدخنين (P> 0.05).

وبالنظر إلى الفئات المهنية فقط ، تنقسم العينة إلى مدخنين وغير مدخنين. لم يكن هناك فرق كبير في متوسط ​​SCE بين المجموعات. هذا اختبار t من عينتين مثل الاختبار الأول. الفرضية الصفرية هي أن الوسائل ليست مختلفة. فشلوا في رفض فرضية العدم.

من الممكن أيضًا (لكن من المستحيل تحديد من الملخص وحده) أنهم فعلوا انحدارًا متعددًا واحدًا أكبر. إذا تم ترميزهم بشكل صحيح ، فسيكونون قادرين ، في الحال ، على اختبار المهنة مقابل السيطرة ، و CTP مقابل COV مقابل السيطرة ، والمدخن مقابل غير المدخن. سيكون الأمر مشبوهًا جدًا بمثل هذه العينة الصغيرة ، لذلك ربما لم يتبعوا هذا النهج.

لماذا نجري اختبارات t؟

الفرضية الصفرية لاختبار t من عينتين هي أن وسائل مجموعتين لا تختلف عن بعضها البعض.

كيف نعرف أن بياناتنا تتبع التوزيع الطبيعي؟ ألا يجب أن نجري اختبارات لتقرير ما إذا كانت بياناتنا تتبع التوزيع الطبيعي ومتساوية التباين؟

تشمل افتراضات اختبارات t التوزيعات الطبيعية داخل المجموعات والتباين المتساوي بين المجموعات. يجب فحصها قبل إجراء الاختبار. يمكننا أن نفترض أن المؤلفين أجروا هذه الاختبارات ، لكن نادرًا ما يتم الإبلاغ عنها.

في حالة عدم استيفاء المعايير اللازمة لإجراء اختبار t ، هل يجب علينا اختيار مكافئ غير حدودي؟

يجب مراعاة البدائل غير المعيارية عندما لا يتم استيفاء الافتراضات. ومع ذلك ، فإن اختبارات t قوية جدًا في مواجهة انتهاكات هذه الافتراضات.

أيضا أنوفا المذكورة في الإجابة أعلاه هي N-way anova؟

ANOVA بشكل عام هو اختبار للمساواة بين المجموعات N. لذلك يمكنك التفكير في اختبار t على أنه مجرد نوع خاص من ANOVA على مجموعتين (في الواقع ، إنهما متساويان عدديًا).


دليل خطوة بخطوة لاختبار الفرضيات

تم النشر في ٨ نوفمبر ٢٠١٩ بواسطة Rebecca Bevans. تمت المراجعة في 15 فبراير 2021.

اختبار الفرضيات هو إجراء رسمي للتحقيق في أفكارنا حول العالم باستخدام الإحصائيات. غالبًا ما يستخدمه العلماء لاختبار تنبؤات محددة ، تسمى الفرضيات ، تنشأ من النظريات.

هناك 5 خطوات رئيسية في اختبار الفرضيات:

  1. اذكر فرضية البحث على أنها لاغية (Hا) ومناوب (Hأ) فرضية. بطريقة مصممة لاختبار الفرضية.
  2. قم بإجراء اختبار إحصائي مناسب.
  3. قرر ما إذا كانت الفرضية الصفرية مدعومة أم مرفوضة.
  4. اعرض النتائج في قسم النتائج والمناقشة.

على الرغم من أن التفاصيل المحددة قد تختلف ، إلا أن الإجراء الذي ستستخدمه عند اختبار فرضية ما سيتبع دائمًا نسخة من هذه الخطوات.


نظرة عامة على الإحصاء في التعليم

الاستدلال الإحصائي

يتكون الاستدلال الإحصائي من استخدام الإحصائيات لاستخلاص استنتاجات حول بعض الجوانب غير المعروفة للسكان بناءً على عينة عشوائية من تلك المجموعة السكانية. يمكن استخلاص بعض الاستنتاجات الأولية عن طريق استخدام EDA أو عن طريق حساب الإحصائيات الموجزة أيضًا ، لكن الاستدلال الإحصائي الرسمي يستخدم حسابات تستند إلى نظرية الاحتمالات لإثبات هذه الاستنتاجات. يمكن تقسيم الاستدلال الإحصائي إلى مجالين: التقدير واختبار الفرضيات. في التقدير ، الهدف هو وصف جانب غير معروف من السكان ، على سبيل المثال ، متوسط ​​درجات الكتابة في اختبار القدرات المدرسية (SAT) لجميع الممتحنين في ولاية كاليفورنيا بالولايات المتحدة الأمريكية. يمكن أن يكون التقدير من نوعين ، تقدير النقطة وتقدير الفاصل ، اعتمادًا على هدف التطبيق. الهدف من اختبار الفرضيات هو تحديد أي العبارات التكميلية حول السكان صحيحة. قد تكون هاتان العبارتان التكميليتان: (1) حصل طلاب كاليفورنيا على درجات أعلى في المتوسط ​​في كتابة SAT من طلاب تكساس ، و (2) حصل طلاب كاليفورنيا على درجات أقل في المتوسط ​​في كتابة SAT من طلاب تكساس. تتم مناقشة تقدير النقاط في قسم الإحصاء في الموسوعة. كما تمت مناقشة تفاصيل تقدير الفاصل الزمني واختبار الفرضيات وتحليل القوة ، والتي تلعب دورًا رئيسيًا في اختبار الفرضيات في قسم الإحصاء في الموسوعة. في كثير من الأحيان ، يتعين على المحقق إجراء العديد من اختبارات الفرضيات في وقت واحد. على سبيل المثال ، قد يرغب المرء في مقارنة درجات القراءة الحاسمة لـ SAT لعدة أزواج من المدارس التي تنتمي إلى منطقة جغرافية. يناقش المقال حول المقارنة المتعددة في قسم الإحصاء في الموسوعة كيفية التعامل مع مثل هذا الموقف بطريقة مناسبة.


الخطوة 1: تحديد الفرضية

عادة ، يتم ذكر القيمة المبلغ عنها (أو إحصائيات المطالبة) على أنها الفرضية ويفترض أنها صحيحة. بالنسبة للأمثلة المذكورة أعلاه ، ستكون الفرضية:

  • مثال أ: يحصل الطلاب في المدرسة على معدل 7 من أصل 10 في الامتحانات.
  • مثال ب: العائد السنوي للصندوق المشترك هو 8٪ سنويًا.

هذا الوصف المذكور يشكل "فرضية لاغية (H0)" وهو يفترضأن يكون صحيحًا - الطريقة التي يُفترض بها المتهم في المحاكمة أمام هيئة محلفين بريئًا حتى تثبت إدانته من خلال الأدلة المقدمة في المحكمة. وبالمثل ، يبدأ اختبار الفرضية بذكر "الفرضية الصفرية" وافتراضها ، ثم تحدد العملية ما إذا كان الافتراض من المحتمل أن يكون صحيحًا أم خاطئًا.

النقطة المهمة التي يجب ملاحظتها هي أننا نختبر الفرضية الصفرية لأن هناك عنصر شك حول صحتها. مهما كانت المعلومات التي تتعارض مع فرضية العدم المذكورة يتم التقاطها في الفرضية البديلة (H1). بالنسبة للأمثلة المذكورة أعلاه ، ستكون الفرضية البديلة:

  • يحصل الطلاب على متوسط ليس يساوي 7.
  • العائد السنوي للصندوق المشترك هو ليس يساوي 8٪ سنويا.

بمعنى آخر ، الفرضية البديلة هي تناقض مباشر للفرضية الصفرية.

كما في المحاكمة ، تفترض هيئة المحلفين براءة المتهم (فرضية باطلة). يجب على المدعي العام إثبات خلاف ذلك (فرضية بديلة). وبالمثل ، يجب على الباحث إثبات أن الفرضية الصفرية إما صحيحة أو خاطئة. إذا فشل المدعي العام في إثبات الفرضية البديلة ، يتعين على هيئة المحلفين السماح للمدعى عليه بالرحيل (استنادًا إلى فرضية العدم). وبالمثل ، إذا فشل الباحث في إثبات فرضية بديلة (أو ببساطة لم يفعل شيئًا) ، فيفترض أن الفرضية الصفرية صحيحة.

يجب أن تستند معايير اتخاذ القرار إلى معايير معينة لمجموعات البيانات.


المقدمة

المجلات الطبية مليئة بقيم P واختبارات الفرضيات. من الممارسات الشائعة بين الباحثين الطبيين أن يقتبسوا ما إذا كان اختبار الفرضية الذي أجروه مهمًا أم غير مهم ، ويتحمس العديد من الباحثين عندما يكتشفون اكتشاف & # x0201c ذات دلالة إحصائية & # x0201d دون فهم ما يعنيه حقًا. بالإضافة إلى ذلك ، في حين أن المجلات الطبية مليئة بالعبارات مثل: & # x0201cstatistical هام & # x0201d ، & # x0201cunllyely بسبب الصدفة & # x0201d ، & # x0201cnot هام ، & # x0201d & # x0201cue to chances & # x0201d ، أو تدوينات مثل ، & # x0201cP & # x0003e 0.05 & # x0201d، & # x0201cP & # x0003c 0.05 & # x0201d ، فإن القرار بشأن تحديد اختبار الفرضية مهم أم لا يعتمد على قيمة P قد ولّد جدلاً حادًا بين الإحصائيين. لقد بدأ بين مؤسسي الاستدلال الإحصائي منذ أكثر من 60 عامًا قبل 1-3. أحد العوامل المساهمة في ذلك هو أن الأدبيات الطبية تظهر ميلًا قويًا لإبراز النتائج الإيجابية التي يرغب العديد من الباحثين في الإبلاغ عن النتائج الإيجابية بناءً على الأبحاث التي تم الإبلاغ عنها سابقًا لأن & # x0201c النتائج غير المهمة يجب ألا تشغل & # x0201d مساحة المجلة 4-7 .

تم تقديم فكرة اختبار الأهمية بواسطة R.A. فيشر ، ولكن على مدى العقود الستة الماضية ، أسيء فهم فائدتها وفهمها وتفسيرها وأنتجت الكثير من الكتابات العلمية لمعالجة الموقف 3. إلى جانب الاختبار الإحصائي للفرضية ، توجد قيمة P ، والتي تم إساءة استخدام معناها وتفسيرها بالمثل. للتعمق في الموضوع ، هناك ما يبرر تاريخ قصير لتطور الاختبار الإحصائي للفرضية لإزالة بعض سوء الفهم.

تاريخ موجز لاختبار القيمة والأهمية

تطور اختبار الأهمية من فكرة وممارسة الإحصائي البارز R.A. فيشر في الثلاثينيات. فكرته بسيطة: لنفترض أننا وجدنا ارتباطًا بين مستوى الفقر وسوء التغذية بين الأطفال دون سن الخامسة. هذا اكتشاف ، لكن هل يمكن أن يكون اكتشافًا بالصدفة؟ أو ربما نريد تقييم ما إذا كان العلاج الغذائي الجديد يحسن الحالة التغذوية للأطفال المصابين بسوء التغذية. ندرس مجموعة من الأطفال المصابين بسوء التغذية الذين عولجوا بالعلاج الجديد ومجموعة مماثلة عولجت بالعلاج الغذائي القديم ووجدنا في مجموعة العلاج الجديدة تحسنًا في الحالة التغذوية بمقدار وحدتين مقارنة بمجموعة العلاج القديمة. من الواضح أن هذه النتيجة ستكون موضع ترحيب ولكن من الممكن أيضًا أن تكون هذه النتيجة محض صدفة. وهكذا ، رأى فيشر قيمة P كمؤشر يقيس قوة الدليل ضد الفرضية الصفرية (في أمثلةنا ، الفرضية القائلة بعدم وجود ارتباط بين مستوى الفقر وسوء التغذية أو أن العلاج الجديد لا يحسن الحالة التغذوية). لتقدير قوة الدليل ضد الفرضية الصفرية ، دعا # x0201che إلى P & # x0003c 0.05 (أهمية 5 ٪) كمستوى قياسي لاستنتاج أن هناك دليلًا ضد الفرضية التي تم اختبارها ، وإن لم يكن ذلك كقاعدة مطلقة & # x02019 & # x02019 8. لم يتوقف فيشر عند هذا الحد ولكنه صنف قوة الأدلة ضد فرضية العدم. اقترح & # x0201cif P ما بين 0.1 و 0.9 بالتأكيد لا يوجد سبب للشك في الفرضية التي تم اختبارها. إذا كانت & # x02019s أقل من 0.02 ، فيشير بقوة إلى أن الفرضية لا تأخذ في الحسبان كل الحقائق. لن نضل كثيرًا إذا رسمنا خطًا تقليديًا عند 0.05 & # x02019 & # x02019 9. منذ أن أدلى فيشر بهذا البيان منذ أكثر من 60 عامًا ، استخدم الباحثون الطبيون 0.05 نقطة فاصلة في جميع أنحاء العالم وأصبح من الطقوس استخدام علامة قطع 0.05 كما لو كان لا يمكن استخدام نقاط الفصل الأخرى. خلال الستينيات من القرن الماضي ، كان من الممارسات القياسية في العديد من المجالات الإبلاغ عن قيم P مع إرفاق النجمة للإشارة إلى P & # x0003c 0.05 ونجمتين للإشارة إلى P & # x0003c 0.01. تم استخدام ثلاث نجوم من حين لآخر للإشارة إلى P & # x0003c 0.001. في حين طور فيشر هذه الممارسة المتمثلة في تحديد قوة الأدلة ضد الفرضية الصفرية ، إلا أن بعض الإحصائيين البارزين لم يعتادوا على التفسير الذاتي المتأصل في الطريقة 7. أدى ذلك إلى قيام جيرزي نيمان وإيجون بيرسون باقتراح نهج جديد أطلقوا عليه & # x0201cHypothesis tests & # x0201d. لقد جادلوا بأن هناك نوعين من الأخطاء التي يمكن ارتكابها في تفسير نتائج التجربة كما هو موضح في الجدول & # x200B Table1 1.

الجدول 1.

أخطاء مرتبطة بنتائج التجربة.

الحقيقه
نتيجة التجربةفرضية لاغية صحيحةفرضية فارغة خاطئة
رفض فرضية العدماكتب معدل الخطأ الأول (& # x003b1)القوة = 1- & # x003b2
قبول فرضية العدمالقرار الصحيحمعدل الخطأ من النوع الثاني (& # x003b2)

نتيجة اختبار الفرضية هي واحدة من اثنتين: رفض فرضية وقبول الأخرى. يؤدي تبني هذه الممارسة إلى كشف نوع واحد إلى نوعين من الأخطاء: رفض الفرضية الصفرية عندما ينبغي قبولها (على سبيل المثال ، يختلف العلاجان عندما يكونان متماثلين في الواقع ، ويُعرفان أيضًا بالنتيجة الإيجابية الخاطئة ، أو الخطأ من النوع الأول أو الخطأ ألفا ).

ماذا تعني قيمة P؟

تُعرَّف قيمة P على أنها الاحتمال في ظل افتراض عدم وجود تأثير أو عدم وجود فرق (فرضية فارغة) ، للحصول على نتيجة مساوية أو أكثر تطرفًا مما لوحظ بالفعل. يشير P إلى الاحتمال ويقيس مدى احتمالية أن أي فرق ملحوظ بين المجموعات يرجع إلى الصدفة. لكونها احتمالية ، يمكن أن تأخذ P أي قيمة بين 0 و 1. تشير القيم القريبة من 0 إلى أنه من غير المحتمل أن يكون الاختلاف الملحوظ ناتجًا عن الصدفة ، بينما تشير قيمة P قريبة من 1 إلى عدم وجود فرق بين المجموعات بخلاف نتيجة الصدفة. وبالتالي ، من الشائع في المجلات الطبية أن ترى صفات مثل & # x0201chighly & # x0201d أو & # x0201c ذات دلالة كبيرة & # x0201d بعد اقتباس قيمة P اعتمادًا على مدى قرب القيمة من الصفر.

قبل ظهور أجهزة الكمبيوتر والبرامج الإحصائية ، اعتمد الباحثون على القيم المجدولة لـ P لاتخاذ القرارات. هذه الممارسة عفا عليها الزمن الآن ويفضل استخدام قيمة P الدقيقة. يمكن أن تعطي البرامج الإحصائية قيمة P الدقيقة وتسمح بتقدير نطاق القيم التي يمكن أن تأخذها P بين 0 و 1. باختصار ، على سبيل المثال ، تم أخذ أوزان 18 موضوعًا من المجتمع لتحديد ما إذا كان وزن الجسم مثاليًا (أي. 100 كجم). باستخدام اختبار الطالب & # x02019s t ، تبين أن t كانت 3.76 عند 17 درجة من الحرية. مقارنة مع tستات مع القيم المجدولة ، تكون t = 3.26 أكثر من القيمة الحرجة البالغة 2.11 عند p = 0.05 وبالتالي تقع في منطقة الرفض. وبالتالي فإننا نرفض الفرضية الصفرية القائلة بأن & # x000ec = 100 ونستنتج أن الفرق كبير. ولكن باستخدام SPSS (برنامج إحصائي) ، جاءت المعلومات التالية عند إدخال البيانات ، t = 3.758 ، P = 0.0016 ، متوسط ​​الفرق = 12.78 وفواصل الثقة 5.60 و 19.95. يوصي علماء المنهج الآن بشكل متزايد بضرورة أن يبلغ الباحثون عن قيمة P الدقيقة. على سبيل المثال ، P = 0.023 بدلاً من P & # x0003c 0.05 10. علاوة على ذلك ، فإن استخدام P = 0.05 & # x0201c هو مفارقة تاريخية. تمت تسويته عندما كان من الصعب حساب قيم P وبالتالي يلزم توفير بعض القيم المحددة في الجداول. أصبح الآن حساب قيم P الدقيقة أمرًا سهلاً (أي الكمبيوتر يفعل ذلك) وبالتالي يمكن للمحقق الإبلاغ (P = 0.04) وتركه للقارئ (لتحديد أهميته) & # x0201d 11.

اختبارات الفرضية

يوفر الاختبار الإحصائي آلية لاتخاذ قرارات كمية حول عملية أو عمليات. والغرض من ذلك هو عمل استنتاجات حول معلمة المجتمع من خلال تحليل الفروق بين إحصائية العينة المرصودة والنتائج التي يتوقع المرء الحصول عليها إذا كانت بعض الافتراضات الأساسية صحيحة. قد تكون هذه المقارنة قيمة مراقبة واحدة مقابل بعض الكمية المفترضة أو قد تكون بين مجموعتين أو أكثر من المجموعات ذات الصلة أو غير ذات الصلة. يعتمد اختيار الاختبار الإحصائي على طبيعة البيانات وتصميم الدراسة.

اقترح Neyman and Pearson هذه العملية للتحايل على الممارسة الشخصية لـ Fisher & # x02019s لتقييم قوة الأدلة ضد التأثير العدم. في شكلها المعتاد ، يتم طرح فرضيتين: فرضية العدم (عادةً ما تكون بيانًا للتأثير العدمي) وفرضية بديلة (عادةً ما تكون عكس الفرضية الصفرية).بناءً على نتيجة اختبار الفرضية ، يتم رفض فرضية واحدة وقبول الأخرى بناءً على معيار تعسفي محدد مسبقًا. تم تعيين علامة المقعد هذه على القيمة P. ومع ذلك ، يقع المرء في ارتكاب خطأ: قد يرفض المرء فرضية واحدة بينما في الواقع يجب قبولها والعكس صحيح. يوجد خطأ من النوع الأول أو خطأ & # x000e1 (على سبيل المثال ، لم يكن هناك اختلاف ولكن كان هناك بالفعل) وخطأ من النوع الثاني أو خطأ & # x000e2 (على سبيل المثال ، عندما كان هناك اختلاف بينما لم يكن هناك أي اختلاف في الواقع). في شكله البسيط ، يتضمن اختبار الفرضية الخطوات التالية:

تحديد الفرضيات الباطلة والبديلة.

تحديد إحصاء الاختبار المناسب وتوزيعه على افتراض أن الفرضية الصفرية صحيحة.

حدد مستوى الأهمية وحدد القيمة الحرجة المقابلة لإحصاء الاختبار على افتراض أن الفرضية الصفرية صحيحة.

احسب إحصاء الاختبار من البيانات. بعد مناقشة قيمة P واختبار الفرضيات ، يتم الآن النظر في مغالطات اختبار الفرضيات وقيمة P.

مغالطات اختبار الفرضيات

في ورقة قدمتها للنشر في إحدى المجلات الطبية المقروءة على نطاق واسع في نيجيريا ، علق أحد المراجعين على التوزيع العمري والجنس للمشاركين ، & # x0201c هل هناك أي اختلاف في توزيع الجنس ، يخضع لإحصائيات مربع تشي & # x0201d ؟ من الناحية الإحصائية ، لا ينقل هذا السؤال أي استفسار وهذه واحدة من حالات عديدة بين الباحثين الطبيين (مشرفو الدراسات العليا على حد سواء) يتم فيها اللجوء إلى اختبار الفرضية بشكل سريع وعفوي دون مراعاة التطبيق المناسب لها. كان الهدف من بحثي هو تحديد مدى انتشار مرض السكري في المجتمع الريفي ، ولم يكن من أهدافي تحديد أي ارتباط بين الجنس وانتشار مرض السكري. بالنسبة إلى غير المتمرسين ، فإن هذا التعليق سيحفز بالتأكيد إجراء اختبار الفرضية ببساطة لإرضاء المحرر والمراجع بحيث تبحر المقالة. ومع ذلك ، فإن نتائج هذه الاختبارات الإحصائية يصعب فهمها وتفسيرها في ضوء البيانات. (أظهرت نتيجة الدراسة أن جميع من يعانون من ارتفاع السكر في الدم أثناء الصيام هم من الإناث). هناك العديد من المغالطات المرتبطة باختبار الفرضيات. فيما يلي قائمة صغيرة من شأنها أن تساعد في تجنب هذه المغالطات.

يؤدي عدم رفض فرضية العدم إلى قبولها. (لا. عندما تفشل في رفض فرضية العدم فهذا يعني أنه لا يوجد دليل كاف للرفض)

استخدام & # x000e1 = 0.05 هو معيار ذو أساس موضوعي (لا. & # x000e1 = 0.05 هي مجرد اتفاقية تطورت من ممارسة R.A. فيشر. لا يوجد تمييز حاد بين & # x0201csignificant & # x0201d و & # x0201cnot نتائج هامة & # x0201d ، فقط زيادة الأدلة القوية ضد فرضية العدم حيث يصبح P أصغر. (P = 0.02 أقوى من P = 0.04)

تشير قيمة P الصغيرة إلى تأثيرات كبيرة (لا. لا تخبر القيمة P أي شيء عن حجم التأثير)

الأهمية الإحصائية تعني الأهمية السريرية. (لا. تقول الدلالة الإحصائية القليل جدًا عن الأهمية السريرية للعلاقة. هناك فرق كبير بين الدلالة الإحصائية والدلالة السريرية. من خلال التعريف الإحصائي في & # x000e1 = 0.05 ، فهذا يعني أن 1 من 20 مقارنة تكون فيها الفرضية الصفرية صحيحة ستؤدي إلى P & # x0003c 0.05 !. أخيرًا ، مع هذه المغالطات والعديد من مغالطات اختبار الفرضيات ، من المحزن أن نقرأ في المجلات كيف أصبح اختبار الأهمية اختبارًا غير مهم.

مغالطات قيمة P

مثلما يرتبط اختبار الفرضية ببعض المغالطات ، فإن قيمة P مع الأسباب الجذرية الشائعة ، & # x0201c من الطبيعي أن يكون أي اكتشاف يستحق الملح له قيمة P أقل من 0.05 وميض مثل ختم معين من الله الموافقة & # x02019 & # x02019 12. يمكن أن تكون الذاتية المتأصلة في نهج قيمة Fisher & # x02019s P والفهم الضعيف اللاحق لهذا النهج من قبل المجتمع الطبي هو السبب في ارتباط قيمة P بعدد لا يحصى من المغالطات. ثالثًا ، أدت القيمة P التي أنتجها الباحثون على أنها مجرد & # x02018 & # x02019passports للنشر & # x02019 & # x02019 إلى تفاقم الوضع 13. لقد استيقظنا سابقًا على عدم كفاية قيمة P في التجارب السريرية التي أجراها Feinstein 14 ،

& # x0201c طريقة اتخاذ القرارات الإحصائية حول & # x02018significance & # x02019 تخلق واحدة من أكثر المفارقات تدميراً في علم الأحياء الحديث. لتجنب البيانات الفئوية المعتادة ، عادة ما يبذل المحقق الناقد جهودًا هائلة في عملية القياس. سيحصل على آلات خاصة وأجهزة تكنولوجية متقنة لاستكمال بيانه الفئوي القديم بقياسات جديدة لبيانات الأبعاد & # x02018continuous & # x02019. بعد كل هذا العمل في الحصول على بيانات & # x02018continuous & # x02019 ، ومع ذلك ، وبعد حساب جميع الاختبارات الإحصائية للبيانات ، يتخذ المحقق القرار النهائي بشأن نتائجه على أساس زوج تعسفي تمامًا من الفئات ثنائية التفرع. هذه الفئات ، التي تسمى & # x02018significant & # x02019 و & # x02018nonsignant & # x02019 ، يتم تحديدها عادةً بقيمة P إما 0.05 أو 0.01 ، ويتم اختيارها وفقًا للإملاءات المتقلبة للإحصائي أو المحرر أو المراجع أو الوكالة المانحة . إذا كان المستوى المطلوب لـ & # x02018significant & # x02019 هو 0.05 أو أقل وقيمة P التي تظهر هي 0.06 ، فقد يكون المحقق جاهزًا لتجاهل تجربة جيدة التصميم ، وأجريت بشكل ممتاز ، ومحللة بعناية ، ومهمة علميًا لأنها فشلت في العبور طالبت حدود Procrustean بالموافقة الإحصائية.

يجب أن نحاول أن نفهم أن فيشر أراد الحصول على مؤشر قياس يساعده على تحديد قوة الدليل ضد التأثير العديم. ولكن كما قيل سابقًا ، كانت فكرته غير مفهومة جيدًا وانتقدت مما أدى إلى قيام نيمان وبيرسون بتطوير اختبار الفرضيات من أجل الالتفاف على المشكلة. لكن هذه نتيجة محاولتهم: & # x0201ccept & # x0201d أو & # x0201creject & # x0201d فرضية فارغة أو بدلاً من ذلك & # x0201csignificant & # x0201d أو & # x0201cnon مهم & # x0201d. يسود عدم كفاية قيمة P في اتخاذ القرار تصميم الدراسات الوبائية. دفع نهج الرأس أو الذيل هذا لاختبار الفرضية أصحاب المصلحة في هذا المجال (الإحصائي أو المحرر أو المراجع أو الوكالة المانحة) إلى ارتباك وصعوبة متزايدة. إنها حقيقة مقبولة بين الإحصائيين حول عدم كفاية قيمة P كحكم معياري وحيد في تحليل التجارب السريرية 15. مثلما لا يخلو اختبار الفرضيات من المحاذير ، كذلك قيم P. يتم الكشف عن بعض هذه أدناه.

قيمة العتبة ، P & # x0003c 0.05 عشوائية. كما قيل سابقًا ، كان من ممارسات فيشر تعيين P بقيمة 0.05 كمقياس للأدلة ضد التأثير العديم. يمكن للمرء أن يجعل اختبار & # x0201cs الهام & # x0201d أكثر صرامة بالانتقال إلى 0.01 (1٪) أو أقل صرامة بتحريك الحد إلى 0.10 (10٪). تقسيم قيم P إلى & # x0201csignificant & # x0201d و & # x0201cnon مهم & # x0201d يفقد المرء المعلومات بنفس طريقة تحديد نتائج المختبر إلى الوضع الطبيعي & # x0201d و & # x0201cabnormal & # x0201d ، قد يسأل المرء ما هو الفرق بين سكر الدم الصائم لـ 25 مليمول / لتر و 15 مليمول / لتر؟

يُفترض أن النتائج ذات الدلالة الإحصائية (P & # x0003c 0.05) ناتجة عن تأثيرات العلاج الحقيقية التي تتجاهل حقيقة أن 1 من 20 مقارنة للتأثيرات التي تكون فيها الفرضية الصفرية صحيحة ستؤدي إلى اكتشاف مهم (P & # x0003c 0.05). تكون هذه المشكلة أكثر خطورة عندما تم إجراء العديد من اختبارات الفرضية التي تتضمن عدة متغيرات دون استخدام الاختبار الإحصائي المناسب ، على سبيل المثال ، ANOVA بدلاً من اختبار t المتكرر.

لا تترجم نتيجة الدلالة الإحصائية إلى أهمية إكلينيكية. يمكن أن تكشف دراسة كبيرة عن اكتشاف صغير غير مهم سريريًا.

نادرا ما تكون الفرصة هي القضية الأكثر أهمية. تذكر أنه عند إجراء بحث ، عادة ما يتم إعطاء استبيان للمشاركين. يجمع هذا الاستبيان في معظم الحالات كمية كبيرة من المعلومات من عدة متغيرات مدرجة في الاستبيان. تعد الطريقة التي يتم بها طرح الأسئلة وطريقة الإجابة عليها مصادر مهمة للأخطاء (الخطأ المنهجي) التي يصعب قياسها.

ما الذي يؤثر على قيمة P؟

بشكل عام ، تؤثر هذه العوامل على قيمة P.

حجم التأثير. من أهداف البحث المعتادة اكتشاف الفرق بين عقارين أو إجراءات أو برامج. يتم استخدام العديد من الإحصائيات لقياس حجم التأثير الناتج عن هذه التدخلات. وهي تتراوح: r 2 ، & # x000e7 2 ، & # x000f9 2 ، و R 2 ، و Q 2 ، و Cohen & # x02019s d ، و Hedge & # x02019s g. توجد مشكلتان: استخدام مؤشر مناسب لقياس التأثير وثانيًا حجم التأثير. سيكون للفرق 7 كجم أو 10 مم زئبق قيمة P أقل (ومن المرجح أن تكون كبيرة) من فرق 2 كجم أو 4 مم زئبق.

حجم العينة. كلما كانت العينة أكبر ، زادت احتمالية اكتشاف الفرق. علاوة على ذلك ، فإن اختلاف 7 كجم في دراسة أجريت على 500 مشارك سيعطي قيمة P أقل من 7 كجم فرق لوحظ في دراسة شملت 250 مشاركًا في كل مجموعة.

انتشار البيانات. يتم قياس انتشار الملاحظات في مجموعة البيانات بشكل شائع باستخدام الانحراف المعياري. كلما زاد الانحراف المعياري ، زاد انتشار الملاحظات وانخفضت قيمة P.

القيمة P والأهمية الإحصائية: أساس غير مألوف

لم تؤيد كل من مدرستي Fisherian و Neyman-Pearson (NP) ممارسة التصريح ، واعتبرت قيم & # x0201cP التي تقل عن 0.05 ذات دلالة إحصائية & # x0201d أو & # x0201cP- كانت القيمة 0.02 وبالتالي كان هناك فرق ذو دلالة إحصائية. & # x0201d هذه العبارات والعديد من العبارات المماثلة لها مجلات طبية متقاطعة وكتب قياسية للإحصاءات وقدمت أرضية غير مألوفة للزواج من المدرستين. وزاد هذا التزاوج من الإزعاج من تعميق الارتباك وسوء الفهم بين مدرستي Fisherian و Neyman-Pearson. لم يسلط الجمع بين أفكار Fisherian و N-P (كما هو موضح في البيانات أعلاه) الضوء على التفسير الصحيح للاختبار الإحصائي للفرضية والقيمة p. إن هجين المدرستين كما يقرأ غالبًا في المجلات الطبية والكتب المدرسية للإحصاء يجعل الأمر كما لو أن المدرستين كانتا ومتوافقة كطريقة واحدة متماسكة للاستدلال الإحصائي 4 ، 23 ، 24. هذا الارتباك ، الذي استمر في المجلات الطبية والكتب المدرسية للإحصاءات والمراجعين والمحررين ، جعل من المستحيل تقريبًا نشر تقرير البحث بدون عبارات أو ملاحظات مثل ، x0201cP & # x0003c0.05 & # x0201d أو & # x0201cP & # x0003e0.05 & # x0201d.Sterne ، ثم سأل & # x0201cc هل نتخلص من قيم P؟ كانت إجابته & # x0201cpactical Experience تقول لا ، لماذا؟ 21 & # x0201d

ومع ذلك ، فإن القسم التالي & # x0201cP- قيمة وفترة الثقة: أرضية مشتركة & # x0201d توفر إحدى الطرق الممكنة للخروج من المشكلة التي تبدو غير قابلة للحل. علق Goodman على P & # x02013value ونهج فاصل الثقة في الاستدلال الإحصائي وقدرته على حل المشكلة. & # x0201c الجهود القليلة لإزالة قيم P من المجلات لصالح فترات الثقة لم تكن ناجحة بشكل عام ، مما يشير إلى أن الباحثين & # x02019 بحاجة إلى مقياس من الأدلة لا تزال قوية وأنهم غالبًا ما يشعرون بالضياع بدون واحد & # x0201d 6.

فاصل القيمة والثقة: أرضية مشتركة

وبالتالي ، فقد فحصت هذه الورقة حتى الآن التطور التاريخي للاختبار & # x02018significance & # x02019 كما اقترحه في البداية R.A. فيشر. لم يكن نيمان وبيرسون معتادين على نهجه الشخصي ولذلك اقترح & # x02018 اختبار الفرضية & # x02019 التي تتضمن نتائج ثنائية: & # x0201ccept & # x0201d or & # x0201creject & # x0201d فرضية فارغة. هذا ، كما رأينا ، لم & # x0201cs حل & # x0201d المشكلة تمامًا. وبالتالي ، كانت هناك حاجة إلى أرضية مشتركة وكان الجمع بين قيمة P وفترات الثقة يوفر الأرضية المشتركة التي تشتد الحاجة إليها.

قبل المتابعة ، يجب أن نفهم بإيجاز ما تعنيه فترات الثقة (CIs) بعد المرور بما تعنيه قيم p واختبار الفرضيات. افترض أن لدينا نظامين غذائيين A و B لمجموعتين من الأطفال المصابين بسوء التغذية. لوحظ زيادة في وزن الجسم بمقدار 8 كجم بين الأطفال على النظام الغذائي أ بينما لوحظ زيادة في وزن الجسم بمقدار 3 كجم في النظام الغذائي ب. وبالتالي فإن التأثير في زيادة الوزن هو 5 كجم في المتوسط. ولكن من الواضح أن الزيادة قد تكون أقل من 3 كجم وأيضًا أكثر من 8 كجم ، وبالتالي يمكن تمثيل النطاق والفرصة المرتبطة بهذا النطاق ضمن فترات الثقة. وبالتالي ، فإن فاصل الثقة 95٪ في هذا المثال يعني أنه إذا تكررت الدراسة 100 مرة ، 95 من 100 مرة ، فإن CI تحتوي على الزيادة الحقيقية في الوزن. بشكل رسمي ، 95٪ CI: & # x0201ct الفاصل الزمني المحسوب من بيانات العينة والذي عند تكرار الدراسة عدة مرات سيحتوي على التأثير الحقيقي 95٪ من الوقت. & # x0201d

في الثمانينيات ، حاول عدد من الإحصائيين البريطانيين الترويج لاستخدام نهج الأرضية المشتركة هذا في تقديم التحليل الإحصائي 16 ، 17 ، 18. وشجعوا العرض المشترك لقيمة P وفترات الثقة. يعد استخدام فترات الثقة في معالجة اختبار الفرضيات أحد الأساليب الأربعة الشائعة التي أصدرها محررو المجلات والإحصائيون البارزون بيانات تدعم استخدامها 19. تماشياً مع هذا ، قامت الجمعية الأمريكية لعلم النفس ومجلس الشؤون العلمية # x02019 بتكليف ورقة بيضاء ، & # x0201cTask Force on Statistical Inference & # x0201d. اقترحت فرقة العمل ،

& # x0201c عند الإبلاغ عن الإحصائيات الاستدلالية (على سبيل المثال ، t - الاختبارات ، F - الاختبارات ، ومربع كاي) تتضمن معلومات حول & # x02026 .. قيمة إحصائية الاختبار ، ودرجة الحرية ، واحتمال الحصول على قيمة متطرفة أو أكثر تطرفًا من القيمة التي تم الحصول عليها [أي القيمة P] & # x02026. تأكد من تضمين إحصائيات وصفية كافية [على سبيل المثال حجم العينة لكل خلية ، الوسائل ، الارتباطات ، الانحرافات المعيارية] & # x02026. يمكن أن يكون الإبلاغ عن فترات الثقة [لتقديرات المعلمات ، لوظائف المعلمات مثل الاختلافات في الوسائل ، وأحجام التأثير] طريقة فعالة للغاية للإبلاغ عن النتائج & # x02026 لأن فترات الثقة تجمع المعلومات حول الموقع والدقة ويمكن أن تكون في كثير من الأحيان تستخدم مباشرة لاستنتاج مستويات الأهمية & # x0201d 20.

جاء جوناثان ستيرن وديفي سميث بإرشاداتهما المقترحة للإبلاغ عن التحليل الإحصائي كما هو موضح في المربع 21:

المربع 1: الإرشادات المقترحة & # x02019s للإبلاغ عن نتائج التحليلات الإحصائية في المجلات الطبية.

وصف الفروق على أنها ذات دلالة إحصائية غير مقبول.

يجب دائمًا تضمين فترات الثقة للنتائج الرئيسية ، ولكن يجب استخدام 90٪ بدلاً من 95٪. لا ينبغي استخدام فترات الثقة كوسيلة بديلة لفحص الأهمية عند مستوى 5٪ التقليدي. يجب أن يركز تفسير فترات الثقة على الآثار (الأهمية السريرية) لمجموعة القيم في الفترة.

عندما تكون هناك فرضية فارغة ذات معنى ، يجب فهرسة قوة الدليل ضدها بقيمة P. كلما كانت قيمة P أصغر ، كلما كان الدليل أقوى.

في حين أنه من المستحيل تقليل كمية تجريف البيانات التي يتم إجراؤها بشكل كبير ، يجب على المؤلفين اتخاذ وجهة نظر متشككة للغاية لتحليلات المجموعات الفرعية في التجارب السريرية والدراسات القائمة على الملاحظة. قوة الدليل على التفاعل - أن التأثيرات تختلف حقًا بين المجموعات الفرعية ويجب دائمًا تقديم # x02013. يجب أن تكون المطالبات المقدمة على أساس نتائج المجموعة الفرعية أكثر هدوءًا من الادعاءات المقدمة حول التأثيرات الرئيسية.

في الدراسات القائمة على الملاحظة ، يجب أن نتذكر أن اعتبارات الالتباس والتحيز لا تقل أهمية عن القضايا التي نوقشت في هذه الورقة.

منذ الثمانينيات عندما دافع الإحصائيون البريطانيون عن استخدام فترات الثقة ، تصدر مجلة تلو الأخرى بيانات تتعلق باستخدامها. في مقال افتتاحي في الكيمياء السريرية ، جاء ما يلي:

& # x0201c ليس هناك شك في أن فاصل الثقة للفرق بين اثنين من الوسائل أو النسب الحقيقية (على سبيل المثال ، السكان) ، بناءً على الفرق الملحوظ بين تقدير العينة ، يوفر معلومات أكثر فائدة من قيمة P ، بغض النظر عن مدى الدقة ، بالنسبة لـ احتمالية أن يكون الاختلاف الحقيقي صفرًا. يعكس فاصل الثقة دقة قيم العينة من حيث الانحراف المعياري وحجم العينة & # x02026 .. & # x02019 & # x02019 22

في الملاحظة الأخيرة ، من المهم معرفة سبب تفوقها إحصائيًا على استخدام قيمة P وفواصل الثقة بدلاً من اختبار القيمة والافتراض:

تؤكد فترات الثقة على أهمية التقدير على اختبار الفرضيات. من المفيد أكثر أن نقتبس حجم حجم التأثير بدلاً من اعتماد اختبار الفرضية غير المهم.

يوفر عرض CIs مقياسًا لموثوقية أو دقة التقدير.

تجعل فترات الثقة من السهل تحديد ما إذا كان للنتيجة أي أهمية جوهرية (على سبيل المثال السريرية) ، بدلاً من الأهمية الإحصائية.

في حين أن الاختبارات الإحصائية الهامة عرضة لخطأ من النوع الأول ، فإن CI ليست كذلك.

يمكن استخدام فترات الثقة كاختبار أهمية. القاعدة البسيطة هي أنه إذا لم تتضمن 95٪ CIs القيمة الخالية (عادةً صفر للاختلاف في الوسائل والنسب واحد للمخاطر النسبية ونسبة الأرجحية) يتم رفض الفرضية الصفرية عند مستويات 0.05.

أخيرًا ، يعزز استخدام CIs تطوير المعرفة التراكمية من خلال إلزام الباحثين بالتفكير التحليلي التلوي حول التقدير والتكرار ومقارنة الفترات عبر الدراسات 25. على سبيل المثال ، في التحليل التلوي للتجارب التي تتعامل مع النترات الوريدية في حالات احتشاء عضلة القلب الحاد ، وجد انخفاض في معدل الوفيات في مكان ما بين الربع والثلثين. وفي الوقت نفسه ، أظهرت ست تجارب سابقة 26 نتائج متضاربة: كشفت بعض التجارب أنه من الخطر إعطاء النترات في الوريد بينما كشفت تجارب أخرى أنها تقلل من معدل الوفيات بالفعل. بالنسبة إلى التجارب الست ، فإن نسبة الأرجحية ، 95٪ CIs وقيم P هي: OR = 0.33 (CI = 0.09 ، 1.13 ، P = 0.08) OR = 0.24 (CI = 0.08 ، 0.74 ، P = 0.01) OR = 0.83 ( CI = 0.33 ، 2.12 ، P = 0.07) OR = 2.04 (CI = 0.39 ، 10.71 ، P = 0.04) OR = 0.58 (CI = 0.19. 1.65 P = 0.29) و OR = 0.48 (CI = 0.28 ، 0.82 P = 0.007 ). تبدو الدراسات الأولى والثالثة والرابعة والخامسة ضارة بينما تبدو الدراسات الثانية والسادسة مفيدة (في تقليل الوفيات).

ما الذي يجب عمله؟

في حين أنه من الممكن إجراء تغيير وتحسين في الممارسة ، إلا أنه ، كما يحذر كوهين ، & # x0201cDon & # x02019t ابحث عن بديل سحري & # x02026 غير موجود & # x0201d 27.

يجب وضع الأساس للتغيير في هذه الممارسة في أساس إحصاءات التدريس: الفصل الدراسي. يجب أن يفرق المنهج والتدريس في غرفة الصف بوضوح بين المدرستين. يجب شرح التطور التاريخي بوضوح وكذلك معنى & # x0201c أهمية إحصائية & # x0201d. يجب أن يبدأ تدريس المفاهيم الصحيحة في الفصل الدراسي في المرحلة الجامعية الأولى ثم الانتقال إلى مرحلة التخرج من التدريس في الفصول الدراسية ، حتى لو كان ذلك يعني أن هذا التدريس سيكون في المستوى التمهيدي.

يجب علينا تعزيز وتشجيع استخدام فترات الثقة حول إحصائيات العينة وأحجام التأثير. يقع هذا الواجب على عاتق معلمي الإحصاء ومحرري المجلات الطبية والمراجعين وأي جهة مانحة.

بشكل عام ، يتم تشجيع الباحثين الذين يستعدون لدراسة ما على استشارة خبير إحصائي في المرحلة الأولى من دراستهم لتجنب إساءة تفسير قيمة P خاصةً إذا كانوا يستخدمون برامج إحصائية لتحليل بياناتهم.


ما هو التحليل الإحصائي؟

أولاً ، دع & # 8217s يوضح أن & # 8220 التحليل الإحصائي & # 8221 هو مجرد الطريقة الثانية لقول & # 8220 الإحصائيات. & # 8221 الآن ، التعريف الرسمي:

التحليل الإحصائي هو دراسة ، علم جمع وتنظيم واستكشاف وتفسير وتقديم البيانات والكشف عنها الأنماط والاتجاهات .

تعتمد العديد من الشركات على التحليل الإحصائي وأصبحت أكثر أهمية. أحد الأسباب الرئيسية هو أن البيانات الإحصائية تستخدم للتنبؤ بالاتجاهات المستقبلية ولتقليل المخاطر.

علاوة على ذلك ، إذا نظرت حولك ، سترى عددًا كبيرًا من المنتجات (هاتفك المحمول على سبيل المثال) التي تم تحسينها بفضل نتائج البحث والتحليل الإحصائي.

فيما يلي بعض المجالات التي تلعب فيها الإحصائيات دورًا مهمًا:

    طرق جمع البيانات وتحليلها
  • ذكاء الأعمال
  • تحليل البيانات
  • تحسين محركات البحث وتحسين هدف بحث المستخدم
  • التحليل المالي وغيرها الكثير.

تسمح الإحصائيات للشركات بالتعمق في معلومات محددة لمعرفة المواقف الحالية والاتجاهات المستقبلية واتخاذ القرارات الأكثر ملاءمة.

هناك نوعان رئيسيان من التحليل الإحصائي: الوصفي والاستدلال.

النوعان الرئيسيان للتحليل الإحصائي

في عالم التحليل الحقيقي ، عند تحليل المعلومات ، من الطبيعي استخدام كلا النوعين الوصفي والاستنتاجي من الإحصائيات.

بشكل عام ، في العديد من الأبحاث التي يتم إجراؤها على مجموعات من الأشخاص (مثل أبحاث التسويق لتحديد قطاعات السوق) ، يتم استخدام كل من الإحصائيات الوصفية والاستنتاجية لتحليل النتائج والتوصل إلى استنتاجات.

ما هو الإحصاء الوصفي والاستنتاجي؟ ما الفرق بينهم؟

النوع الوصفي للتحليل الإحصائي

كما يوحي الاسم ، يتم استخدام الإحصاء الوصفي لوصف! يصف السمات الأساسية للمعلومات ويظهر أو يلخص البيانات بطريقة عقلانية. الإحصاء الوصفي هو دراسة للوصف الكمي.

يسحب هذا النوع من الإحصائيات جميع البيانات من مجموعة سكانية معينة (السكان عبارة عن مجموعة كاملة ، كل عضو في هذه المجموعة) أو عينة منه. يمكن أن تتضمن الإحصائيات الوصفية أرقامًا أو مخططات أو جداول أو رسومًا بيانية أو أنواعًا أخرى لتصور البيانات لتقديم البيانات الأولية.

ومع ذلك ، فإن الإحصاء الوصفي لا يسمح بالتوصل إلى استنتاجات. لا يمكنك الحصول على استنتاجات وإصدار تعميمات تتجاوز البيانات الموجودة في متناول اليد. باستخدام الإحصاء الوصفي ، يمكنك ببساطة وصف ما هو وما هي البيانات الموجودة.

على سبيل المثال، إذا كان لديك مجموعة بيانات تضم 30 عاملاً في قسم الأعمال ، فيمكنك العثور على متوسط ​​مجموعة البيانات هذه لهؤلاء الثلاثين عاملاً. ومع ذلك ، لا يمكنك اكتشاف المتوسط ​​النهائي لجميع العاملين في الشركة بأكملها باستخدام تلك البيانات فقط. تخيل ، هذه الشركة لديها 10000 عامل.

على الرغم من ذلك ، فإن هذا النوع من الإحصائيات مهم جدًا لأنه يسمح لنا بعرض البيانات بطريقة ذات مغزى. يمكن أن يمنحنا أيضًا القدرة على تقديم تفسير بسيط للبيانات.

بالإضافة إلى ذلك ، يساعدنا في تبسيط كميات كبيرة من البيانات بطريقة معقولة.

النوع الاستنتاجي للتحليل الإحصائي

كما ترى أعلاه ، فإن القيد الرئيسي للإحصاءات الوصفية هو أنه يسمح لك فقط بعمل ملخصات حول الكائنات أو الأشخاص الذين قمت بقياسها.

إنه قيد خطير. هذا هو المكان الذي تأتي فيه الإحصاءات الاستنتاجية.

الإحصائيات الاستدلالية هي نتيجة لتقديرات رياضية أكثر تعقيدًا ، وتسمح لنا باستنتاج اتجاهات حول عدد أكبر من السكان بناءً على عينات من "الموضوعات" المأخوذة منها.

يستخدم هذا النوع من التحليل الإحصائي لدراسة العلاقات بين المتغيرات داخل عينة ، ويمكنك عمل استنتاجات أو تعميمات أو تنبؤات حول عدد أكبر من السكان. بمعنى آخر ، تمثل العينة السكان بدقة.

علاوة على ذلك ، تسمح إحصائيات الاستدلال للشركات والمؤسسات الأخرى بذلك اختبار فرضية والتوصل إلى استنتاجات حول البيانات.

أحد الأسباب الرئيسية لوجود الإحصاءات الاستنتاجية هو أنه عادة ما يكون مكلفًا للغاية لدراسة مجموعة كاملة من الأشخاص أو الكائنات.

لتلخيص النوعين الرئيسيين المذكورين أعلاه من التحليل الإحصائي ، يمكننا القول أن الإحصاء الوصفي يستخدم لوصف البيانات. تذهب الإحصائيات الاستدلالية إلى أبعد من ذلك وتُستخدم لاستنتاج الاستنتاجات والفرضيات.

أنواع أخرى من الإحصاء

في حين أن النوعين المذكورين أعلاه هما النوعان الرئيسيان ، إلا أن هناك أيضًا أنواعًا مهمة أخرى يجب أن يعرفها كل عالم يعمل مع البيانات.

التحليلات التنبؤية

إذا كنت ترغب في عمل تنبؤات حول الأحداث المستقبلية ، فإن التحليل التنبئي هو ما تحتاجه. يعتمد هذا التحليل على الحقائق الحالية والتاريخية.

تستخدم التحليلات التنبؤية الخوارزميات الإحصائية وتقنيات التعلم الآلي لتحديد احتمالية النتائج المستقبلية والسلوك والاتجاهات بناءً على كل من البيانات الجديدة والتاريخية.

يعد التسويق المستند إلى البيانات والخدمات المالية ومقدمو الخدمات عبر الإنترنت وشركات التأمين من بين المستخدمين الرئيسيين للتحليلات التنبؤية.

بدأت المزيد والمزيد من الشركات في تنفيذ التحليلات التنبؤية لزيادة الميزة التنافسية وتقليل المخاطر المرتبطة بمستقبل غير متوقع.

يمكن أن تستخدم التحليلات التنبؤية مجموعة متنوعة من التقنيات مثل التنقيب عن البيانات والنمذجة والذكاء الاصطناعي والتعلم الآلي وما إلى ذلك لعمل تنبؤات مهمة حول المستقبل.

من المهم ملاحظة أنه لا توجد طريقة إحصائية يمكنها "التنبؤ" بالمستقبل بضمان 100٪. تستخدم الشركات هذه الإحصائيات للإجابة على السؤال & # 8220 ماذا قد يحدث؟ & # 8220. تذكر أن أساس التحليلات التنبؤية يعتمد على الاحتمالات.

التحليلات الوصفية

التحليلات الوصفية هي دراسة تفحص البيانات للإجابة على السؤال " ما الذي يجب إنجازه؟ إنها منطقة مشتركة لتحليل الأعمال مكرسة لتحديد أفضل فيلم أو عمل لموقف معين.

تهدف التحليلات الوصفية إلى إيجاد التوصيات المثلى لعملية صنع القرار. كل شيء عن تقديم المشورة.

ترتبط التحليلات الوصفية بالتحليلات الوصفية والتنبؤية. بينما تصف التحليلات الوصفية ما حدث وتساعد التحليلات التنبؤية على التنبؤ بما قد يحدث ، تهدف الإحصائيات الوصفية إلى العثور على أفضل الخيارات من بين الخيارات المتاحة.

تستخدم التحليلات الوصفية تقنيات مثل المحاكاة وتحليل الرسم البياني وقواعد العمل والخوارزميات ومعالجة الأحداث المعقدة ومحركات التوصية والتعلم الآلي.

التحليل السببي

عندما ترغب في فهم وتحديد الأسباب التي تجعل الأشياء كما هي ، فإن التحليل السببي يأتي للمساعدة. هذا النوع من التحليل يجيب على السؤال & # 8220 لماذا؟ & # 8221

عالم الأعمال مليء بالأحداث التي تؤدي إلى الفشل. السببية تسعى لتحديد الأسباب لماذا؟ من الأفضل إيجاد الأسباب ومعالجتها بدلاً من علاج الأعراض.

يبحث التحليل السببي عن السبب الجذري & # 8211 السبب الأساسي لحدوث شيء ما.

التحليل السببي هو ممارسة شائعة في الصناعات التي تعالج الكوارث الكبرى. ومع ذلك ، فقد أصبح أكثر شيوعًا في الأعمال التجارية ، وخاصة في مجال تكنولوجيا المعلومات. على سبيل المثال ، يعد التحليل السببي ممارسة شائعة في ضمان الجودة في صناعة البرمجيات.

لذا ، دع & # 8217s نلخص أهداف التحليل العرضي:

  • لتحديد مجالات المشاكل الرئيسية.
  • للتحقيق وتحديد السبب الجذري.
  • لفهم ما يحدث لمتغير معين إذا قمت بتغيير آخر.

تحليل البيانات الاستكشافية (EDA)

يعد تحليل البيانات الاستكشافية (EDA) مكملاً للإحصاءات الاستنتاجية. يتم استخدامه في الغالب من قبل علماء البيانات.

EDA هو نهج تحليل يركز على تحديد الأنماط العامة في البيانات والعثور عليها علاقات لم تكن معروفة من قبل.

الغرض من تحليل البيانات الاستكشافية هو:

  • تحقق من الأخطاء أو البيانات المفقودة.
  • اكتشف روابط جديدة.
  • جمع أقصى قدر من البصيرة في مجموعة البيانات.
  • تحقق من الافتراضات والفرضيات.

لا ينبغي استخدام EDA وحده للتعميم أو التنبؤ. يتم استخدام EDA لأخذ نظرة عامة على البيانات ومحاولة تكوين شعور أو إحساس بها. بشكل عام ، هذه هي الخطوة الأولى في تحليل البيانات ، والتي يتم إجراؤها قبل التقنيات الإحصائية الرسمية الأخرى.

التحليل الميكانيكي

التحليل الآلي ليس نوعًا شائعًا من التحليل الإحصائي. ومع ذلك ، تجدر الإشارة هنا لأنه ، في بعض الصناعات مثل تحليل البيانات الضخمة ، لها دور مهم.


يدور التحليل الآلي حول فهم التغييرات الدقيقة في متغيرات معينة تؤدي إلى تغييرات في المتغيرات الأخرى. ومع ذلك ، فإن الآلية لا تعتبر التأثيرات الخارجية. الافتراض هو أن نظامًا معينًا يتأثر بتفاعل مكوناته.

إنه مفيد في تلك الأنظمة التي يوجد لها تعريفات واضحة للغاية. يمكن للعلوم البيولوجية ، على سبيل المثال ، الاستفادة من.


"السياق والسعرات الحرارية"

هل تؤثر الشركة التي تحتفظ بها على ما تأكله؟ يأتي هذا المثال من مقال بعنوان "تأثير إعدادات المجموعة والجنس على الوجبات التي يشتريها طلاب الكلية" (Allen-O & # 8217Donnell، M.، T.C Nowak، K.A.Snyder، and M.D Cottingham، مجلة علم النفس الاجتماعي التطبيقي 49 (9) ، 2011 ، onlinelibrary.wiley.com/doi/10.1111/j.1559-1816.2011.00804.x/full). في هذه الدراسة ، درس الباحثون هذه القضية في سياق النظريات المتعلقة بالجندر في مجالهم. لأغراضنا ، فإننا ننظر إلى هذا البحث بشكل أكثر تحديدًا.

الخطوة الأولى: ذكر الفرضيات.

في المقال ، قدم المؤلفون الفرضية التالية. "ستظهر محاولة الظهور كأنثوية تجريبيًا من خلال شراء سعرات حرارية أقل من قبل النساء في مجموعات مختلطة الجنس من النساء في المجموعات من نفس الجنس." نترجم هذا إلى سؤال بحث أبسط وأضيق: هل تشتري النساء سعرات حرارية أقل عندما يأكلن مع الرجال مقارنة عندما يأكلن مع النساء؟

المجموعتان هنا هما "النساء يأكلن مع النساء" (السكان 1) و "النساء يأكلن مع الرجال" (السكان 2). المتغير هو السعرات الحرارية في الوجبة. نقوم باختبار الفرضيات التالية عند مستوى دلالة 5٪.

الفرضية الصفرية هي دائمًا H0: μ1 & # 8211 μ2 = 0 ، وهو نفس H0: μ1 = μ2.

هنا μ1 يمثل متوسط ​​عدد السعرات الحرارية التي طلبتها النساء عندما كن يأكلن مع نساء أخريات ، و μ2 يمثل متوسط ​​عدد السعرات الحرارية التي طلبتها النساء عندما كن يأكلن مع الرجال.

ملحوظة: لا يهم أي مجتمع نسميه 1 أو 2 ، ولكن بمجرد أن نقرر ، علينا أن نظل متسقين طوال اختبار الفرضية. نظرًا لأننا نتوقع أن يكون عدد السعرات الحرارية أكبر بالنسبة للنساء اللائي يأكلن مع نساء أخريات ، يكون الاختلاف إيجابيًا إذا كانت "النساء يأكلن مع النساء" هي عدد السكان 1. إذا كنت تفضل العمل بأرقام موجبة ، فاختر المجموعة ذات المتوسط ​​المتوقع الأكبر كسكان 1. هذه نصيحة عامة جيدة.

الخطوة الثانية: جمع البيانات.

كالعادة ، هناك شيئان رئيسيان يجب مراعاتهما عند التفكير في جمع البيانات.

  • يجب أن تكون العينات ممثلة للسكان المعنيين.
  • يجب أن تكون العينات عشوائية لإزالة أو تقليل التحيز.

يذكر الباحثون فرضيتهم من منظور "المرأة". فعلنا نفس الشيء. لكن الباحثين جمعوا البيانات من خلال مشاهدة الناس يأكلون في HUB Rock Café II في حرم جامعة إنديانا في بنسلفانيا خلال فصل الربيع لعام 2006. كانت جميع النساء في مجموعة البيانات تقريبًا من الطلاب الجامعيين البيض الذين تتراوح أعمارهم بين 18 و 24 عامًا ، لذلك هناك بعض القيود المحددة على نطاق هذه الدراسة. ستؤثر هذه القيود على استنتاجنا (والتعريف المحدد للسكان يعني في فرضياتنا.)

تم جمع الملاحظات في 13 فبراير 2006 حتى 22 فبراير 2006 بين الساعة 11 صباحًا و 7 مساءً. يمكننا أن نرى أن الباحثين تناولوا الغداء والعشاء. كما قاموا بعمل ملاحظات في جميع أيام الأسبوع للتأكد من أن أنماط العملاء الأسبوعية لا تخلط النتائج التي توصلوا إليها. يذكر المؤلفون أنه "نظرًا لأن الفترة الزمنية للملاحظات والمكان الذي [هم] فيه لاحظوا الطلاب كانت محدودة ، كانت العينة عينة ملائمة". على الرغم من هذه القيود ، أجرى الباحثون إجراءات الاستدلال بالبيانات ، وتم نشر النتائج في مجلة مرموقة. سنقوم أيضًا بإجراء استنتاج باستخدام هذه البيانات ، ولكننا نقوم أيضًا بتضمين مناقشة حول قيود الدراسة مع استنتاجنا. المؤلفون فعلوا هذا أيضًا.

هل استوفت البيانات شروط استخدام اختبار t؟

أبلغ الباحثون عن إحصائيات العينة التالية.

  • في عينة من 45 امرأة تناولن الطعام مع نساء أخريات ، كان متوسط ​​عدد السعرات الحرارية المطلوبة 850 ، والانحراف المعياري 252.
  • في عينة من 27 امرأة تناولن الطعام مع الرجال ، كان متوسط ​​عدد السعرات الحرارية المطلوبة 719 ، والانحراف المعياري كان 322.

واحدة من العينات لديها أقل من 30 امرأة. نحتاج إلى التأكد من أن توزيع السعرات الحرارية في هذه العينة ليس منحرفًا بشكل كبير ولا يحتوي على قيم متطرفة ، لكن لا يمكننا الوصول إلى جدول بيانات يحتوي على البيانات الفعلية. منذ أن أجرى الباحثون اختبار t بهذه البيانات ، سنفترض أن الشروط قد استوفيت. يتضمن هذا افتراض أن العينات مستقلة.

الخطوة الثالثة: تقييم الأدلة.

كما لوحظ سابقًا ، أبلغ الباحثون عن إحصائيات العينة التالية.

  • في عينة من 45 امرأة تناولن الطعام مع نساء أخريات ، كان متوسط ​​عدد السعرات الحرارية المطلوبة 850 ، والانحراف المعياري 252.
  • في عينة من 27 امرأة تناولن الطعام مع الرجال ، كان متوسط ​​عدد السعرات الحرارية المطلوبة 719 ، والانحراف المعياري كان 322.

لحساب إحصائية اختبار t ، تأكد من أن العينة 1 تتوافق مع السكان 1. هنا السكان 1 لدينا هو "النساء يأكلن مع نساء أخريات." وبالتالي x1 = 850, س1 = 252, ن1 = 45 وهكذا.

باستخدام التكنولوجيا ، قررنا أن درجات الحرية حوالي 45 لهذه البيانات. للعثور على القيمة P ، نستخدم المحاكاة المألوفة لدينا لتوزيع t. نظرًا لأن الفرضية البديلة هي عبارة "أكبر من" ، فإننا نبحث عن المنطقة على يمين تي = 1.81. القيمة الاحتمالية هي 0.0385.

الخطوة 4: اذكر الاستنتاج.

فرضيات هذا الاختبار هي H0: μ1 & # 8211 μ2 = 0 و H.أ: μ1 & # 8211 μ2 & gt 0. نظرًا لأن قيمة P أقل من مستوى الأهمية (0.0385 & lt 0.05) ، فإننا نرفض H0 وقبول H.أ.

في جامعة إنديانا بنسلفانيا ، كان متوسط ​​عدد السعرات الحرارية التي طلبتها النساء الجامعيات اللواتي يأكلن مع نساء أخريات أكبر من متوسط ​​عدد السعرات الحرارية الذي طلبته النساء الجامعيات اللائي يأكلن مع الرجال (قيمة P = 0.0385).

تعليق على الاستنتاجات

في الاستنتاج أعلاه ، لم نقم بتعميم النتائج على جميع النساء. نظرًا لأن العينات تضمنت طالبات جامعات فقط في إحدى الجامعات ، فقد قمنا بتضمين هذه المعلومات في استنتاجنا. لكن استنتاجنا هو بيان حذر للنتائج. يرى المؤلفون النتائج على نطاق أوسع في سياق النظريات في مجال علم النفس الاجتماعي. في سياق هذه النظريات ، كتبوا ، "النتائج التي توصلنا إليها تدعم التأكيد على أن حجم الوجبة هو أداة للتأثير على انطباعات الآخرين. بالنسبة إلى النساء الجامعيات في السن التقليدية ، ومعظمهن من البيض ، يبدو أن حجم الوجبة المتناقصة هو محاولة لتأكيد الأنوثة في مجموعات تشمل الرجال ". ويرد صدى وجهة النظر هذه في الملخص التالي للدراسة لعامة الناس على الإذاعة الوطنية العامة (npr.org).

  • يبدو أن كل من الرجال والنساء يختارون حصصًا أكبر عندما يأكلون مع النساء ، ويختار كل من الرجال والنساء كميات أصغر عندما يأكلون بصحبة الرجال ، وفقًا لبحث جديد نُشر في صحيفة The Guardian البريطانية. مجلة علم النفس الاجتماعي التطبيقي. تشير الدراسة ، التي أجريت على عينة من 127 طالبًا جامعيًا ، إلى أن كلا من الرجال والنساء يتأثرون بالنصوص اللاواعية حول كيفية التصرف في شركة بعضهم البعض. وتغير هذه النصوص الطريقة التي يأكل بها الرجال والنساء عندما يأكلون معًا وعندما يأكلون منفصلين.

هل يجب أن نقلق من تعميم نتائج هذه الدراسة بهذه الطريقة؟ ربما. لكن مؤلفي المقالة يعالجون هذا القلق من خلال تضمين إخلاء المسؤولية التالي مع النتائج التي توصلوا إليها: "في حين أن نتائج بحثنا موحية ، يجب تكرارها مع عينات تمثيلية أكبر. يجب إجراء الدراسات ليس فقط مع طلاب الجامعات من الطبقة المتوسطة من البيض في المقام الأول ، ولكن أيضًا مع الطلاب الذين يختلفون من حيث العرق / العرق ، والطبقة الاجتماعية ، والعمر ، والتوجه الجنسي ، وما إلى ذلك. " هذا مثال على الممارسة الإحصائية الجيدة. غالبًا ما يكون من الصعب جدًا اختيار عينات عشوائية حقًا من المجموعات المعنية. لذلك يناقش الباحثون حدود تصميم العينات عند مناقشة استنتاجاتهم.

في الأنشطة التالية ، ستتاح لك الفرصة لممارسة أجزاء من اختبار الفرضية للاختلاف في وسيلتين من المجموعات السكانية. في الصفحة التالية ، تركز الأنشطة على العملية بأكملها وتتضمن أيضًا التكنولوجيا.


S.3.3 أمثلة على اختبار الفرضيات

قام مهندس بقياس صلابة برينل لـ 25 قطعة من حديد الدكتايل التي تم تلدينها تحت الجلد. كانت البيانات الناتجة:

170 167 174 179 179 187 179 183 179
156 163 156 187 156 167 156 174 170
183 179 174 179 170 159 187

افترض المهندس أن متوسط ​​صلابة برينل الكل قطع حديد الدكتايل هذه أكبر من 170. لذلك ، كان مهتمًا باختبار الفرضيات:

أدخل المهندس بياناته في برنامج Minitab وطلب "العينة الواحدة ر- الاختبار "للفرضيات السابقة وقد حصل على المخرجات الآتية:

الإحصاء الوصفي

فرضية فارغة H₀: $ mu $ = 170
الفرضية البديلة H₁: $ mu $ & gt 170

T- القيمة P- القيمة
1.22 0.117

يخبرنا الناتج أن متوسط ​​صلابة برينل ن = 25 قطعة من حديد الدكتايل كان 172.52 بانحراف معياري 10.31. (الخطأ المعياري لمتوسط ​​"SE Mean" ، محسوبًا بقسمة الانحراف المعياري 10.31 على الجذر التربيعي لـ ن = 25 ، 2.06). إحصاء الاختبار ر* هو 1.22 ، و ص-القيمة هي 0.117.

إذا حدد المهندس مستوى أهميته α عند 0.05 واستخدم نهج القيمة الحرجة لإجراء اختبار فرضيته ، فإنه سيرفض الفرضية الصفرية إذا كانت إحصائية الاختبار الخاصة به ر* كانت أكبر من 1.7109 (تم تحديدها باستخدام برنامج إحصائي أو ملف ر-طاولة):

منذ إحصاء اختبار المهندس ، ر* = 1.22 ، ليس أكبر من 1.7109 ، يفشل المهندس في رفض فرضية العدم. أي أن الإحصاء التجريبي لا يقع في "المنطقة الحرجة". لا توجد أدلة كافية ، عند مستوى ( alpha ) = 0.05 ، لاستنتاج أن متوسط ​​صلابة برينل لجميع قطع حديد الدكتايل هذه أكبر من 170.

إذا استخدم المهندس ملف ص-نهج القيمة لإجراء اختبار فرضيته ، سيحدد المنطقة تحت أ ر ن - 1 = ر 24 منحنى وإلى حق من إحصاء الاختبار ر* = 1.22:

في الإخراج أعلاه ، أبلغ Minitab أن ملف ص-القيمة هي 0.117. منذ ص-القيمة ، 0.117 ، أكبر من ( alpha ) = 0.05 ، يفشل المهندس في رفض فرضية العدم. لا توجد أدلة كافية ، عند مستوى ( alpha ) = 0.05 ، لاستنتاج أن متوسط ​​صلابة برينل لجميع قطع حديد الدكتايل هذه أكبر من 170.

لاحظ أن المهندس يحصل على نفس الاستنتاج العلمي بغض النظر عن النهج المتبع. هذا سوف دائما هذا هو الحال.

كان أحد علماء الأحياء مهتمًا بتحديد ما إذا كانت شتلات عباد الشمس قد عولجت بمستخلص من فينكا طفيفة أدت الجذور إلى انخفاض متوسط ​​ارتفاع شتلات عباد الشمس عن الارتفاع القياسي البالغ 15.7 سم. عالج عالم الأحياء عينة عشوائية من ن = 33 شتلة بالمستخلص وبعد ذلك حصلنا على الارتفاعات التالية:

11.5 11.8 15.7 16.1 14.1 10.5 9.3 15.0 11.1
15.2 19.0 12.8 12.4 19.2 13.5 12.2 13.3
16.5 13.5 14.4 16.7 10.9 13.0 10.3 15.8
15.1 17.1 13.3 12.4 8.5 14.3 12.9 13.5

فرضيات عالم الأحياء هي:

أدخلت عالمة الأحياء بياناتها في برنامج Minitab وطلبت "عينة واحدة" ر-اختبار "للفرضيات اعلاه وقد حصلت على المخرجات التالية:

الإحصاء الوصفي

فرضية فارغة H₀: $ mu $ = 15.7
الفرضية البديلة H₁: $ mu $ & lt 15.7

T- القيمة P- القيمة
-4.60 0.000

يخبرنا الناتج أن متوسط ​​ارتفاع ن = 33 شتلة عباد الشمس كانت 13.664 مع انحراف معياري 2.544. (الخطأ المعياري لمتوسط ​​"SE Mean" ، محسوبًا بقسمة الانحراف المعياري 13.664 على الجذر التربيعي لـ ن = 33 ، تساوي 0.443). إحصاء الاختبار ر* هو -4.60 ، و ص- القيمة 0.000 مقربه من ثلاث منازل عشرية.

ملاحظة Minitab. سوف Minitab دائما تقرير ص- قيم لثلاث منازل عشرية فقط. إذا أبلغ Minitab عن ملف ص-قيمة 0.000 ، فهذا يعني حقًا أن ملف ص-القيمة 0.000.000 شيئا ما. خلال هذه الدورة (وأبحاثك المستقبلية!) ، عندما ترى أن Minitab يبلغ عن ملف ص- القيمة 0.000 ، يجب عليك الإبلاغ عن ص-قيمة كـ "& lt 0.001."

إذا حددت عالمة الأحياء مستوى الأهمية ( alpha ) عند 0.05 واستخدمت نهج القيمة الحرجة لإجراء اختبار الفرضية ، فسوف ترفض فرضية العدم إذا كانت إحصائية الاختبار الخاصة بها ر* كانت أقل من -1.6939 (تم تحديدها باستخدام برنامج إحصائي أو ملف ر-جدول): s-3-3

منذ إحصائية اختبار عالم الأحياء ، ر* = -4.60 ، أقل من -1.6939 ، يرفض عالم الأحياء فرضية العدم. أي أن الإحصاء الاختباري يقع في "المنطقة الحرجة". هناك أدلة كافية ، عند مستوى α = 0.05 ، لاستنتاج أن متوسط ​​ارتفاع جميع شتلات عباد الشمس هذه أقل من 15.7 سم.

إذا استخدم عالم الأحياء ص-نهج القيمة لإجراء اختبار فرضيتها ، فإنها ستحدد المنطقة تحت أ ر ن - 1 = ر 32 منحنى وإلى اليسار من إحصاء الاختبار ر* = -4.60:

في الإخراج أعلاه ، أبلغ Minitab أن ملف ص-القيمة هي 0.000 ، ونأخذها على أنها تعني & lt 0.001. منذ ص- القيمة أقل من 0.001 ، ومن الواضح أنها أقل من ( alpha ) = 0.05 ، ويرفض عالم الأحياء فرضية العدم. توجد أدلة كافية ، عند مستوى ( alpha ) = 0.05 ، لاستنتاج أن متوسط ​​ارتفاع جميع شتلات عباد الشمس هذه أقل من 15.7 سم.

لاحظ مرة أخرى أن عالم الأحياء حصل على نفس الاستنتاج العلمي بغض النظر عن النهج المتبع. هذا سوف دائما هذا هو الحال.

تدعي الشركة المصنعة أن سمك صمغ النعناع الذي تنتجه هو 7.5 على جزء من المائة من البوصة. يقوم أخصائي مراقبة الجودة بفحص هذا الادعاء بانتظام. في إحدى عمليات الإنتاج ، أخذ عينة عشوائية من ن = 10 قطع علكة ويقاس سمكها. هو حصل علي:

7.65 7.60 7.65 7.70 7.55
7.55 7.40 7.40 7.50 7.50

فرضيات أخصائي مراقبة الجودة هي:

قام أخصائي مراقبة الجودة بإدخال بياناته في برنامج Minitab وطلب "العينة الواحدة ر- الاختبار "للفرضيات السابقة وقد حصل على المخرجات الآتية:

الإحصاء الوصفي

فرضية فارغة H₀: $ mu $ = 7.5
الفرضية البديلة H₁: $ 7.5 mu ne

T- القيمة P- القيمة
1.54 0.158

يخبرنا الناتج أن متوسط ​​سمك ن = 10 قطع من اللثة كان 7.55 على جزء من مائة بوصة بانحراف معياري 0.1027. (الخطأ المعياري لمتوسط ​​"SE Mean" ، محسوبًا بقسمة الانحراف المعياري 0.1027 على الجذر التربيعي لـ ن = 10 يساوي 0.0325). إحصاء الاختبار ر* هو 1.54 ، والملف ص- القيمة 0.158.

إذا حدد أخصائي مراقبة الجودة مستوى أهميته ( alpha ) عند 0.05 واستخدم نهج القيمة الحرجة لإجراء اختبار فرضيته ، فإنه سيرفض فرضية العدم إذا كان اختباره الإحصائي ر* كانت أقل من -2.2616 أو أكبر من 2.2616 (تم تحديدها باستخدام برنامج إحصائي أو أ ر-طاولة):

منذ إحصائية اختبار أخصائي مراقبة الجودة ، ر* = 1.54 ، لا تقل عن -2.2616 ولا تزيد عن 2.2616 ، يفشل اختصاصي مراقبة الجودة في رفض فرضية العدم. أي أن الإحصاء التجريبي لا يقع في "المنطقة الحرجة". لا توجد أدلة كافية ، عند مستوى ( alpha ) = 0.05 ، لاستنتاج أن متوسط ​​سمك كل صمغ النعناع الخاص بالشركة المصنعة يختلف عن 7.5 على جزء من مائة بوصة.

إذا استخدم أخصائي مراقبة الجودة ص-نهج القيمة لإجراء اختبار فرضيته ، سيحدد المنطقة تحت أ ر ن - 1 = ر 9 منحنى إلى حق من 1.54 وإلى اليسار من -1.54:

في الإخراج أعلاه ، أبلغ Minitab أن ملف ص- القيمة 0.158. منذ ص-القيمة ، 0.158 ، أكبر من ( alpha ) = 0.05 ، يفشل اختصاصي مراقبة الجودة في رفض فرضية العدم. لا توجد أدلة كافية ، عند مستوى ( alpha ) = 0.05 ، لاستنتاج أن متوسط ​​سماكة جميع قطع صمغ النعناع يختلف عن 7.5 على جزء من مائة من البوصة.

لاحظ أن أخصائي مراقبة الجودة يحصل على نفس الاستنتاج العلمي بغض النظر عن النهج المتبع. هذا سوف دائما هذا هو الحال.

في الختام

في مراجعتنا لاختبارات الفرضيات ، ركزنا على اختبار فرضية واحد فقط ، وهو الاختبار المتعلق بمتوسط ​​المحتوى ( mu ). الشيء المهم الذي يجب إدراكه هو أن الموضوعات التي تمت مناقشتها هنا - الفكرة العامة لاختبارات الفرضيات ، والأخطاء في اختبار الفرضيات ، ونهج القيمة الحرجة ، و ص- نهج القيمة - يمتد عمومًا إلى جميع اختبارات الفرضية التي ستواجهها.


مراجع

باباج سي (1830) تأملات في تدهور العلم في إنجلترا ، وفي بعض أسبابه. ب. الزملاء.

بيم ، دي جي. 2009. كتابة مقال تجريبي. في دليل للنشر في مجلات علم النفس، محرر. ج. ستيرنبرغ ، 3-16. كامبريدج: مطبعة جامعة كامبريدج.

بيم ، دي جي. 2011. الشعور بالمستقبل: دليل تجريبي على التأثيرات الرجعية الشاذة على الإدراك والتأثير. مجلة الشخصية وعلم النفس الاجتماعي 100: 407-425. https://doi.org/10.1037/a0021524.

بنيامين ، دي جي ، ج. بيرجر ، إم جوهانيسون ، بكالوريوس نوسك ، إي. Wagenmakers ، R. Berk ، K.A. بولين ، ب. بريمبس ، إل.براون ، سي.كاميرر ، دي سيزاريني ، سي.دي. تشامبرز ، إم كلايد ، تي دي كوك ، بي دي بوك ، زي ديينيس ، إيه دريبر ، كيه إيسواران ، سي إفرسون ، إي فيهر ، إف فيدلر ، إيه بي فيلد ، إم فورستر ، إي. جورج ، آر.جونزاليس ، إس.جودمان ، إي جرين ، دي.بي. جرين ، إيه جي غرينوالد ، جي دي هادفيلد ، إل في هيدجز ، إل هيلد ، ت. Ho، H. Hoijtink، D.J. Hruschka ، K. Imai ، G. Imbens ، J.P.A. إيوانيديس ، إم جيون ، ج. جونز ، إم كيرشلر ، دي ليبسون ، جيه ليست ، آر ليتل ، إيه لوبيا ، إي ماشيري ، إس. ماكسويل ، إم مكارثي ، د. مور ، س. مورجان ، مونافو ، س. ناكاجاوا ، ب. نيهان ، ت. باركر ، إل بيريتشي ، إم بيروجيني ، جيه رورد ، جيه روسو ، في سافالي ، إف. Schönbrodt ، T. Sellke ، B. Sinclair ، D. Tingley ، T. Van Zandt ، S. Vazire ، D.J. واتس ، سي وينشيب ، آر إل وولبرت ، واي.شي ، سي يونج ، جي زينمان ، وفي. جونسون. 2017. إعادة تعريف الدلالة الإحصائية. طبيعة سلوك الإنسان 33 (1): 6-10. https://doi.org/10.1038/s41562-017-0189-z.

بيرجر ، ج. 2006. قضية التحليل البايزي الموضوعي. تحليل بايزي 1: 385-402. https://doi.org/10.1214/06-BA115.

بيرجر ، جيه أو ، و آر إل وولبرت. 1988. مبدأ الاحتمالية. هايوارد: معهد الإحصاء الرياضي.

بيرنبوم ، أ .1964. المفهوم الشاذ للدليل الإحصائي: البديهيات والتفسيرات والعرض الأولي. جامعة نيويورك.

بيشوب ، د. 2014. تفسير النتائج الهامة غير المتوقعة. https://doi.org/10.6084/m9.figshare.1030406.v1.

Box و G.E.P. و G.C. تيا. 1973. الاستدلال بايزي في التحليل الإحصائي. شركة ويسكي للنشر.

زر ، K.S. ، J.P.A. إيونيديس ، سي موكريز ، بكالوريوس. Nosek، J. Flint، E.S.J. روبنسون ، وم.ر.منافي. 2013. انقطاع التيار الكهربائي: لماذا حجم العينة الصغير يقوض موثوقية علم الأعصاب. مراجعات الطبيعة 14: 365-376. https://doi.org/10.1038/nrn3475.

كوهين ، ج. 1992. تحليل القوة الإحصائية. الاتجاهات الحالية في العلوم النفسية 1: 98-101. https://doi.org/10.1111/1467-8721.ep10768783.

كولينج ، إل جيه ، و آر بي روبرتس. 2010. علم النفس المعرفي لا يقتصر على علم الأعصاب. في المؤتمر التاسع للجمعية الاسترالية للعلوم المعرفية، 41-48. سيدني: مركز ماكواري للعلوم المعرفية.

كولينج ، إل جيه ، وكيه ويليامسون. 2014. نهج Entrainment والمحاكاة الحركية للعمل المشترك: بدائل أم نُهج تكميلية؟ الحدود في علم الأعصاب البشري 8:67. https://doi.org/10.3389/fnhum.2014.00754.

كرامر ، إيه أو جي ، رافينزوايج دي فان ، دي ماتزكي ، إتش ستينجرويفر ، آر. جراسمان ، إل جيه والدورب ، وإي- جيه. واجنماكرز. 2015. التعددية الخفية في ANOVA الاستكشافية متعددة الطرق: الانتشار والعلاجات. نشرة علم النفس ومراجعة أمبير 23: 640-647. https://doi.org/10.3758/s13423-015-0913-5.

دي وينتر ، جي سي ، ودي دودو. 2015. زيادة في القيم الاحتمالية بين 0.041 و 0.049 في العقود الأخيرة (لكن النتائج السلبية تتزايد بسرعة أيضًا). بيرج 3: e733. https://doi.org/10.7717/peerj.733.

Dienes، Z. 2011. إحصائيات بايزي مقابل إحصائيات أرثوذكسية: إلى أي جانب أنت؟ وجهات نظر في علم النفس 6: 274 - 290. https://doi.org/10.1177/1745691611406920.

Dienes، Z. 2014. استخدام bayes لتحقيق أقصى استفادة من النتائج غير المهمة. الحدود في علم النفس 5. https://doi.org/10.3389/fpsyg.2014.00781.

ديينز ، ز. ، ون. مكلاتشي. 2017. أربعة أسباب لتفضيل تحليلات بايز على اختبار الأهمية. النشرة النفسية ومراجعة أمبير 100: 1-12. https://doi.org/10.3758/s13423-017-1266-z.

إدواردز ، دبليو ، إتش ليندمان ، وإل جي سافاج. 1963. الاستدلال الإحصائي البايزي للبحث النفسي. مراجعة نفسية 70: 193 - 242. https://doi.org/10.1037/h0044139.

إكلوند ، أ. ، ت. نيكولز ، وه. كنوتسون. 2016. فشل الكتلة: لماذا استنتاجات الرنين المغناطيسي الوظيفي للمدى المكاني لها معدلات إيجابية متضخمة. وقائع الأكاديمية الوطنية للعلوم بالولايات المتحدة الأمريكية 113: 7900-7905. https://doi.org/10.1073/pnas.1602413113.

Etz A (2017) مقدمة لمفهوم الاحتمالية وتطبيقاتها. التقدم في الأساليب والممارسات في علم النفس.

فيشر ، R.A. 1925. الأساليب الإحصائية للعاملين في مجال البحث. في أوليفر. لندن: بويد.

Gandenberger، G. 2015. دليل جديد على مبدأ الاحتمالية. المجلة البريطانية لفلسفة العلوم 66: 475-503. https://doi.org/10.1093/bjps/axt039.

Gandenberger، G. 2017. غالبًا ما تكون الاختلافات بين قواعد التوقف غير المعلوماتية ذات صلة بقرارات Bayesian. arXiv: 1707.00.214 [math.ST].

García-Pérez، MA 2016. لن تشهد ضد اختبار أهمية الفرضية الصفرية. القياس التربوي والنفسي 77: 631 - 662. https://doi.org/10.1177/0013164416668232.

جيلمان ، أ ، وسي آر شاليزي. 2013. فلسفة وممارسة الإحصاء البايزي. المجلة البريطانية لعلم النفس الرياضي والإحصائي 66: 8-38. https://doi.org/10.1111/j.2044-8317.2011.02037.x.

جيلمان ، أ ، جيه بي كارلين ، إتش. ستيرن ، دي. دونسون ، وأ. فهتاري ، ودي. دهن. 2014. تحليل البيانات بايزي. الطبعة الثالثة. بوكا راتون: مطبعة اتفاقية حقوق الطفل.

Gigerenzer، G. 1993. دليل لتحليل البيانات في العلوم السلوكية. في الأنا العليا ، والأنا ، والمعرف في التفكير الإحصائي، محرر. كيرين وسي. لويس ، 311-340. نيويورك.

جروناو ، كيو إف ، إيه لي ، وإي- جيه. واجنماكرز. 2018. اختبارات بايزي المستنيرة. arXiv: 1704.02479 [stat.ME].

هيج ، ب. 2016. الاختبارات ذات الدلالة الإحصائية أصبحت سليمة. القياس التربوي والنفسي 77: 489-506. https://doi.org/10.1177/0013164416667981.

هيل ، ب. 1974. استعراض الاستدلال البايزي في التحليل الإحصائي. تكنومتريكس 16: 47800479. https://doi.org/10.1080/00401706.1974.10489222.

إيوانيديس ، جي بي إيه. 2012. لماذا العلم ليس بالضرورة أن يصحح نفسه بنفسه. وجهات نظر في علم النفس 7: 645-654. https://doi.org/10.1177/1745691612464056.

جيفريز ، هـ .1961. نظرية الاحتمال. الطبعة الثالثة. أكسفورد: مطبعة كلاريدون.

جون ، إل كيه ، جي لوينشتاين ، ودي بريليك. 2012. قياس انتشار الممارسات البحثية المشكوك فيها مع حوافز لقول الحقيقة. علم النفس 23: 524-532. https://doi.org/10.1177/0956797611430953.

كابلان ، دي إم ، و دبليو بكتل. 2011. النماذج الديناميكية: بديل أم مكمل للتفسيرات الآلية؟ موضوعات في العلوم المعرفية 3: 438 - 444. https://doi.org/10.1111/j.1756-8765.2011.01147.x.

Lakens، D. 2017. اختبارات التكافؤ: كتاب تمهيدي عملي لاختبارات t والارتباطات والتحليلات التلوية. علم النفس الاجتماعي وعلوم الشخصية 8: 355-362. https://doi.org/10.1177/1948550617697177.

لاكنز ، د. ، إف. Adolfi ، CJ Albers ، F. Anvari ، M.A. Apps ، S.E. أرغامون ، ت.باجولي ، ر.ب.بيكر ، إس.دي. بنينج ، دي. برادفورد ، إي إم بوكانان ، إيه.آر. كالدويل ، ب.كالستر ، ر. كارلسون ، S.-C. تشن ، ب.تشونج ، إل جيه كولينج ، جي إس كولينز ، زد كروك ، إ. كروس ، إس دانيلز ، إتش دانيلسون ، إل دي بروين ، دي جي. دنليفي ، ب. إيرب ، م. فيست ، جي دي فيريل ، ج. فيلد ، نو. فوكس ، أ.فريزين ، سي جوميز ، إم جونزاليس ماركيز ، ج.أ. جرانج ، أ.ب. جريف ، ر. هارملين ، ف.هاسلمان ، د. هوشارد ، إم آر هوفارث ، ن. هولمز ، إم إنجر ، ب. إيساجر ، هـ. Isotalus، C. Johansson، K. Juszczyk، D.A. كيني ، أ. خليل ، ب.كونات ، ج.لاو ، إي. لارسن ، ج. لودر ، جيه لوكافسكي ، سي آر مادان ، دي مانهايم ، وس. مارتن. 2018. تبرير ألفا الخاص بك. طبيعة سلوك الإنسان 2: 168 - 171. https://doi.org/10.1038/s41562-018-0311-x.

ليندلي ، دي. 2000. فلسفة الإحصاء. مجلة الجمعية الإحصائية الملكية: السلسلة د (الإحصائي). 49: 293 - 337. https://doi.org/10.1111/1467-9884.00238.

Masicampo و EJ و D.R. لالاند. 2012. انتشار غريب للقيم أدناه. 05. المجلة الفصلية لعلم النفس التجريبي 65: 2271 - 2279. https://doi.org/10.1080/17470218.2012.711335.

مايو ، د. 1996. الخطأ ونمو المعرفة التجريبية. شيكاغو: مطبعة جامعة شيكاغو.

مايو ، دي جي ، و آر دي موري. 2017. تشخيص ضعيف لنقد الفحص التشخيصي للاختبارات الإحصائية. https://doi.org/10.17605/OSF.IO/PS38B.

مايو ، دي جي ، وأيه سبانوس. 2006. اختبار شديد كمفهوم أساسي في فلسفة الاستقراء نيمان بيرسون. المجلة البريطانية لفلسفة العلوم 57: 323–357. https://doi.org/10.1093/bjps/axl003.

مايو ، دي جي ، وأيه سبانوس. 2011. إحصائيات الخطأ. في فلسفة الإحصاء، محرر. ملاحظة. Bandyopadhyay و MR Forster. أكسفورد.

موري ، R.D. ، R. Hoekstra ، J.N. رورد ، ودكتوراه في الطب لي ، وإي جيه. واجنماكرز. 2016 أ. مغالطة وضع الثقة في فترات الثقة. نشرة علم النفس ومراجعة أمبير 23: 103-123. https://doi.org/10.3758/s13423-015-0947-8.

موري ، R.D. ، J.-W. Romeijn ، و J.N. الحمر. 2016 ب. فلسفة عوامل بايز وتقدير الأدلة الإحصائية. مجلة علم النفس الرياضي 72: 6-18. https://doi.org/10.1016/j.jmp.2015.11.001.

نيمان ، ج. 1976. اختبارات الفرضيات الإحصائية واستخدامها في دراسات الظواهر الطبيعية. الاتصالات في الإحصاء - النظرية والأساليب 5: 737-751. https://doi.org/10.1080/03610927608827392.

نيمان ، ج ، وإس. بيرسون. 1933. حول مشكلة أكثر الاختبارات كفاءة للفرضيات الإحصائية. المعاملات الفلسفية للمجتمع الملكي أ: العلوم الرياضية والفيزيائية والهندسية 231: 289 - 337. https://doi.org/10.1098/rsta.1933.0009.

نيكرسون ، آر. 2000. اختبار أهمية الفرضية الفارغة: مراجعة لخلاف قديم ومستمر. الطرق النفسية 5:241 - 301. https://doi.org/10.1037/1082-989X.5.2.241.

Nuzzo، R. 2014. الطريقة العلمية: أخطاء إحصائية. طبيعة سجية 506: 150-152. https://doi.org/10.1038/506150a.

تعاون العلوم المفتوحة. 2012. جهد تعاوني مفتوح وواسع النطاق لتقدير قابلية استنساخ العلوم النفسية. وجهات نظر في علم النفس 7: 657-660. https://doi.org/10.1177/1745691612462588.

باشلر ، هـ. ، وإي- جيه. واجنماكرز. 2012. مقدمة المحررين للقسم الخاص حول إمكانية التكرار في العلوم النفسية. وجهات نظر في علم النفس 7: 528-530. https://doi.org/10.1177/1745691612465253.

فيليبس ، ك. 1990. صلاحية إجراء الاختبارين من جانب واحد في التكافؤ الحيوي. مجلة حركية الدواء والصيدلة الحيوية 18: 137-144. https://doi.org/10.1007/BF01063556.

روبرتس ، هـ. 1967. قواعد التوقف بالمعلومات والاستنتاجات حول حجم السكان. مجلة الجمعية الإحصائية الأمريكية 62: 763. https://doi.org/10.2307/2283670.

رورد ، ج. 2014. التوقف الاختياري: لا مشكلة ل Bayesians. نشرة علم النفس ومراجعة أمبير 21: 301-308. https://doi.org/10.3758/s13423-014-0595-4.

رورد ، ج.ن. ، ب. سبيكمان ، دي صن ، آر دي موري ، وجي إيفرسون. 2009. اختبارات بايزي لقبول ورفض الفرضية الصفرية. نشرة علم النفس ومراجعة أمبير 16: 225-237. https://doi.org/10.3758/PBR.16.2.225.

Simmons ، J.P. ، L.D. نيلسون ، ويو سايمونسون. 2011. علم النفس الإيجابي الكاذب: المرونة غير المكشوف عنها في جمع البيانات وتحليلها تسمح بتقديم أي شيء مهم. علم النفس 22: 1359–1366.

Simonsohn، U. 2015. تلسكوبات صغيرة. علم النفس 26: 559-569. https://doi.org/10.1177/0956797614567341.

Steegen، S.، F. Tuerlinckx، A. Gelman، and W. Vanpaemel. 2016. زيادة الشفافية من خلال تحليل الأكوان المتعددة. وجهات نظر في علم النفس 11: 702-712. https://doi.org/10.1177/1745691616658637.

سترويبي ، دبليو ، ت. بوستيمز ، ور. سبيرز. 2012. سوء السلوك العلمي وأسطورة التصحيح الذاتي في العلم. وجهات نظر في علم النفس 7: 670 - 688. https://doi.org/10.1177/1745691612460687.

Szűcs، D. 2016. برنامج تعليمي حول الدلالة الإحصائية للصيد من خلال مطاردة N. الحدود في علم النفس 7: 365. https://doi.org/10.3389/fpsyg.2016.01444.

Szűcs ، D. ، و J.P.A. ايونيديس. 2017 أ. عندما يكون اختبار أهمية الفرضية الصفرية غير مناسب للبحث: إعادة تقييم. الحدود في علم الأعصاب البشري 11: 943. https://doi.org/10.3389/fnhum.2017.00390.

Szűcs ، D. ، و J.P.A. ايونيديس. 2017 ب. التقييم التجريبي لأحجام وقوة التأثير المنشور في الأدبيات الحديثة لعلم الأعصاب وعلم النفس. بلوس علم الأحياء 15: e2000797. https://doi.org/10.1371/journal.pbio.2000797.

ترافيمو ، دي ، وماركس. 2014. الافتتاحية. علم النفس الاجتماعي الأساسي والتطبيقي 37: 1-2. https://doi.org/10.1080/01973533.2015.1012991.

فان ديك ، د. 2014. دور الإحصاء في اكتشاف بوزون هيغز. المراجعة السنوية للإحصاءات وتطبيقاتها 1: 41-59. https://doi.org/10.1146/annurev-statistics-062713-085841.

واجنماكرز ، E.-J. 2007. حل عملي لمشكلات القيم المتفشية. نشرة علم النفس ومراجعة أمبير 14: 779-804. https://doi.org/10.3758/BF03194105.

Wagenmakers و E.-J. و R. Wetzels و D. Borsboom و Maas H.L.J. فان دير. 2011. لماذا يجب على علماء النفس تغيير الطريقة التي يحللون بها بياناتهم: حالة psi: Comment on Bem (2011). مجلة الشخصية وعلم النفس الاجتماعي 100: 426-432. https://doi.org/10.1037/a0022790.

وير ، جي جي ، وم.ر.منافي. 2015. مطاردة الأهمية في ممارسة البحث: الأسباب والنتائج والحلول الممكنة. مدمن 110: 4-8. https://doi.org/10.1111/add.12673.

Wasserstein ، R.L. ، و N.A. Lazar. 2016. بيان ASA حول القيم p: السياق والعملية والغرض. الإحصائي الأمريكي 70: 129-133. https://doi.org/10.1080/00031305.2016.1154108.

Yong، E. 2012. دراسات النسخ: نسخة سيئة. طبيعة سجية 485: 298 - 300. https://doi.org/10.1038/485298a.

يو ، إي سي ، إيه. سبرنجر ، ر.ب.توماس ، وم.ر. دوجيرتي. 2013. عندما يتعارض الاستدلال مع القرار مع العلم. نشرة علم النفس ومراجعة أمبير 21: 268 - 282. https://doi.org/10.3758/s13423-013-0495-z.


مراجع

يوضح كيفية اختيار ن يؤثر على الاستنتاجات.

هي البيانات الخام المستخدمة لتوليد التين. S4 و S5.

بيانات وأرقام أمبير

أهمية عرض التكاثر. يمكن أن تؤدي النتائج التجريبية المختلفة بشكل جذري إلى نفس المؤامرات والإحصاءات ما لم يتم النظر في التباين من تجربة إلى أخرى. (أ) تعالج المؤامرات الإشكالية ن كعدد الخلايا ، مما يؤدي إلى أشرطة خطأ صغيرة وقيم P. تخفي هذه المؤامرات أيضًا أي خطأ تشغيل منتظم ، وتخلطه مع التباين من خلية إلى خلية. (ب – د) لتوضيح ذلك ، قمنا بمحاكاة ثلاثة سيناريوهات مختلفة تحتوي جميعها على قيم أساسية متطابقة على مستوى الخلية ولكن يتم تجميعها بشكل مختلف حسب التجربة: يُظهر B بيانات قابلة للتكرار وغير مجمعة بدرجة كبيرة ، ويظهر C تقلبًا يومًا بعد يوم ، ولكن اتجاه ثابت في كل تجربة ، و D يسيطر عليها تشغيل عشوائي واحد. لاحظ أن المؤامرات في A تتعامل مع كل خلية على أنها خاصة بها ن يفشل في التمييز بين السيناريوهات الثلاثة ، ويدعي وجود اختلاف كبير بعد العلاج بالعقاقير ، حتى عندما تكون التجارب غير قابلة للتكرار في الواقع. لتصحيح ذلك ، قامت "SuperPlots" بتركيب إحصائيات موجزة من التكرارات البيولوجية التي تتكون من تجارب مستقلة أعلى البيانات من جميع الخلايا ، وتم حساب قيم P باستخدام ن من ثلاثة ، وليس 300. في هذه الحالة ، تم تجميع القيم على مستوى الخلية بشكل منفصل لكل تكرار بيولوجي ، ثم تم استخدام المتوسط ​​المحسوب لكل تجمع هذه الوسائل الثلاثة لحساب المتوسط ​​(الشريط الأفقي) ، والخطأ المعياري للمتوسط ​​( أشرطة الخطأ) ، وقيمة P. بينما تضمن المخططات النقطية في العمود "موافق" أن يتم حساب قيم P بشكل صحيح ، إلا أنها لا تزال تفشل في نقل الاختلافات بين التجربة والتجربة. في SuperPlots ، يتم ترميز كل نسخة بيولوجية بالألوان: المتوسطات من تشغيل تجريبي واحد عبارة عن نقاط صفراء ، ويتم تمثيل تجربة مستقلة أخرى بمثلثات رمادية ، ويتم عرض تجربة ثالثة على شكل مربعات زرقاء. يساعد هذا في توضيح ما إذا كان الاتجاه قد لوحظ في كل تشغيل تجريبي ، وكذلك لمجموعة البيانات ككل. تمثل SuperPlots الدفء في العمود الموجود في أقصى اليمين كل خلية بنقطة مشفرة بالألوان وفقًا للتكرار البيولوجي الذي أتت منه. تمثل قيم P ثنائي الطرف غير مزدوج الذيل ر اختبار (أ) ومزدوج الذيل ر اختبار (ب - د). للحصول على دروس حول إنشاء SuperPlots في Prism و R و Python و Excel ، راجع المعلومات الداعمة.

أهمية عرض التكاثر. يمكن أن تؤدي النتائج التجريبية المختلفة بشكل جذري إلى نفس المؤامرات والإحصاءات ما لم يتم النظر في التباين من تجربة إلى أخرى. (أ) تعالج المؤامرات الإشكالية ن كعدد الخلايا ، مما يؤدي إلى أشرطة خطأ صغيرة وقيم P. تخفي هذه المخططات أيضًا أي خطأ تشغيل منتظم ، وتخلطه مع التباين من خلية إلى خلية. (ب – د) لتوضيح ذلك ، قمنا بمحاكاة ثلاثة سيناريوهات مختلفة تحتوي جميعها على قيم أساسية متطابقة على مستوى الخلية ولكن يتم تجميعها بشكل مختلف حسب التجربة: يُظهر B بيانات قابلة للتكرار وغير مجمعة بدرجة كبيرة ، ويظهر C تقلبًا يومًا بعد يوم ، ولكن اتجاه ثابت في كل تجربة ، و D يسيطر عليها تشغيل عشوائي واحد. لاحظ أن المؤامرات في A تتعامل مع كل خلية على أنها خاصة بها ن يفشل في التمييز بين السيناريوهات الثلاثة ، ويدعي وجود اختلاف كبير بعد العلاج بالعقاقير ، حتى عندما تكون التجارب غير قابلة للتكرار في الواقع. لتصحيح ذلك ، قامت "SuperPlots" بتركيب إحصائيات موجزة من التكرارات البيولوجية التي تتكون من تجارب مستقلة أعلى البيانات من جميع الخلايا ، وتم حساب قيم P باستخدام ن من ثلاثة ، وليس 300. في هذه الحالة ، تم تجميع القيم على مستوى الخلية بشكل منفصل لكل تكرار بيولوجي ، ثم تم استخدام المتوسط ​​المحسوب لكل تجمع هذه الوسائل الثلاثة لحساب المتوسط ​​(الشريط الأفقي) ، والخطأ المعياري للمتوسط ​​( أشرطة الخطأ) ، وقيمة P. بينما تضمن المخططات النقطية في العمود "موافق" أن يتم حساب قيم P بشكل صحيح ، إلا أنها لا تزال تفشل في نقل الاختلافات بين التجربة والتجربة. في SuperPlots ، يتم ترميز كل نسخة بيولوجية بالألوان: المتوسطات من تشغيل تجريبي واحد عبارة عن نقاط صفراء ، ويتم تمثيل تجربة مستقلة أخرى بمثلثات رمادية ، ويتم عرض تجربة ثالثة على شكل مربعات زرقاء. يساعد هذا في توضيح ما إذا كان الاتجاه قد لوحظ في كل تشغيل تجريبي ، وكذلك لمجموعة البيانات ككل. تمثل SuperPlots الدفء في العمود الموجود في أقصى اليمين كل خلية بنقطة مشفرة بالألوان وفقًا للتكرار البيولوجي الذي أتت منه. تمثل قيم P ثنائي الطرف غير مزدوج الذيل ر اختبار (أ) ومزدوج الذيل ر اختبار (ب - د). للحصول على دروس حول إنشاء SuperPlots في Prism و R و Python و Excel ، راجع المعلومات الداعمة.

أمثلة أخرى للتخطيط. يمكن تحسين مخططات الشريط حتى بدون استخدام قطع الأراضي الدافئة. (أ) مخططات الشريط التي تحسب P والخطأ القياسي للمتوسط ​​باستخدام عدد الخلايا كـ ن غير مفيدة. (ب) يمكن تصحيح الرسم البياني الشريطي باستخدام مكررات بيولوجية لحساب قيمة P والخطأ المعياري للمتوسط. (ج) تكشف المخططات النقطية أكثر من رسم بياني شريطي بسيط. (D و E) ربط كل زوج من خلال النسخ المتماثل ينقل معلومات مهمة حول الاتجاه في كل تجربة. (F) لا تعرض SuperPlot معلومات حول كل تكرار والاتجاهات فحسب ، بل تقوم أيضًا بتركيب توزيع البيانات على مستوى الخلية ، هنا باستخدام مخطط الكمان.

أمثلة أخرى للتخطيط. يمكن تحسين مخططات الشريط حتى بدون استخدام قطع الأراضي الدافئة. (أ) مخططات الشريط التي تحسب P والخطأ القياسي للمتوسط ​​باستخدام عدد الخلايا كـ ن غير مفيدة. (ب) يمكن تصحيح الرسم البياني الشريطي باستخدام مكررات بيولوجية لحساب قيمة P والخطأ المعياري للمتوسط. (ج) تكشف المخططات النقطية أكثر من رسم بياني شريطي بسيط. (D و E) ربط كل زوج من خلال النسخ المتماثل ينقل معلومات مهمة حول الاتجاه في كل تجربة. (F) لا تعرض SuperPlot معلومات حول كل تكرار والاتجاهات فحسب ، بل تقوم أيضًا بتركيب توزيع البيانات على مستوى الخلية ، هنا باستخدام مخطط الكمان.

برنامج تعليمي لصنع SuperPlots في Prism. نصف كيفية إنشاء SuperPlots في برنامج الرسوم البيانية GraphPad Prism 8 (الإصدار 8.1.0). في حالة استخدام برامج رسوم بيانية أخرى ، يمكن للمرء إنشاء مخطط ملون مختلف منفصل لكل نسخة ، ثم تراكب تلك المؤامرات في برنامج مثل Adobe Illustrator. (أ) عند إضافة البيانات إلى الجدول ، اترك صفًا فارغًا بين التكرارات. (ب) أنشئ رسمًا بيانيًا جديدًا لهذه البيانات الحالية ضمن نوع الرسم البياني ، وحدد "عمود" و "قيم فردية" ، وحدد "بلا خط أو شريط خطأ". (ج) بعد تنسيق الميزات العامة للمخطط من B (على سبيل المثال ، حجم الرمز والخط والمحاور) ، ارجع إلى جدول البيانات وقم بتمييز قيم البيانات التي تتوافق مع إحدى النسخ المتماثلة. ضمن قائمة "تغيير" ، حدد "تنسيق النقاط" وقم بتغيير لون وشكل وما إلى ذلك لمجموعة فرعية من النقاط التي تتوافق مع هذا النسخ المتماثل. (د) كرر مع النسخ المتماثلة الأخرى لإنتاج رسم بياني مع كل لون تجريبي مشفر. (هاء وواو) لعرض إحصائيات موجزة ، خذ متوسط ​​التكرارات التقنية في كل تكرار بيولوجي (لذلك سيكون لديك قيمة واحدة لكل شرط من كل تكرار بيولوجي) ، وأدخل هذه المتوسطات في جدول بيانات ورسم بياني آخر. استخدم ورقة البيانات هذه التي تحتوي على المتوسطات فقط لإجراء الاختبارات الإحصائية. (ز) لإنشاء مخطط يجمع مجموعة البيانات الكاملة مع إحصائيات الملخص الصحيحة ، قم بتنسيق هذا الرسم البياني وقم بتراكبه مع SuperPlots المبعثر أعلاه (في Prism ، يمكن القيام بذلك على "تخطيط"). يمكن تعديل هذه العملية لعرض قطع أخرى متراكبة ذات ترميز لوني (مثل الكمان).

برنامج تعليمي لصنع SuperPlots في Prism. نصف كيفية إنشاء SuperPlots في برنامج الرسوم البيانية GraphPad Prism 8 (الإصدار 8.1.0). في حالة استخدام برامج رسوم بيانية أخرى ، يمكن للمرء إنشاء مخطط ملون مختلف منفصل لكل نسخة ، ثم تراكب تلك المؤامرات في برنامج مثل Adobe Illustrator. (أ) عند إضافة البيانات إلى الجدول ، اترك صفًا فارغًا بين التكرارات. (ب) أنشئ رسمًا بيانيًا جديدًا لهذه البيانات الحالية ضمن نوع الرسم البياني ، وحدد "عمود" و "قيم فردية" ، وحدد "بلا خط أو شريط خطأ". (ج) بعد تنسيق الميزات العامة للمخطط من B (على سبيل المثال ، حجم الرمز والخط والمحاور) ، ارجع إلى جدول البيانات وقم بتمييز قيم البيانات التي تتوافق مع إحدى النسخ المتماثلة. ضمن قائمة "تغيير" ، حدد "تنسيق النقاط" وقم بتغيير لون وشكل وما إلى ذلك لمجموعة فرعية من النقاط التي تتوافق مع هذا النسخ المتماثل. (د) كرر مع النسخ المتماثلة الأخرى لإنتاج رسم بياني مع كل لون تجريبي مشفر. (هاء وواو) لعرض إحصائيات موجزة ، خذ متوسط ​​التكرارات التقنية في كل تكرار بيولوجي (لذلك سيكون لديك قيمة واحدة لكل شرط من كل تكرار بيولوجي) ، وأدخل هذه المتوسطات في جدول بيانات ورسم بياني آخر. استخدم ورقة البيانات هذه التي تحتوي على المتوسطات فقط لإجراء الاختبارات الإحصائية. (ز) لإنشاء مخطط يجمع مجموعة البيانات الكاملة مع إحصائيات الملخص الصحيحة ، قم بتنسيق هذا الرسم البياني وقم بتراكبه مع SuperPlots المبعثر أعلاه (في Prism ، يمكن القيام بذلك على "تخطيط"). يمكن تعديل هذه العملية لعرض قطع أخرى متراكبة ذات ترميز لوني (مثل الكمان).

برنامج تعليمي لصنع SuperPlots في Excel. (أ) لإنشاء SuperPlot باستخدام Excel (Microsoft Office 365 ProPlus for Windows الإصدار 1912 Build 12325.20172) ، أدخل قيم أول نسخة متماثلة للشرط الأول في العمود B (مميز باللون الأصفر) ، الشرط الثاني في العمود D (مميز باللون الأصفر) ، واستمر في تخطي الأعمدة بين مجموعات البيانات للشروط المتبقية والتكرار (في هذا المثال ، يتم تمييز النسخ المتماثل 2 باللون الأخضر والنسخ المتماثل 3 باللون البرتقالي). على سبيل المثال ، يمكن أن تكون "المعالجة أ" عبارة عن خلايا تحكم و "المعالجة ب" يمكن أن تكون خلايا معالجة بالعقاقير. قم بتسمية الأعمدة الفارغة كـ "x" ، وابدأ من العمود A ، أدخل قيمًا عشوائية لإنشاء تأثير التشتت باستخدام الصيغة "= RANDBETWEEN (25 ، 100)". لإنشاء فجوة بين مجموعتي البيانات A و B ، استخدم قيم X أكبر للمعالجة B بإدخال الصيغة "= RANDBETWEEN (225 ، 300)". (ب) قم بتمييز جميع البيانات والعناوين. في قائمة الإدراج ، وسّع قائمة الرسوم البيانية لفتح مربع الحوار "إدراج مخطط". حدد "جميع المخططات" ، واختر "X ص مبعثر". حدد الخيار الذي يحتوي على قيم Y المقابلة لمجموعات البيانات الخاصة بك. (في Excel for Mac ، لا يوجد مربع حوار منفصل. بدلاً من ذلك ، قم بعمل مخطط مبعثر ، وانقر بزر الماوس الأيمن على قطعة الأرض وحدد "تحديد البيانات" ، وأزل الأعمدة "x" من القائمة ، ثم حدد يدويًا "X" المقابل القيم = "لكل مجموعة بيانات.) (ج) قم بتغيير الخصائص العامة للرسم البياني حسب رغبتك. في هذا المثال ، أزلنا عنوان المخطط وخطوط الشبكة ، وأضفنا مخططًا أسودًا إلى منطقة المخطط ، وقمنا بتغيير حجم الرسم البياني ، وضبطنا نطاق المحور س إلى 0-325 ، وأزلنا تسميات المحور س ، وأضفنا عنوان المحور وعلامات التجزئة ، غير الخط إلى Arial ، وغير لون الخط إلى الأسود. يمكن حفظ هذا النمط كقالب للاستخدام المستقبلي عن طريق النقر بزر الماوس الأيمن. نوصي بالحفاظ على وسيلة إيضاح الشكل حتى الخطوة التالية. (د) بعد ذلك ، انقر نقرًا مزدوجًا على الرسم البياني لفتح لوحة "تنسيق منطقة الرسم". ضمن "خيارات المخطط" ، حدد مجموعة البيانات الأولى ، "معالجة السلسلة أ (تكرار 1)". (في نظام Mac ، انقر فوق نقطة بيانات من إحدى النسخ المكررة ، وانقر بزر الماوس الأيمن وحدد "تنسيق سلسلة البيانات".) حدد "علامة" وقم بتغيير لون ونمط نقاط البيانات. كرر مع مجموعات البيانات المتبقية بحيث تتوافق الألوان والأشكال وما إلى ذلك مع التكرار البيولوجي الذي جاءت منه نقاط البيانات. احذف وسيلة إيضاح الرسم البياني وأضف تسميات المحور باستخدام أداة النص إذا رغبت في ذلك. (هـ) احسب متوسط ​​كل تكرار لكل حالة ، وقم بإقران هذه القيمة بإحداثي X لـ 62.5 للمعالجة الأولى ، و 262.5 للمعالجة الثانية لتوسيط القيم في مخطط التشتت. بعد ذلك ، انقر على الرسم البياني ، وضمن قائمة "تصميم المخطط" ، انقر على "تحديد البيانات". ضمن "إدخالات وسيلة الإيضاح (سلسلة)" ، حدد "إضافة" وتحت اسم السلسلة ، حدد أسماء التجارب الثلاثة ، ثم حدد جميع قيم X و Y الثلاثة لحالة المعالجة الأولى لـ "قيم السلسلة X" و "قيم السلسلة Y" ، على التوالي . كرر لشرط العلاج الثاني ، واضغط على "موافق". (F) في المخطط ، حدد نقطة البيانات المقابلة للمتوسط ​​الأول وانقر نقرًا مزدوجًا لعزل نقطة البيانات. قم بتنسيق الحجم واللون وما إلى ذلك ، وكرر الأمر مع نقاط البيانات المتبقية. (ز) اختياري: لإضافة متوسط ​​وأشرطة خطأ ، إما إنشاء رسم بياني ثانٍ وتراكب البيانات ، أو حساب المتوسط ​​والانحراف المعياري باستخدام Excel وإضافة سلسلة البيانات إلى الرسم البياني كما تم إجراؤه في E و F ، باستخدام "-" رمز لنقطة البيانات.

برنامج تعليمي لصنع SuperPlots في Excel. (أ) لإنشاء SuperPlot باستخدام Excel (Microsoft Office 365 ProPlus for Windows الإصدار 1912 Build 12325.20172) ، أدخل قيم أول نسخة متماثلة للشرط الأول في العمود B (مميز باللون الأصفر) ، الشرط الثاني في العمود D (مميز باللون الأصفر) ، واستمر في تخطي الأعمدة بين مجموعات البيانات للشروط المتبقية والتكرار (في هذا المثال ، يتم تمييز النسخ المتماثل 2 باللون الأخضر والنسخ المتماثل 3 باللون البرتقالي). على سبيل المثال ، يمكن أن تكون "المعالجة أ" عبارة عن خلايا تحكم و "المعالجة ب" يمكن أن تكون خلايا معالجة بالعقاقير. قم بتسمية الأعمدة الفارغة كـ "x" ، وابدأ من العمود A ، أدخل قيمًا عشوائية لإنشاء تأثير التشتت باستخدام الصيغة "= RANDBETWEEN (25 ، 100)". لإنشاء فجوة بين مجموعتي البيانات A و B ، استخدم قيم X أكبر للمعالجة B بإدخال الصيغة "= RANDBETWEEN (225 ، 300)". (ب) قم بتمييز جميع البيانات والعناوين. في قائمة الإدراج ، وسّع قائمة الرسوم البيانية لفتح مربع الحوار "إدراج مخطط". حدد "جميع المخططات" ، واختر "X ص مبعثر". حدد الخيار الذي يحتوي على قيم Y المقابلة لمجموعات البيانات الخاصة بك. (في Excel for Mac ، لا يوجد مربع حوار منفصل. بدلاً من ذلك ، قم بعمل مخطط مبعثر ، وانقر بزر الماوس الأيمن على قطعة الأرض وحدد "تحديد البيانات" ، ثم قم بإزالة أعمدة "x" من القائمة ، ثم حدد يدويًا "X" المقابل القيم = "لكل مجموعة بيانات.) (ج) قم بتغيير الخصائص العامة للرسم البياني حسب رغبتك.في هذا المثال ، أزلنا عنوان المخطط وخطوط الشبكة ، وأضفنا مخططًا أسودًا إلى منطقة المخطط ، وقمنا بتغيير حجم الرسم البياني ، وضبطنا نطاق المحور س إلى 0-325 ، وأزلنا تسميات المحور س ، وأضفنا عنوان المحور وعلامات التجزئة ، غير الخط إلى Arial ، وغير لون الخط إلى الأسود. يمكن حفظ هذا النمط كقالب للاستخدام المستقبلي عن طريق النقر بزر الماوس الأيمن. نوصي بالحفاظ على وسيلة إيضاح الشكل حتى الخطوة التالية. (د) بعد ذلك ، انقر نقرًا مزدوجًا على الرسم البياني لفتح لوحة "تنسيق منطقة الرسم". ضمن "خيارات المخطط" ، حدد مجموعة البيانات الأولى ، "معالجة السلسلة أ (تكرار 1)". (في نظام Mac ، انقر فوق نقطة بيانات من إحدى النسخ المكررة ، وانقر بزر الماوس الأيمن وحدد "تنسيق سلسلة البيانات".) حدد "علامة" وقم بتغيير لون ونمط نقاط البيانات. كرر مع مجموعات البيانات المتبقية بحيث تتوافق الألوان والأشكال وما إلى ذلك مع التكرار البيولوجي الذي جاءت منه نقاط البيانات. احذف وسيلة إيضاح الرسم البياني وأضف تسميات المحور باستخدام أداة النص إذا رغبت في ذلك. (هـ) احسب متوسط ​​كل تكرار لكل حالة ، وقم بإقران هذه القيمة بإحداثي X لـ 62.5 للمعالجة الأولى ، و 262.5 للمعالجة الثانية لتوسيط القيم في مخطط التشتت. بعد ذلك ، انقر على الرسم البياني ، وضمن قائمة "تصميم المخطط" ، انقر على "تحديد البيانات". ضمن "إدخالات وسيلة الإيضاح (سلسلة)" ، حدد "إضافة" وتحت اسم السلسلة ، حدد أسماء التجارب الثلاثة ، ثم حدد جميع قيم X و Y الثلاثة لحالة المعالجة الأولى لـ "قيم السلسلة X" و "قيم السلسلة Y" ، على التوالي . كرر لشرط العلاج الثاني ، واضغط على "موافق". (F) في المخطط ، حدد نقطة البيانات المقابلة للمتوسط ​​الأول وانقر نقرًا مزدوجًا لعزل نقطة البيانات. قم بتنسيق الحجم واللون وما إلى ذلك ، وكرر الأمر مع نقاط البيانات المتبقية. (ز) اختياري: لإضافة متوسط ​​وأشرطة خطأ ، إما إنشاء رسم بياني ثانٍ وتراكب البيانات ، أو حساب المتوسط ​​والانحراف المعياري باستخدام Excel وإضافة سلسلة البيانات إلى الرسم البياني كما تم إجراؤه في E و F ، باستخدام "-" رمز لنقطة البيانات.


شاهد الفيديو: اختبار الفرضيات حول التباينات والنسب ج (شهر فبراير 2023).