معلومة

1.3.2: تلخيص البيانات - الإحصاء الوصفي - علم الأحياء

1.3.2: تلخيص البيانات - الإحصاء الوصفي - علم الأحياء


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

كيف تلخص البيانات؟

يتم تلخيص البيانات بطريقتين رئيسيتين: الحسابات الموجزة وتصورات الملخص

الحسابات: ما هي أنواع المقاييس المستخدمة؟

لتكون قادرًا على تفسير الأنماط في البيانات ، يجب أولاً معالجة البيانات الأولية وتلخيصها في فئتين من القياسات: مقاييس الاتجاه المركزي ومقاييس التباين. تلخص هاتان الفئتان من القياسات الخطوة الأولى من البحث العلمي ، وهي الإحصاء الوصفي.

مقاييس الاتجاه المركزي (الوسط) - يوفر معلومات عن كيفية تجمع البيانات حول قيمة متوسطة مفردة. هناك نوعان من مقاييس المركز المستخدمة في أغلب الأحيان في الاستقصاء البيولوجي:

  • يقصد (متوسط) - مجموع كل القيم الفردية مقسومًا على العدد الإجمالي للقيم في العينة / المجتمع. هذا هو المقياس الأكثر استخدامًا للمركز تحت التوزيع المتماثل وهو حساس للقيم المتطرفة.
  • الوسيط - القيمة الوسطى عند ترتيب مجموعة البيانات بترتيب تسلسلي (من الأعلى إلى الأدنى). يستخدم هذا بشكل شائع عندما تكون البيانات منحرفة ومقاومة للقيم المتطرفة.

مقاييس التباين (انتشار) - يصف مدى انتشار أو تشتت البيانات. هناك نوعان من المقاييس الرئيسية للانتشار المستخدمة في الاستقصاء البيولوجي:

  • نطاق - يحدد المسافة بين أكبر وأصغر قيم البيانات.
  • الانحراف المعياري - يحدد التباين أو التشتت من متوسط ​​مجموعة البيانات. يشير الانحراف المعياري المنخفض إلى أن البيانات تميل إلى أن تكون قريبة جدًا من المتوسط ​​؛ يشير الانحراف المعياري العالي إلى أن نقاط البيانات موزعة على نطاق كبير من القيم. هذا الحساب حساس للقيم المتطرفة.
  • خطأ تقليدي - يحدد التباين في الوسائل من مجموعات بيانات متعددة أو توزيع عينة لمجموعة البيانات الأصلية.

تصور البيانات: كيف يتم استخدام الجداول والرسوم البيانية؟

بعد حساب جميع الإحصائيات الوصفية المرغوبة ، يتم تلخيصها بشكل مرئي عادةً في جدول أو رسم بياني.

الجداول:

أ طاولة هي مجموعة من قيم البيانات مرتبة في أعمدة وصفوف. عادةً ما تشتمل الأعمدة على فئة بيانات واسعة ، بينما تشمل الصفوف فئة أخرى. يوجد داخل كل فئة عامة فئات فرعية تحدد عدد الأعمدة والصفوف التي يتكون منها الجدول. تُستخدم الجداول لتجميع البيانات وتلخيصها. ومع ذلك ، في معظم الأوقات عندما يتم عرض الجداول ، فإنها تتكون من بيانات ملخصة ، وليست بيانات أولية. على الرغم من أن الجداول تسمح بعرض البيانات الملخصة بطريقة منظمة ، إلا أن معظم الأشخاص يفضلون ترجمة الجداول إلى أداة تصور البيانات الأكثر قوة ، وهي الرسم البياني.

الرسوم البيانية:

أ رسم بياني هو رسم بياني يوضح العلاقة بين الكميات المتغيرة ، عادة من متغيرين ، يقاس كل منهما على طول أحد المحاور بزوايا قائمة. يمكن أن تبدو الرسوم البيانية مثل الرسم البياني أو الرسم. تستخدم معظم الرسوم البيانية الأشرطة أو الخطوط أو أجزاء من دائرة لعرض البيانات. ومع ذلك ، هناك أحيانًا عندما يتم تراكب الرسوم البيانية أعلى الخرائط لعرض الموقع الجغرافي أيضًا ، أو حتى تكون متحركة لتكون تفاعلية.

فئات أنواع الرسم البياني الرئيسية:
  • دائرة / فطيرة - مخطط دائري مقسم إلى شرائح لتوضيح النسبة العددية. في المخطط الدائري ، يتناسب طول القوس لكل شريحة (وبالتالي الزاوية والمساحة المركزية) مع الكمية التي تمثلها. في حين تم تسميتها لتشابهها مع فطيرة تم تقطيعها إلى شرائح ، إلا أن هناك اختلافات في طريقة تقديمها.
  • خط - نوع من الرسم البياني يعرض المعلومات على شكل سلسلة من نقاط البيانات تسمى "علامات" متصلة بواسطة مقاطع مستقيمة. إنه نوع أساسي من الرسم البياني شائع في العديد من المجالات. إنه مشابه لمخطط التبعثر فيما عدا أنه يتم ترتيب نقاط القياس (عادةً حسب قيمة المحور السيني) ويتم ربطها بمقاطع مستقيمة. غالبًا ما يتم استخدام المخطط الخطي لتصور اتجاه في البيانات عبر فترات زمنية - سلسلة زمنية - وبالتالي غالبًا ما يتم رسم الخط ترتيبًا زمنيًا.

الشكل ( PageIndex {a} ): أمثلة للرسم البياني الدائري / الدائري (أ) والرسم البياني الخطي (ب). صورة تم إنشاؤها بواسطة Rachel Schleiger (CC-BY-NC).

  • مؤامرة مبعثر - هو رسم بياني يتم فيه رسم قيم متغيرين على طول المحورين الأفقي والعمودي ، ويكشف نمط النقاط الناتجة عن أي ارتباط مسبق. يتم عرض البيانات كمجموعة من النقاط ، لكل منها قيمة متغير واحد يحدد الموضع على المحور الأفقي وقيمة المتغير الآخر الذي يحدد الموضع على المحور الرأسي.

الشكل ( PageIndex {b} ): مثال على مخطط مبعثر. صورة تم إنشاؤها بواسطة Rachel Schleiger (CC-BY-NC).

  • شريط - مخطط أو رسم بياني يعرض بيانات فئوية بأشرطة مستطيلة بارتفاعات أو أطوال تتناسب مع القيم التي تمثلها. يمكن رسم الأشرطة عموديًا أو أفقيًا.
  • الرسم البياني - هو تمثيل تقريبي لتوزيع البيانات العددية. لإنشاء مدرج تكراري ، فإن الخطوة الأولى هي "bin" (أو "bucket") نطاق القيم - أي تقسيم نطاق القيم بالكامل إلى سلسلة من الفواصل الزمنية - ثم حساب عدد القيم التي تقع في كل فترة زمنية. عادةً ما يتم تحديد الصناديق كفواصل متتالية غير متداخلة لمتغير. يجب أن تكون الصناديق (الفواصل الزمنية) متجاورة (بمعنى أنه لا توجد مسافات بينها كما هو الحال في الرسوم البيانية الشريطية) ، وغالبًا (ولكن ليس مطلوبًا أن تكون) متساوية في الحجم. إذا كانت الحاويات متساوية في الحجم ، فسيتم نصب مستطيل فوق الحاوية بارتفاع يتناسب مع التردد - عدد الصناديق في كل سلة.

الشكل ( PageIndex {c} ): أمثلة على الرسم البياني الشريطي (أ) والرسم البياني (ب) باستخدام نفس مجموعة البيانات. صورة تم إنشاؤها بواسطة Rachel Schleiger (CC-BY-NC).


الإسناد

راشيل شلايجر (CC-BY-NC)


1.3.2: تلخيص البيانات - الإحصاء الوصفي - علم الأحياء

مقاييس النزعة المركزية

عند وصف مجموعة من البيانات ، نهتم بالقياسات العددية للمركز والانتشار. تذكر في مثال وقت الدورة للوحدة 1.2 ، يبدو أن مركز البيانات عبارة عن دورة زمنية مدتها 21 يومًا. وهذا ما يسمى رسميًا بمقياس الاتجاه المركزي للبيانات. هناك طريقتان تقليديتان لقياس مركز توزيع البيانات: المتوسط ​​والوسيط.

يقصد
المتوسط ​​أو المتوسط ​​هو المقياس الحسابي للاتجاه المركزي ، وهو ببساطة مجموع كل الملاحظات في مجموعة من البيانات مقسومًا على العدد الإجمالي للملاحظات. إذن ، متوسط ​​سبع مرات دورة مع القيم 21 ، 23 ، 19 ، 22 ، 20 ، 22 ، 20 هو:

ستقرأ في نصوص الإحصاء أن هذه هي الصيغة لكل من الوسط السكاني (رمزه هو الحرف اليوناني mu) ومتوسط ​​العينة (رمزه هو x مع شريط فوقه ، أو x-bar). لا تنزعج - هذه ليست دورة تحتوي على الكثير من الصيغ والرموز والحسابات - سنسمح للكمبيوتر بالقيام بذلك. أريد فقط أن أسلط الضوء على حسابات المقاييس الكلاسيكية في الإحصاء الوصفي. ستقرأ أيضًا في الكتب المدرسية أن القياسات بناءً على عدد السكان تسمى المعلمات ، وتسمى القياسات المستندة إلى عينة الإحصائيات.

الوسيط
يُطلق على الوسيط مقياس الموقع للاتجاه المركزي لأنه يمثل القيمة المتوسطة لمجموعة من الملاحظات المرتبة - 50٪ من الملاحظات في مجموعة من البيانات تقع تحت المتوسط ​​بشرط أن تكون البيانات في مصفوفة مرتبة. نظرًا لأنه يتعين علينا حساب 100٪ من البيانات ، فإن 50٪ من الملاحظات تقع فوق المتوسط. لذلك ، بالنظر إلى أوقات الدورات 21 ، 23 ، 19 ، 22 ، 20 ، 22 ، 20 ، أنشأ أولاً مصفوفة مرتبة (قائمة مرتبة من الأرقام):

الوسيط هو الملاحظة المرتبة أو المرتبة التي تظهر في الموقع = (n + 1) / 2 ، حيث n هو رمز عدد الأرقام في مجموعة البيانات. لهذه المجموعة المرتبة:

هل تلاحظ أن المتوسط ​​والمتوسط ​​متساويان؟ ستكون متساوية تقريبًا (على سبيل المثال في حدود 5٪ من بعضها البعض) طالما أن توزيع مجموعة البيانات متماثل إلى حد ما بدون قيم متطرفة (إشارات أو قيم متطرفة) إلى جانب أو آخر. هذه نقطة مهمة. افترض أن لدينا وقتًا خارجيًا أو دورة إشارة تبلغ 38 بدلاً من 23. دعنا نحسب المتوسط ​​والمتوسط:

المتوسط ​​= (19 ، 20 ، 20 ، 21 ، 22 ، 22 ، 38) / 7 = 23.14

الوسيط = (7 + 1) / 2 = رابع ملاحظة مرتبة ، أي 21

تم "سحب" المتوسط ​​إلى القيمة الخارجة عن 38 - المتوسط ​​ليس مقاومًا للقيم المتطرفة ، لكن الوسيط لأنه موقع وليس مقياسًا حسابيًا. لاحظ أن المتوسط ​​أكبر بحوالي 10٪ من الوسيط: 21 هو أكثر تمثيلا للمركز عندما يكون التوزيع غير متماثل. كجانب جانبي ، يستخدم الاقتصاديون عمومًا الوسيط عند الإبلاغ عن مقياس مركز قيم الإسكان نظرًا لأن مجموعات بيانات الإسكان غالبًا ما تكون مشوهة بالقيم القصوى المرتفعة أو المنخفضة. سيكون من المضلل أو حتى غير أخلاقي الإبلاغ عن متوسط ​​قيمة السكن كمقياس للمركز عندما تكون هناك قيم متطرفة في الجانب المرتفع - الوسيط هو أكثر تمثيلا للمركز في هذه الحالة. لاحظ أيضًا أنه عندما يكون متوسط ​​& gt ، يكون التوزيع منحرفًا إلى اليمين - لقد رأيت صورة مدرج تكراري لذلك في ورقة العمل 1.2.3 من الوحدة النمطية 1.2. وبالمثل ، عندما يكون المتوسط ​​& lt الوسيط ، يكون التوزيع منحرفًا إلى اليسار - لقد رأيت صورة مدرج تكراري لذلك في ورقة العمل 1.2.4 من الوحدة النمطية 1.2.

قبل أن نكمل ، دعني أوضح لك كيفية حساب الوسيط بمجموعة متساوية من البيانات. افترض أن لدينا الأرقام 19 و 20 و 20 و 21 و 22 و 22 و 23 و 23. الوسيط هو:


الوضع
في بعض الأحيان تسمع عن الوضع كمقياس للاتجاه المركزي. ومع ذلك ، فإن الوضع هو ببساطة الرقم الأكثر ظهورًا في مجموعة البيانات ، لذلك يوجد بالفعل وضعان في التوزيع أعلاه ، 20 و 22. لن نستخدم الوضع كمقياس للاتجاه المركزي ، ولكن فقط للمساعدة في الفحص العام للشكل ، كما تمت مناقشته في الوحدة 1.2.

وقفة والتفكير

المتوسط ​​والوسيط مقياسان للمركز. سيكون المتوسط ​​والوسيط متساويين تقريبًا لمجموعات البيانات المتماثلة. الوسيط يقاوم القيم المتطرفة ، في حين يتم سحب المتوسط ​​نحوها. عندما يكون الوسيط & gt ، يكون التوزيع منحرفًا لليمين بقيمة (قيم) قصوى & gt يعني. عندما يكون المتوسط ​​& lt الوسيط ، ينحرف التوزيع لليسار بقيمة (قيم) قصوى & lt المتوسط. وبالتالي ، بالنسبة لمجموعات البيانات ذات القيم القصوى ، يكون الوسيط أكثر تمثيلاً للمركز ، وهو المقياس المفضل. بدلاً من ذلك ، يمكن إزالة القيم القصوى من البيانات لدراسة منفصلة ، ويمكن بعد ذلك حساب متوسط ​​حسابي جديد أكثر دقة.

نطاق
نفس القدر من الأهمية لوصف مركز مجموعة من البيانات بمقياس رقمي ، هو وصف الانتشار أو الاختلاف في مجموعة من البيانات. هناك ثلاث طرق كلاسيكية لقياس التباين. أبسط مقياس للانتشار هو النطاق. في مجموعة البيانات ، 19 ، 20 ، 20 ، 21 ، 22 ، 22 ، 23:

لذلك هناك فرق لمدة أربعة أيام بين أصغر وأكبر أوقات الدورة.

الانحراف المعياري
النطاق ليس ثريًا جدًا - فهو يتجاهل جميع الأرقام باستثناء رقمين. إذا كان التوزيع طبيعيًا تقريبًا أو شكل جرس متماثل ، فإن مقياس التباين الكلاسيكي هو الانحراف المعياري. لتعيين مرحلة الانحراف المعياري ، تذكر أن متوسط ​​هذه الأرقام هو 21. العدد 19 يختلف من 21 في - 2 ، الرقم 20 يختلف بمقدار -1 ، الرقم 23 في +2 ، وهكذا دواليك. الانحراف المعياري هو ببساطة مقياس لمتوسط ​​هذه الانحرافات. لحساب الانحراف المعياري لمجموعة من الأعداد 19 ، 20 ، 20 ، 21 ، 22 ، 22 ، 23 ، أوجد أولاً المتوسط ​​(لقد فعلنا ذلك بالفعل ، وهو 21). الآن اطرح كل رقم من المتوسط ​​، وقم بتربيع النتيجة (للتخلص من علامات النقود والسالب) ، وجمع الانحرافات التربيعية الناتجة ، واقسم على عدد الأرقام. هذا يسمى تباين السكان. الانحراف المعياري للسكان (الرمز هو الحرف اليوناني سيجما) هو الجذر التربيعي للتباين:

المتوسط ​​= (19 + 20 + 20 + 21 + 22 + 22 + 23) / 7 = 21

مجموع الانحرافات التربيعية = (19-21) 2 + (20-21) 2 + (20-21) 2 + (21-21) 2 + (22-21) 2 + (22-21) 2 + (23 - 21) 2 = 4 + 1 + 1 + 0 + 1 + 1 + 4 = 12

الفرق = 12/7 = 1.714

الانحراف المعياري = الجذر التربيعي 1.714 = 1.3

الانحراف المعياري لعينة (الرمز هو الحرف s) مشابه لما سبق ، ولكن يتم حساب التباين بقسمة مجموع الانحرافات التربيعية على عدد الأرقام ناقص واحد (n - 1). في الوحدتين 1.4 و 1.5 سنقوم بتعديل حجم العينة إلى n - 1 مرة أخرى ، ونشير إلى ذلك بدرجات الحرية. بالنسبة لأحجام العينات الكبيرة ، فإن تأثير القسمة على n - 1 مقابل القسمة على n لا يكاد يذكر. بالنسبة للعينات الصغيرة ، فإنها تحدث فرقًا ، لذا فإن القسمة على n - 1 تعطي تقديرًا أكبر أو أكثر تحفظًا للسبريد. إذا كانت مجموعة البيانات المذكورة أعلاه عينة ، فإن التباين والانحراف المعياري هما:

يتم تفسير الانحراف المعياري فيما يتعلق بالمتوسط. بالنسبة لمجموعات البيانات المتماثلة على شكل جرس ، يكون تفسير الانحراف المعياري كما يلي:

يمكن دمج ذلك مع المناطق التي تتضمن انحرافات معيارية 1 و 3 لوصف مجموعة من البيانات المتماثلة تقريبًا على شكل جرس:

تقع 68٪ من الملاحظات بين المتوسط ​​+ 1 Std Dev

95٪ من الملاحظات تقع بين المتوسط ​​+ 2 Std Dev

99.7٪ (تقريبًا كل أو 100٪) من الملاحظات تقع بين المتوسط ​​+ 3 Std Dev

تسمى هذه الخاصية المهمة جدًا القاعدة التجريبية - وهي تنطبق على جميع مجموعات البيانات المتماثلة على شكل جرس. سنطبقه لاحقًا عندما نصل إلى مثال أكبر.

النطاق الربيعي
المقياس الثالث للانتشار أو الاختلاف هو النطاق الربيعي (IQR). لحساب هذا المقياس ، نحتاج إلى الربعين الأول والثالث (Q1 و Q3 ، على التوالي). تم احتواء خمسة وعشرين بالمائة من الملاحظات المرتبة في مجموعة من البيانات في ربع ، لذا فإن 25٪ من الملاحظات أقل من الربع الأول ، و 50٪ من الملاحظات أقل من الربع الثاني (Q2 ، وتسمى أيضًا الوسيط) ، و 75٪ من الملاحظات أقل من الثالث. معدل الذكاء هو بسيط Q3 - Q1. ها هي الحسابات ، باستخدام الأعداد 19 ، 20 ، 20 ، 21 ، 22 ، 22 ، 24.

Q3 = 3 * (n + 1) / 4 الملاحظة المرتبة = 0.75 * (7 + 1) = الملاحظة المرتبة السادسة وهي الرقم الثاني 22 في المصفوفة المرتبة.

معدل الذكاء = Q3 - Q1 = 22-20 = 2 يوم

يقع منتصف 50 ٪ من البيانات ضمن معدل الذكاء. في بعض الأحيان ، يحب المحللون توسيع مقياس موقع الانتشار عن طريق الإبلاغ عن ملخص الأرقام الخمسة:

وقفة والتفكير

الانحراف المعياري والمدى الربيعي هما مقياسان للانتشار أو الاختلاف. يرتبط الانحراف المعياري بالمتوسط ​​وهو مقياس دقيق لانتشار التوزيعات المتماثلة على شكل جرس. يرتبط معدل الذكاء IQR بشكل عام بالمتوسط ​​، وهو مقياس دقيق لانتشار التوزيعات غير المتماثلة. من خلال مقياسين رقميين (الانحراف المعياري والمتوسط ​​أو المتوسط ​​ونسبة الذكاء) نكتسب الكثير من المعرفة حول مجموعة البيانات - حتى مجموعات البيانات المكونة من آلاف الأرقام.

تناظر
هناك بعض القياسات العددية السريعة التي يمكن استخدامها لتكملة مخططات توزيع التردد لتحديد ما إذا كان التوزيع متماثلًا أو على شكل جرس أو منحرف. هم انهم:

سنجرب القواعد الأساسية المذكورة أعلاه عندما نوضح الإحصائيات الوصفية لبرنامج Excel بعينة أكبر لاحقًا في هذه الوحدة.

تفاوت
يُعد معامل الاختلاف أداة مفيدة عند مقارنة تباين توزيع ما بتوزيع آخر ، خاصةً إذا كانت التوزيعات تحتوي على وحدات قياس مختلفة.

لنفترض أن تجارب شركة أخرى تعني دورة زمنية تبلغ 21 في سلسلة التوريد الخاصة بها أيضًا ، لكن الانحراف المعياري هو 7 أيام. معامل الاختلاف في هذه الحالة هو 33٪ ، وهو ما يعكس عملية ذات تباين أكبر بكثير من واحد مع معامل تباين 6.67٪.

ملاحظات
تعتبر القياسات النسبية للملاحظات مفيدة لإعطاء سياق الملاحظات ضمن مجموعة البيانات. النسبة المئوية هي مقياس نسبي للموقع لرقم في مصفوفة مرتبة. لقد ناقشنا بالفعل أمثلة على النسب المئوية ، حيث أن الربع الأول هو في الواقع النسبة المئوية الخامسة والعشرون - 25٪ من البيانات في المصفوفة المرتبة أقل من النسبة المئوية الخامسة والعشرين. ربما تتذكر درجتك المئوية في امتحانات القبول في الكلية. إذا سجلت في النسبة المئوية التسعين في اختبار SAT ، فإن 90 بالمائة من الدرجات المطلوبة كانت أقل من درجاتك. لإيجاد النسبة المئوية التسعين ، اطلب الملاحظات ، ثم احسب النسبة المئوية التسعين = 0.90 * (ن + 1) للعثور على الملاحظة المرتبة للفائدة. إذا كان n = 780 ، فسنبحث عن الرقم 703.

بالنسبة للتوزيعات المتماثلة تقريبًا ، على شكل جرس ، تعتبر Z-Score أو Z- Value مقياسًا نسبيًا قويًا للملاحظات. Z-Score هو ببساطة عدد الانحرافات المعيارية التي تكون الملاحظة من المتوسط. لذلك عندما نجد Z -Core لأحد الأرقام ، نقوم بتوحيد هذا الرقم. ما هي درجة Z للرقم 19.6 في توزيع بمتوسط ​​21 وانحراف معياري 1.4؟

يمكننا القول أن الرقم 19.6 هو انحراف معياري واحد عن (إلى يسار) متوسط ​​21.

Z- عشرات لها احتمالات مرتبطة. هل تتذكر أن 68٪ من الملاحظات في توزيع متماثل على شكل جرس تقع بين المتوسط ​​و + 1 الانحراف المعياري؟ هذا الانحراف المعياري "1" هو Z-Score! لاحظ أيضًا نسبة 68٪ - يمكننا إيجاد احتمال الحصول على أي درجة Z طالما أن مجموعة البيانات طبيعية أو متماثلة تقريبًا على شكل جرس. على سبيل المثال ، ما هو احتمال الحصول على ملاحظة أقل من 19.6 يومًا؟ نحن نعلم أنه نظريًا ، نطاق البيانات من 19.6 إلى 22.4 يومًا يشمل 68٪ من البيانات ، وبما أنه يتعين علينا الحصول على 100٪ من البيانات ، فإن 100٪ - 68٪ أو 32٪ من البيانات يجب أن تتضمن أرقامًا أعلى إلى 19.6 وما فوق 22.4. نظرًا لأننا نفترض أن هذه التوزيعات متماثلة ، فإن 16٪ من البيانات تصل إلى 19.6 و 16٪ أعلى من 24. لذلك ، بالنسبة للتوزيع المتماثل على شكل جرس بمتوسط ​​21 وانحراف معياري 1.4 ، فإن احتمال ملاحظة رقم أقل من 19.6 هي 0.16 أو 16٪. احتمال ملاحظة رقم أكبر من 19.6 هو ببساطة 100٪ - 16٪ أو 84٪.


استخدام برنامج Excel للحسابات

سنستخدم أداة تحليل البيانات والوظائف الإحصائية لإنتاج الإحصائيات الوصفية التي ناقشناها حتى الآن في الوحدة 1.3.

تتمثل أسرع طريقة لإنشاء مجموعة من الإحصائيات الوصفية في استخدام أداة الإحصاء الوصفي لتحليل البيانات. لنستخدم البيانات من ورقة العمل 1.2.1 في الوحدة النمطية 1.2. قم أولاً بإنشاء عمود لأوقات الدورات كما هو موضح في ورقة العمل هذه (أو إذا قمت بحفظ هذا المثال ، فقم بنسخ C1: C31 إلى منطقة جديدة من ورقة العمل بعد الرسم البياني ، مثل العمود J). لقد وضعت الأرقام في العمود J ، بدءًا من العنوان "الوقت" في الصف 1 ، وأوقات الدورة الثلاثين في J2 إلى J31. لا يلزم فرز البيانات لحساب الإحصائيات الوصفية ، ولكن يمكن أن تكون كذلك. حدد الآن أدوات من شريط الأدوات القياسي ، ثم تحليل البيانات من القائمة المنسدلة ، ثم حدد إحصائيات وصفية واتبع طلبات مربع الحوار كما فعلت في إنشاء الرسم البياني. بالنسبة لخيارات المخرجات ، حدد إحصائيات الملخص ومستوى الثقة للمتوسط ​​، وترك مستوى الثقة افتراضيًا عند 95٪. أود أيضًا وضع الإخراج بالقرب من بياناتي والرسم البياني إذا قمت بإنشاء رسم بياني للبيانات. تذكر أنه يجب عليك فقط إدخال موقع خلية واحد لنطاق الإخراج ، مثل L1 ، وستحدد هذه الخلية الزاوية اليسرى العلوية لنطاق الخلايا المطلوبة للإخراج - فقط تأكد من أن ورقة العمل واضحة أدناه و على يمين الخلية التي تحددها. لاحظ أنه يمكنك وضع مخرجاتك في ورقة عمل منفصلة أو حتى في مصنف منفصل إذا أردت. يجب أن تحصل على ورقة العمل 1.3.1 أدناه:

لقد ناقشنا المتوسط ​​والوسيط والوضع والانحراف المعياري وتباين العينة والمدى والحد الأدنى والحد الأقصى والجمع والعدد (عدد الملاحظات). يمكنك تجاهل التفرطح (مقياس رياضي لتركيز البيانات حول المركز مقارنة بذيول التوزيع) والانحراف (مقياس رياضي لتماثل التوزيع). يمكنك تجاهل الخطأ القياسي ومستوى الثقة في الوقت الحالي ، لكننا سنستخدمهما في الوحدة 1.4

توفر أداة الإحصاء الوصفي كل ما ناقشناه بعد ذلك ، باستثناء Q3 و Q1. للحصول على هذه ، نحتاج إلى استخدام ميزة الوظيفة في Excel. بالنسبة لجميع وظائف Excel ، ضع المؤشر في خلية أو حدد الخلية التي تريد فيها الربع ، على سبيل المثال M31. حدد إدراج من شريط الأدوات القياسي ، ثم الوظيفة ، ثم الإحصائي (في المربع الأيسر من شاشة لصق وظيفة الحوار) ، ثم رباعي (قم بالتمرير لأسفل للعثور على الربع في المربع الأيمن من شاشة الحوار) ، ثم اتبع شاشة الحوار عن طريق إدخال نطاق الخلايا لـ بياناتك (على سبيل المثال ، L2: L30) ، و 1 للربع الأول. صيغة الخلية الناتجة هي = QUARTILE (L2: L30، 1). لاحظ أنه لا يُسمح بأي تسميات ، لذا بدأت نطاق الخلايا بـ L2 بدلاً من L1. يجب أن تحصل على النتائج في ورقة العمل 1.3.2. كررت هذه العملية للربيع الثالث ، Q3 ، الذي وضعته في M32. أضفت أيضًا الصيغة = (M32 - M31) في الخلية M33 للحصول على النطاق الربيعي. لقد أضفت التسميات في الخلايا L31 و L32 و L33 للتوضيح نظرًا لأن ميزة الوظيفة لا تدرج عنوان الوظيفة.

دعنا نستخدم الإحصائيات الوصفية أعلاه لوصف مجموعة البيانات بالكامل.

مقاييس الموقع للمركز والانتشار
خمسون بالمائة من الملاحظات المطلوبة تقل عن متوسط ​​21 يومًا. خمسة وعشرون بالمائة من الملاحظات المرتبة تقع تحت الربع الأول من 19 يومًا و 75٪ من الملاحظات المرتبة تقع تحت الربع الثالث من 22 يومًا. المدى الربيعي هو 3 أيام من 19 إلى 22 ، ويمثل منتصف 50 ٪ من الملاحظات المرتبة. يكتمل الملخص المكون من خمسة أرقام عندما نضيف الحد الأدنى للقيمة وهو 16 يومًا والحد الأقصى 29 يومًا.

المقاييس الحسابية للمركز والانتشار
المتوسط ​​هو 21.07 ، أو 21 يومًا فقط اعتمادًا على الدقة التي نحتاجها لأغراض إعداد التقارير. الانحراف المعياري 2.94 أو 3 أيام تقريبًا. التفسير: تقع معظم الملاحظات أو 95٪ منها ضمن الفترة الزمنية: متوسط ​​+ 2 * ق = 21 + (2 * 3) أو 15 إلى 27 يومًا. لاستخدام القاعدة التجريبية لتلخيص مجموعة من البيانات التي تكون متماثلة تقريبًا وشكل الجرس ، بمتوسط ​​21 والانحراف المعياري 3:

68٪ من الملاحظات خلال 21 + (1 * 3): من 18 إلى 24 يومًا.

95٪ من الملاحظات في غضون 21 + (2 * 3): 15 إلى 27 يومًا.

100٪ من الملاحظات في غضون 21 + (3 * 3): من 12 إلى 30 يومًا.

مما سبق ، لا نتوقع أي ملاحظات أقل من 12 يومًا أو أكثر من 30. ستكون هذه الملاحظات قيمًا متطرفة.

النسبة المئوية
للعثور على النسبة المئوية باستخدام Excel ، حدد إدراج على شريط الأدوات القياسي ، ثم الوظيفة ، ثم الإحصاء ، ثم النسبة المئوية ، ثم قم بالرد على مربع الحوار عن طريق إدخال نطاق الخلايا لأرقامك والنسب المئوية المطلوب. على سبيل المثال ، للحصول على النسبة المئوية الخامسة والعشرين لهذا الرسم التوضيحي ، ستكون صيغة الخلية الناتجة هي: = PERCENTILE (L2: L31،0.25). سيتم وضع النسبة المئوية في جدول البيانات أينما كان المؤشر (الخلية النشطة).

النتيجة Z
ما هي درجة Z للرقم 18؟

إذن ، 18 هو انحراف معياري واحد على يسار المتوسط ​​21. ما هي درجة Z للرقم 24؟

الرقم 24 هو انحراف معياري واحد يمين الوسط. للحصول على Z-Score من Excel ، نستخدم وظيفة التوحيد القياسي. ضع المؤشر أو النقطة وانقر في الخلية التي تريد وضع Z-Score فيها ، مثل Q2. حدد إدراج من شريط الأدوات القياسي ، ثم الوظيفة ، ثم إحصائي ، ثم التوحيد القياسي والرد على أسئلة مربع الحوار. يجب عليك تكرار صيغة الخلية = STANDARDIZE (18،21،3) والتي تعطي درجة Z -1. أفضل استخدام عنوان الخلية للرقم 18 حتى أتمكن من نسخ مرجع الخلية المعياري لتوحيد صف أو عمود كامل من الأرقام. سيكون هذا = قياسي (L6 ، 21 ، 3). ثم أقوم بإضافة عنوان إلى العمود ، مثل "Z-Scores". المطلب الخامس في Project Assignment 1 هو توحيد (إنشاء Z-Scores) لعمود البيانات الخاص بك.

تعتبر Z-Scores طرقًا مفيدة جدًا لتحديد القيم المتطرفة. أي درجة Z أقل من -3 أو أعلى من +3 ستحدد رقمًا أكثر من 3 انحرافات معيارية عن المتوسط. الشرط السادس في Project Assignment 1 هو إزالة أي قيم متطرفة من بياناتك ، وإعادة حساب الإحصائيات الوصفية. يتم تحديد القيم المتطرفة بسرعة بواسطة Z-Scores. لا تعني إزالة البيانات الخارجية من مجموعة بيانات حقيقية أنه يمكننا تجاهلها للتحليل - بل يعني فقط أنه يجب علينا تحليلها بشكل منفصل عن البيانات.

ملاحظة جانبية: إزالة عنصر بيانات من عمود أرقام في Excel يعني إزالته ، وليس الكتابة فوق الرقم بصفر. لإزالة رقم ، أشر وانقر عليه ، حدد تحرير على شريط الأدوات القياسي ، ثم امسح من القائمة المنسدلة ، ثم حدد المحتويات. يؤدي هذا إلى إنشاء مساحة فارغة حيث كان الرقم موجودًا مرة واحدة. إذا كنت تريد إزالة الرقم والمسافة ، فحدد تحرير ، ثم حذف من القائمة المنسدلة ، ثم حدد Shift الخلايا لأعلى إذا كان لديك عمود من البيانات ، أو Shift الخلايا المتبقية إذا كان لديك صف من البيانات.

احتمالية Z-Score
يحتوي Excel على وظيفة إحصائية تحسب تلقائيًا احتمالات Z-Scores. لنجد احتمال الحصول على وقت دورة أقل من 18 يومًا (تذكر أن الوقت متغير مستمر ، لذا فإن الرقم أقل من 18 يمكن أن يكون 17.9999). إذا كنت تعرف Z-Score لأحد الأرقام ، فستعطي الدالة NORMSDIST الاحتمالية التراكمية للمنطقة الواقعة تحت توزيع متماثل على شكل جرس حتى درجة Z-Score. NORMSDIST تعني التوزيع العادي القياسي. ضع المؤشر أو النقطة وانقر في الخلية التي تريد الاحتمال فيها. حدد إدراج ، ثم دالة ، ثم إحصائية ، ثم NORMSDIST وأدخل ببساطة Z-Score من -1. يجب أن تحصل على 0.158655 أو 0.16 أو 16٪. احتمال الحصول على ملاحظة أقل من 18 يومًا هو 0.16 أو 16٪. ما هو احتمال الحصول على ملاحظة أكبر من 18؟ لقد خمنت ذلك: 100٪ - 16٪ = 84٪.

العنصر السابع في Project Assignment 1 هو حساب احتمال تجاوز الملاحظة المرتبة 45 (الفرز) في مجموعة البيانات الخاصة بك. إذا كان لديك أكثر أو أقل من 50 ملاحظة ، فقم بحساب قدرة العملية للخامس من آخر ملاحظة مرتبة.

هناك بعض الإجراءات والمعالجات البديلة لبرنامج Excel ، لكننا وصفنا الأساسيات المهمة. ماذا لو كنت تريد احتمال الحصول على وقت دورة أقل من 18 يومًا ولكنك لا تعرف Z-Score؟ استخدم دالة NORMDIST في Excel. أشر وانقر فوق خلية حيث تريد الاحتمال ، وحدد إدراج من شريط الأدوات القياسي ، ثم دالة ، ثم إحصائية ، ثم NORMDIST وقم بالرد على أسئلة مربع الحوار عن طريق إدخال الرقم والمتوسط ​​والانحراف المعياري والعمل TRUE). ستبدو صيغة الخلية كما يلي: = NORMDIST (18،21،3، TRUE).

التوزيع الطبيعي
قبل أن نغلق هذه المجموعة من الملاحظات بمثال آخر ، اسمحوا لي أن أقول بضع كلمات عن التوزيع الطبيعي. يعتمد المتوسط ​​والانحراف المعياري والدرجات Z والاحتمالات أو الاحتمالات العادية للدرجات Z على التوزيع المتماثل تقريبًا على شكل جرس أو "عادي". لن تكون التوزيعات أبدًا على شكل جرس تمامًا في الحياة الواقعية ، لكن لا يجب أن تكون كذلك - طبيعي تقريبًا جيد ، خاصة إذا كان لدينا 30 ملاحظة على الأقل. إذن ، كيف تعرف أن التوزيع طبيعي؟ فيما يلي بعض القواعد العامة:

1). تحقق من الرسم البياني لمعرفة ما إذا كان له شكل جرس متماثل ، بدون قيم متطرفة (أي ملاحظة ذات درجة Z أكبر من +3 أو أقل من -3).

2). يجب أن يكون المتوسط ​​مساويًا للوسيط تقريبًا. في هذا المثال ، 21.07 يساوي 21 تقريبًا.

3). يجب أن يكون النطاق الربيعي قريبًا من 1.33 ضعف الانحراف المعياري. هنا ، يقترب معدل الذكاء من 3 إلى حد ما من 1.33 مرة 2.94 (3.9) على الرغم من أننا نود أن يكون هذا أقرب إلى حد ما.

4) افحص النطاقات النظرية للقاعدة التجريبية وقارنها بالبيانات الفعلية. 68٪ من البيانات يجب أن يكون بين 18 و 24. العد الفعلي هو 26 من 30 أو 80٪.

يجب أن يكون 95٪ من البيانات بين 15 و 27. العد الفعلي هو 29 من 30 أو 96.7٪.

يجب أن تكون نسبة 100٪ من البيانات بين 12 و 30. العدد الفعلي هو 30 لدينا من 30 ، أو 100٪.

تعمل معظم القواعد الأساسية لهذا المثال الزمني للدورة. دعنا ننظر إلى مثال حيث يوجد شاذ.


وضعه مع مثال آخر

ماذا لو كانت الملاحظة 31 كانت 38؟ نحن نعلم بالفعل أن 100٪ من الملاحظات يجب أن تقع في نطاق 12 إلى 30 ، لذا فإن 38 هي أكثر من 3 انحرافات معيارية عن المتوسط ​​- هل تتذكر ما أطلقناه - نعم ، شاذ أو إشارة.

مخطط التحكم في العمليات
لنفترض أنك أنشأت مخططًا للتحكم في العملية لمراقبة عملية دورة الوقت بناءً على الملاحظات الثلاثين الأصلية. متوسط ​​الرسم البياني هو 21 ، الحد الأعلى للتحكم في العملية هو المتوسط ​​زائد ثلاثة انحرافات معيارية أو 21 + (3 * 3) = 30. حد التحكم الأدنى هو المتوسط ​​ناقص ثلاثة انحرافات معيارية أو 21 - (3 * 3) = 12. هذه هي حدود التحكم العليا والسفلى للعمليات نظرًا لأننا نتوقع ما يقرب من 100٪ من الملاحظات الناتجة عن عملية ما داخل منطقة المتوسط ​​+ 3 Std Dev. يتم تعيين حد المواصفات الأعلى البالغ 24 من قبل الرئيس أو العميل ، أو أي شخص آخر - لم يتم تعيينه بواسطة الإحصائيات. هنا مخطط التحكم في العملية:

لاحظ أن الملاحظة 31 أعلى من UCL وستبرر التحقيق كإشارة إلى أن العملية قد خرجت عن نطاق السيطرة. دعنا نؤكد هذا بإيجاد احتمال الحصول على ملاحظة 38 أو أكثر ، بمتوسط ​​عملية 21 وانحراف معياري 3. أولاً ، حساب Z-Score:

الآن ، ابحث عن الاحتمال باستخدام دالة NORMSDIST في Excel. صيغة الخلية هي:

تذكر ، هذا هو الاحتمال التراكمي لملاحظة رقم أقل من 38. لذا للحصول على احتمال ملاحظة رقم أكبر من 38 ، خذ 1.0 - .99999999 = 0.00000001 أو هناك احتمال 0٪ لملاحظة 38 إذا كان المتوسط 21 والانحراف المعياري هو 3 - وهذا هو سبب تسميته بالإشارة أو الخارجة.

قبل مغادرة مخطط التحكم في العملية ، دعنا نركز للحظة على حد المواصفات الأعلى الذي يحدده عادةً الرئيس أو العميل. USL هو 24. بالعودة إلى بداية مجموعة الملاحظات هذه ، الوحدة 1.1 ، أشرنا إلى أنه لا توجد طريقة يمكننا من خلالها إرضاء المدير بحد أعلى للمواصفات يبلغ 24. الآن يجب أن تكون قادرًا على توضيح سبب ذلك. بمتوسط ​​21 وانحراف معياري 3 ، نعلم أن 24 هو +1 انحراف معياري عن المتوسط ​​(z- الدرجة = (24-21) / 3 = + 1). تم العثور على احتمال الحصول على ملاحظة أعلى من 24 من خلال الحصول أولاً على احتمال رقم أقل من 24:

هذه العملية قادرة فقط على إرضاء العميل بنسبة 84٪ من الوقت - وهذا مقياس لقدرة العملية. الآن ، للحصول على احتمال إيجاد رقم أعلى من 24: 1.0 - 0.84 = 0.16. هناك احتمال بنسبة 16٪ للحصول على ملاحظة أعلى من 24 - ولهذا السبب لن يكون العميل سعيدًا. تحد المواصفات العليا لانحراف معياري واحد فوق المتوسط ​​هو عملية 1 سيجما - هدف GE هو الحصول على عمليات SIX SIGMA - تحدد المواصفات 6 انحرافات معيارية عن المتوسط.

الإحصاء الوصفي
ماذا لو كنت قد بدأت للتو وجمعت 31 ملاحظة ولم تكن لديك معرفة مسبقة بالمتوسط ​​أو الانحراف المعياري أو الوسيط أو معدل الذكاء أو المدرج التكراري. ستقوم أولاً بإنشاء المدرج التكراري ، كما هو موضح في ورقة العمل 1.3.4 أدناه.

من خلال الملاحظة ، يمكننا القول أن هناك انحرافًا على يمين نطاق البيانات ، مما يجعل التوزيع منحرفًا بشكل صحيح. إذا احتجنا إلى الإبلاغ عن المركز وانتشار التوزيع المنحرف ، فسنستخدم. هذا صحيح ، المدى المتوسط ​​والربيعي. فيما يلي الإحصاء الوصفي:


ما هو الوصفي S.تاتستيك؟

تتضمن الإحصائيات الوصفية تلخيص البيانات وتنظيمها بحيث يمكن فهمها بسهولة. Descriptive statistics, unlike inferential statistics, seeks to describe the data, but does not attempt to make inferences from the sample to the whole population. Here, we typically describe the data in a sample. This generally means that descriptive statistics, unlike inferential statistics, is not developed on the basis of probability theory.


Content Preview

Let us take a look at an example. In 1985, the USDA commissioned a study of women’s nutrition. Nutrient intake was measured for a random sample of 737 women aged 25-50 years. The following variables were measured:

Using Technology

Using SAS

We will use the SAS program called to carry out the calculations that we would like to see.

The lines of this program are saved in a simple text file with a .sas file extension. If you have SAS installed on the machine on which you have download this file, it should launch SAS and open the program within the SAS application. Marking up a print out of the SAS program is also a good strategy for learning how this program is put together.

The video will walk you through the various parts of the code.

The first part of this SAS output, (download below), is the results of the Means Procedure - proc means. Because the SAS output is usually a relatively long document, printing these pages of output out and marking them with notes is highly recommended if not required!

Example: Nutrient Intake Data - Descriptive Statistics


Download the SAS Output file: nutrient2.lst

The first column of the Means Procedure table above gives the variable name. The second column reports the sample size. This is then followed by the sample means (third column) and the sample standard deviations (fourth column) for each variable. I have copied these values into the table below. I have also rounded these numbers a bit to make them easier to use for this example.

Using Minitab

Click on the graphic or the link below to walk through how to find descriptive statistics for the Women's Nutrition dataset in Minitab.

Video: Descriptive Statistics in Minitab

التحليلات

الإحصاء الوصفي

A summary of the descriptive statistics is given here for ease of reference.

عامل يقصد Standard Deviation
الكالسيوم 624.0 mg 397.3 mg
حديد 11.1 mg 6.0 mg
بروتين 65.8 mg 30.6 mg
فيتامين أ 839.6 μg 1634.0 μg
فيتامين سي 78.9 mg 73.6 mg

Notice that the standard deviations are large relative to their respective means, especially for Vitamin A & C. This would indicate a high variability among women in nutrient intake. However, whether the standard deviations are relatively large or not, will depend on the context of the application. Skill in interpreting the statistical analysis depends very much on the researcher's subject matter knowledge.

The variance-covariance matrix is also copied into the matrix below.

(S = left(egin157829.4 & 940.1 & 6075.8 & 102411.1 & 6701.6 940.1 & 35.8 & 114.1 & 2383.2 & 137.7 6075.8 & 114.1 & 934.9 & 7330.1 & 477.2 102411.1 & 2383.2 & 7330.1 & 2668452.4 & 22063.3 6701.6 & 137.7 & 477.2 & 22063.3 & 5416.3 end ight))

Interpretation

Because this covariance is positive, we see that calcium intake tends to increase with increasing iron intake. The strength of this positive association can only be judged by comparing س12 to the product of the sample standard deviations for calcium and iron. This comparison is most readily accomplished by looking at the sample correlation between the two variables.

  • The sample variances are given by the diagonal elements of س. For example, the variance of iron intake is (s_<2>^<2>). 35. 8 mg 2 .
  • The covariances are given by the off-diagonal elements of س. For example, the covariance between calcium and iron intake is (s_<12>)= 940. 1.
  • Note that, the covariances are all positive, indicating that the daily intake of each nutrient increases with increased intake of the remaining nutrients.

Sample Correlations

The sample correlations are included in the table below.

الكالسيوم حديد بروتين فيت. أ فيت. ج
الكالسيوم 1.000 0.395 0.500 0.158 0.229
حديد 0.395 1.000 0.623 0.244 0.313
بروتين 0.500 0.623 1.000 0.147 0.212
فيت. أ 0.158 0.244 0.147 1.000 0.184
فيت. ج 0.229 0.313 0.212 0.184 1.000

Here we can see that the correlation between each of the variables and themselves are all equal to one, and the off-diagonal elements give the correlation between each of the pairs of variables.

Generally, we look for the strongest correlations first. The results above suggest that protein, iron, and calcium are all positively associated. Each of these three nutrients intake increases with increasing values of the remaining two.

ال coefficient of determination is another measure of association and is simply equal to the square of the correlation. For example, in this case, the coefficient of determination between protein and iron is ((0.623)^2) or about 0.388.

This says that about 39% of the variation in iron intake is explained by protein intake. Or, conversely, 39% of the protein intake is explained by the variation in the iron intake. Both interpretations are equivalent.


Content Preview

Frequency tables, pie charts, and bar charts can all be used to display data concerning one categorical (i.e., nominal- or ordinal-level) variable. Below are descriptions for each along with some examples. At the end of this lesson you will learn how to construct each of these using Minitab Express.

أ frequency table contains the counts of how often each value occurs in the dataset. Some statistical software, such as Minitab Express, will use the term حصيلة to describe a frequency table. Frequency tables are most commonly used with nominal- and ordinal-level variables, though they may also be used with interval- or ratio-level variables if there are a limited number of possible outcomes.

In addition to containing counts, some frequency tables may also include the percent of the dataset that falls into each category, and some may include cumulative values. أ cumulative count is the number of cases in that category and all previous categories. أ cumulative percent is the percent in that category and all previous categories. Cumulative counts and cumulative percentages should only be presented when the data are at least ordinal-level.

The first example is a frequency table displaying the counts and percentages for Penn State undergraduate student enrollment by campus. Because this is a nominal-level variable, cumulative values were not included.

Frequencies of Campus
حرم الجامعة عدد نسبه مئويه
University Park 40,639 50.1%
Commonwealth Campuses 27,100 33.4%
PA College of Technology 4,981 6.1%
World Campus 8,360 10.3%
المجموع 81,080 100%

Penn State Fall 2019 Undergraduate Enrollments

The next example is a frequency table for an ordinal-level variable: class standing. Because ordinal-level variables have a meaningful order, we sometimes want to look at the cumulative counts or cumulative percents, which tell us the number or percent of cases at or below that level.

As an example, let's interpret the values in the "Sophomore" row. There are 22 sophomore students in this sample. There are 27 students who are sophomore or below (i.e., first-year or sophomore). In terms of percentages, 34.4% of students are sophomores and 42.2% of students are sophomores or below.

Frequencies of Class Standing
Class Standing عدد Cumulative Count نسبه مئويه Cumulative Percent
العام الأول 5 5 7.8% 7.8%
Sophomore 22 27 34.4% 42.2%
Junior 17 44 26.6% 68.8%
كبير 20 64 31.3% 100.0%

أ pie chart displays data concerning one categorical variable by partitioning a circle into "slices" that represent the proportion in each category. When constructing a pie chart, pay special attention to the colors being used to ensure that it is accessible to individuals with different types of colorblindness.

  • University Park (48.5%)
  • Commonwealth Campuses (34.9%)
  • PA College of Technology (6.5%)
  • World Campus (10.1%)

أ bar chart is a graph that can be used to display data concerning one nominal- or ordinal-level variable. The bars, which may be vertical or horizontal, symbolize the number of cases in each category. Note that the bars on a bar chart are separated by spaces this communicates that this a categorical variable.

The first example below is a bar chart with vertical bars. The second example is a bar chart with horizontal bars. Both examples are displaying the same data. On both charts, the size of the bar represents the number of cases in that category.

Penn State Fall 2019 Undergraduate Enrollments

Penn State Fall 2019 Undergraduate Enrollments

Pie charts tend to work best when there are only a few categories. If a variable has many categories, a pie chart may be difficult to read. In those cases, a frequency table or bar chart may be more appropriate. Each visual display has its own strengths and weaknesses. When first starting out, you may need to make a few different types of displays to determine which most clearly communicates your data.


1.3.2: Summarizing the data- Descriptive statistics - Biology

Questions (a) to (c) refer to the following figure: NOTE: Connect the A points with a smooth curve to form distribution A, the B points with a smooth curve to form distribution B, and the C points with a smooth curve to form distribution C.

أ. In the figure, which distribution's mean differs from the mean of the other two distributions?
ب. In the figure, which distribution has the smallest standard deviation?
ج. In the figure, is it likely that the mean of distribution A corresponds closely with the mode of distribution B?

Define the following term and give an example of its use. Your example should not be one given in class or in a handout.

Define the following term and give an example of its use. Your example should not be one given in class or in a handout.

Explain briefly how you would decide which of the following two events is the more unusual

In what sense is the mean of any distribution the "best guess" of the score of any single individual selected at random from the group?

The heights of a sample of ten people are:

67 73 70 60 67 66 68 71 70 67.

Which are the correct limits for the frequency table given below?

Ms. Sweetwater's biology class had a standard deviation of 2.4 on a standardized test, while Ms. Quincy's biology had a standard deviation of 1.2 on the same test. What can be said about these two classes?

A large mass of data can best be summarized pictorially by means of

For a symmetric distribution, the mean and median are

Consider the following data:

The mean and median for this data are

A distribution of 6 scores has a median of 21. If the highest score increases 3 points, the median will become ___________

Consider the following data:

53, 61, 38, 65, 72, 58, 52, 63, 69, 74, 66

You are given that SUM(i = 1, 11)(Y(i) - YBAR)**2 = 1082 and SUM(i = 1, 11)(Y(i)) = 671.

i) Find YBAR, the sample mean. a) 67.1
b) 98.4
c) 108.2
d) 61.0
e) None of the above

ii) Find S**2, the sample variance.

If you are told a population has a mean of 25 and a variance of 0, what must you conclude?

True or False? If False, correct it.

The sample mean of the following sample

If the mean, median and mode of a distribution are 5, 6, 7 respec- tively, then the distribution is

Which of the following measures of central tendency tends to be most influenced by an extreme score?

In a frequency distribution of 250 scores, the mean is reported as 78 and the median as 65. One would expect this distribution to be

The measure of central tendency which is sensitive to extreme scores on the higher or lower end of a distribution is the

Which of the following is not a measure of central tendency?

In a group of 12 scores, the largest score is increased by 36 points. What effect will this have on the mean of the scores?

The quantity SUM(X - XBAR) is not used as a measure of dispersion because it is

In popular usage, the term average may refer to

The mean of the following data is:

Consider the following data:

The mean XBAR of the data above is

A sample of 5 persons with hypertension underwent a special blood-pressure-reducing treatment program which resulted in the following reductions in systolic blood pressure for these persons (i.e. the scores give SBP after treatment - SBP before treatment): -5, 10, 20, 5, 10. The mean of this sample is

If a teacher computes the mean for a set of test scores and then subtracts this mean from each score, the SUM of the resulting set of difference scores will equal

In a set of 10 scores the value 2 occurs three times, the value 4 occurs twice, 6 occurs twice, and 7 occurs three times. What is the mean of the scores?

The following data represent scores of 50 students in a calculus test.

أ. For each of the samples listed below obtain

1. a mean
2. a variance, and
3. a standard deviation Each sample was randomly obtained from the production of the hot dog manufacturer listed.

Below are measurements of characteristics for two samples of interest, For each characteristic obtain

أ. يقصد
ب. Variance
ج. Standard deviation
د. Frequency plot

Two workers on the same job show the following results over a long period of time.

The sample variance of the following sample of five numbers 3,3,3,3,3 is

The sample variance of the following sample of five numbers 1,2,3,4,5 is

The variance, S(Y)**2, of the numbers 4, 6 is

Let us define a new statistic as the distance between 70th sample percentile and 30th sample percentile. This new statistic would give us information concerning

Which one of the following CANNOT be used as a measure of dispersion?

True or False? If False, explain why.

Which of the following relations is always correct?

If a constant were to be added to a set of scores, the standard deviation would

Increasing the frequencies in the tails of a distribution will

If the variance of a distribution is 9, the standard deviation is

The standard deviation of a group of scores is 10. If 5 were subtracted from each score, the standard deviation of the new scores would be

A sample of 5 persons with hypertension underwent a special blood- pressure-reducing treatment program which resulted in the following values giving reduction in systolic blood pressure for these persons (i.e. the scores give SBP after treatment - SBP before treatment): -5, 10, 20, 5, 10.

Suppose for a second sample of 5 persons, the sample mean is 10, and the sample variance is 25. Then which of the following statements about this second sample is not correct?

The following set of scores is obtained on a test, X:

4, 6, 8, 9, 11, 13, 16, 24, 24, 24, 26.

The teacher computes all of the descriptive indices of central tendency and variability on these data, then discovers that an error was made, and one of the 24's is actually a 17. Which of the following indices will be changed from the original computation?

Each year, during a period of seven years, Mrs. Smith gave birth to a child. The standard deviation of the ages (in whole years) of the 7 children of the family Smith is equal to

What is the standard deviation for the following set of scores:

Calculate the variance and standard deviataion for the data given:

Listed below are two sample data sets, S and T. Which data set has the larger standard deviation?
(Hint: you can answer this question by inspecting the two data sets. But if you are not sure after inspection, calculate the standard deviation.)

True or False? If false, correct it.

True or False? If False, correct it.

True or False? If False, correct it.

True or false? If false, explain why.

Consider the following data:

53, 61, 38, 65, 72, 58, 52, 63, 69, 74, 66.

You are given that SUM(i = 1,11)([Y(i) - YBAR]**2) = 1082 and SUM(i = 1,11)(Y(i)) = 671. Find S**2, the unbiased estimator of the sample variance.

Consider the following data:

The variance, S**2, of this data is closest to:

The variance for the sample [47.1, 33.1, 26.1, 40.1, 54.1] is:

The variance of a group of 10 scores was 16. If 2 were subtracted from each score, the variance of the new scores would be:

The scores that have the greatest effect on the value of the variance are those

The sample variance is calculated as the average of the squared devia- tions of all the scores from the mean:

Why is the numerator squared?

True or False? If false correct it.

On a final examination, the following scores were earned:

Use these data to answer the following 4 questions.

A report states that a measurement is approximately normally distributed with mean 3.5 and variance 1. Further, it states that measurements were recorded for 7 measurement classes 0-1,1-2, etc.

18, 13, 2, 20, 8, 10, 5, 10, 6, 9, 10, 20, 2 15, 16, 16, 13, 10, 17, 10, 3, 2, 15, 8, 5

Suppose you are given a data set to analyze. The data consist of 1000 observations on one variable, the height of the subject being interviewed. Assume half the subjects are male and half are female. The sample mean height of the males is larger than the sample mean height of the females, while the sample standard deviation of the females is larger than the sample standard deviation of the males. Both histograms are approximately symmetric.

A friend of yours heard that you were taking statistics and has presented you with the following table from which he wants you to construct a histogram.

TABLE A The following table is a cross-tabulation of age and reading speed of 100 pupils. In Table A, what proportion of those whose reading speed was more than 33 were aged between 104 and 113 months?

Both a frequency diagram and a relative frequency diagram are drawn for the following data:

A list of the percentages of the total number of cases observed at each score value or each subinterval of scores is

If our lowest score were 40, and the highest score were 189, n=200, and we decide to group our scores into 15 class intervals for a frequency distribution, the width of each interval would be

A reading test with 50 possible points yields a bell-shaped distribution with scores ranging from 5 to 48 on a large sample of third graders. If the same test were administered to fifth graders, what would we expect the form of the frequency distribution to be?

A frequency distribution provides the following information:

True or False? If False, correct it.

A percentile score of 40 indicates that a person

If a person earned a score higher than 35 persons in his class of 50 students, what is his percentile score?

The scores on a midterm examination are presented below in decreasing order of magnitude. A score of 63 is approximately equivalent to a percentile rank of ________?

1) The frequency of 38 in the interval 48-56 means

أ. 38 frequencies are at the upper real limit of the interval.
ب. 38 frequencies are at the lower real limit of the interval.
ج. 38 frequencies are spread out throughout the interval.
د. 38 frequencies are at the upper apparent limit of the interval.
ه. 38 frequencies are at the lower apparent limit of the interval.

2) A cumulative percentage of 97.5 means that

أ. 97.5 cases fall below a score of 74.
ب. 97.5% of the cases fall below a score of 74.
ج. 97.5% of the cases fall below a score of 65.5.
د. 97.5% of the cases fall below a midpoint of the interval 66-74.
ه. 97.5% of the cases fall below a score of 74.5.

3) The score above which 35% of the cases are found is

Complete this sentence: "The kth percentile of a given distribution is . "

Edith G. obtained a score of 65 in a statistics test, placing her at the 78th percentile. If five points were added to each score in the distribution, her new score would be at the

If a given score is at the 30th percentile for reference group A and the 60th percentile for reference group B, which of the following is most likely true?

If 40% of a group obtain scores below 70, the percentile rank of the score is

The following data are the number of hours worked per week by seven State College students:

Half (50%) of the values in a distribution are

For items (i)-(iii) use the following graph.

(i) What is the estimated percent of 8th grade pupils whose arithmetic scores fall below the median score for grade 7?

أ. 6
ب. 12
ج. 16
د. 24
ه. It is impossible to estimate this percent from the ogives.

(ii) What would be the shape of the frequency distribution corresponding to the 8th grade ogive?

Suppose that the 60th percentile of a sample was 1468.3.

True or False? If false, correct it.

True or False? If false, correct it.

Frequency distributions are useful for ALL BUT which of the following objectives?

The mean of the population of ten scores:

78, 91, 91, 94, 74, 23, 63, 22, 78, 89 is 70.3, and the modes are 78 and 91.

The skewness of the population is

The distribution of entrance test scores of freshmen in a particular university has the following percentile scores. How may the distribution be described?

A graphical presentation may accomplish ALL BUT which of the following objectives?


Role of Statistics in Research

The role of statistics in research is to be used as a tool in analyzing and summarizing a large volume of raw data and coming up with conclusions on tests being made. The study of statistics is classified into two main branches: descriptive statistics and inferential statistics. Inferential statistics are used for hypotheses testing and estimating the parameters of a population while descriptive statistics is the way of summarizing and organizing sets of data to make it more easily understood by the audience it is meant for. It often describes information through patterns and graphs.

The first and foremost steps being used in data analysis, as it is difficult to analyze raw data in large volumes. Before you are able to go further on your research, you have to first gather and simplify your data sets.

There are two methods in descriptive statistics: the numerical method and the graphical method.


Descriptive Statistics with Python

There are a few ways to get descriptive statistics using Python. Below will show how to get descriptive statistics using Pandas and Researchpy. First, let's import an example data set.

Pandas

Continuous variables

This method returns many useful descriptive statistics with a mix of measures of central tendency and measures of variability. This includes the number of non-missing observations the mean standard deviation minimum value 25 th , 50 th (a.k.a. the median), and 75 th percentile as well as the maximum value. It's missing some useful information that is typically desired regarding the mean, this is the standard error and the 95% confidence interval. No worries though, pairing this with Researcpy's summary_cont() method provides the descriptive statistic information that is wanted - this method will be shown later.

Categorical variables

Using both the describe() and value_counts() methods are useful since they compliment each other with the information returned. The describe() method says that "Female" occurs more than "Male" but one can see that is not the case since they both occur an equal amount.

For more information about these methods, please see their official documentation page for describe() and value_counts().

Distribution measures

For more information on these methods, please see their official documentation page for kurtosis() and skew().

Researchpy

Continuous variables

عامل ن يقصد SD SE 95% Conf. فترة
0 bp_before 120.0 156.45 11.389845 1.039746 154.391199 158.508801

This method returns less overall information compared to the describe() method, but it does return more in-depth information regarding the mean. It returns the non-missing count, mean, stand deviation (SD). standard error (SE), and the 95% confidence interval.

Categorical variables

The method returns the variable name, the non-missing count, and the percentage of each category of a variable. By default, the outcomes are sorted in descending order.

For more information about these methods, please see the official documentation for summary_cont() and summary_cont().


تشتت

(Chapter 4 in Zar, 2010)

While the position of a distribution on the X-axis is a critical piece of information to convey, the relevance of that measure depends on how wide that distribution is, i.e., the amount of variation in that variable, especially when making comparisons between or among distributions. Measures of dispersion are indices of how spread out the observations are along the X-axis.

The simplest measure of dispersion is the نطاق, which involves reporting the lowest and highest observation, or the difference between them. This measure is very sensitive to outliers, which are values that are unusually high or low relative to the other observations. While it is not difficult to find recommendations for excluding outliers from a set of data, unless it is clear that the observation is impossible, e.g., a human body temperature of 183 degrees C, or it is known that an error in measurement occurred, one should always be hesitant to remove such observations (see section 2.5 in chapter 2 of your text).

The reason that range is sensitive to outliers is that it relies on only 2 of your observations. Clearly a measure of dispersion that relied on all of your observations would be of more value, and better justify all the hard work that went into collecting those observations. Our newfound, and in-depth, understanding of central tendency suggests one possible measure: the average distance of the observations from the center of the distribution.

The distance of an observation from the sample mean can be calculated by subtracting the sample mean from the observation as follows:

This value, indicated by a lowercase y, is called a deviate. Intuitively then, the average distance would be the sum of the deviates, ∑y, divided by the number of observations, n. The problem with this can be illustrated by examining the following table of quiz scores from 2 separate sections of a biology class:

Because the sample mean is the mathematical center of the observations, the sum of the deviates will always (within rounding error) be equal to zero. The two distributions of quiz scores are clearly different, but the average deviations will provide no information about these differences.

The solution that we will apply is to square the deviates, making all of the differences positive. The notation that we will use for a squared deviate will be y 2 , such that ∑y 2 will indicate the sum of the squared deviates. The sum of the squared deviates is generally referred to as the sum of squares, and is a value that will figure prominantly in virtually all of the analyses that we will address, so make sure that you are familiar with how to calculate it, and what it represents.

Applying this to the quiz score data, we can see that the sum of squares (∑y 2 ) better reflects the differences between the two distributions:

Dividing the sum of the squared deviates by the number of observations (∑y 2 /n) will give us the average squared distance of the observations from the mean of the observations. While it should be intuitive that this is a good measure of the spread of the observations (apart from using squared distances, which we will address shortly), we cannot lose sight of the fact that the purpose of deriving this value from a sample is to estimate the same parameter for the statistical population. Thus, it is important to establish whether calculating this value as described will introduce a bias in the estimation of the same population parameter.

Calculation of the average squared distance of the observations from the mean for a statistical population, i.e., using every observation that exists, is a parameter that we call the population variance, and denote using the symbol: σ 2 . Unfortunately, using the same calculation from sample data produces a biased estimate of σ 2 . The following distribution was produced by taking 1000 random samples from a statistical population with μ=10, and σ 2 =4, and calculating the average squared distance of the observations from the mean of the observations for each sample. For each sample, the population variance (σ 2 ) was subtracted from the average squared distance of the observations from the sample mean ((∑y 2 /n)-σ 2 ) to produce the values shown below, such that an estimate matching the population variance would result in a value of 0:

Note: These data were produced as the "pvd" object in this R program

Question 2: In what direction is the bias demonstrated for the average squared distance of the observations from the sample mean as an estimate of σ 2 ?

The distribution above suggests that a different calculation must be used to produce an unbiased estimate of σ 2 from sample data. In this instance the correction is a simple one, involving the use of n-1 in the denominator instead of n. The resulting formula calculates a parameter we call sample variance, denoted as s 2 :

In the following graph, the sample variance (s 2 ) calculated from the same series of 1000 random draws has been plotted as a second series (SS/(n-1)):

Note: The additional series was produced as the "svd" object in this R program

From this distribution, we can see that the correction for sample variance removes the bias from the estimate. Thus, we will use sample variance (s 2 ) as our best estimate of population variance (σ 2 ):

The only issue one may take with variance as an indication of the spread of the data, is that the units are squared relative to the values of the observations and, therefore, the mean. The solution to this, as you might imagine, is a simple one: simply take the square root of the variance. This produces a value referred to as the الانحراف المعياري, which, for a sample, we denote as s, and for a population, we denote as σ. Obviously (at least I hope that it is obvious), the square root of a sample variance (calculated with n-1 as the denominator) will produce a sample standard deviation (s), and the square root of a population variance (calculated using n as the denominator) will produce a population standard deviation (σ). Given that we will almost always be working with samples, we will use sample standard deviation as our estimate of population standard deviation:

Now let's practice calculating some descriptive statistics for some actual data. Download the Excel workbook for this week's exercise HERE.


تحليل البيانات النوعية

يعمل تحليل البيانات النوعية بشكل مختلف قليلاً عن البيانات الكمية ، ويرجع ذلك أساسًا إلى أن البيانات النوعية تتكون من كلمات وملاحظات وصور وحتى رموز. إن استخلاص المعنى المطلق من مثل هذه البيانات يكاد يكون مستحيلًا ، ومن ثم فهو يستخدم في الغالب للبحث الاستكشافي. بينما يوجد في البحث الكمي تمييز واضح بين مرحلة إعداد البيانات ومرحلة تحليل البيانات ، غالبًا ما يبدأ تحليل البحث النوعي بمجرد توفر البيانات.

تحضير البيانات وتحليل البيانات الأساسية

يتم التحليل والإعداد بالتوازي ويتضمن الخطوات التالية:

  1. التعرف على البيانات: نظرًا لأن معظم البيانات النوعية هي مجرد كلمات ، يجب على الباحث البدء بقراءة البيانات عدة مرات للتعرف عليها والبدء في البحث عن الملاحظات أو الأنماط الأساسية. وهذا يشمل أيضًا نسخ البيانات.
  2. إعادة النظر في أهداف البحث: هنا يقوم الباحث بإعادة النظر في هدف البحث وتحديد الأسئلة التي يمكن الإجابة عليها من خلال البيانات التي تم جمعها.
  3. تطوير إطار عمل: المعروف أيضًا باسم الترميز أو الفهرسة ، هنا يحدد الباحث أفكارًا أو مفاهيم أو سلوكيات أو عبارات عامة ويخصص لها رموزًا. على سبيل المثال ، سن الترميز والجنس والوضع الاجتماعي والاقتصادي وحتى المفاهيم مثل الإجابة الإيجابية أو السلبية على سؤال. الترميز مفيد في هيكلة البيانات وتصنيفها.
  4. تحديد الأنماط والصلات: بمجرد تشفير البيانات ، يمكن أن يبدأ البحث في تحديد الموضوعات ، والبحث عن الردود الأكثر شيوعًا على الأسئلة ، وتحديد البيانات أو الأنماط التي يمكن أن تجيب على أسئلة البحث ، والعثور على المجالات التي يمكن استكشافها بشكل أكبر.

طرق تحليل البيانات النوعية

تتوفر عدة طرق لتحليل البيانات النوعية. أكثر طرق تحليل البيانات شيوعًا هي:

  • Content analysis: هذه إحدى أكثر الطرق شيوعًا لتحليل البيانات النوعية. يتم استخدامه لتحليل المعلومات الموثقة في شكل نصوص أو وسائط أو حتى عناصر مادية. متى تستخدم هذه الطريقة يعتمد على أسئلة البحث. عادة ما يستخدم تحليل المحتوى لتحليل الردود من المقابلات.
  • تحليل سردي: تستخدم هذه الطريقة لتحليل المحتوى من مصادر مختلفة ، مثل المقابلات مع المستجيبين ، والملاحظات الميدانية ، أو الاستطلاعات. يركز على استخدام القصص والخبرات التي يشاركها الناس للإجابة على أسئلة البحث.
  • تحليل الخطاب: مثل التحليل السردي ، يستخدم تحليل الخطاب لتحليل التفاعلات مع الناس. ومع ذلك ، فإنه يركز على تحليل السياق الاجتماعي الذي حدث فيه الاتصال بين الباحث والمبحوث. ينظر تحليل الخطاب أيضًا في بيئة المستجيب & # 8217s اليومية ويستخدم هذه المعلومات أثناء التحليل.
  • نظرية الارض: يشير هذا إلى استخدام البيانات النوعية لشرح سبب حدوث ظاهرة معينة. يقوم بذلك من خلال دراسة مجموعة متنوعة من الحالات المتشابهة في بيئات مختلفة واستخدام البيانات لاشتقاق تفسيرات سببية. قد يقوم الباحثون بتغيير التفسيرات أو إنشاء تفسيرات جديدة أثناء دراسة المزيد من الحالات حتى يصلوا إلى تفسير يناسب جميع الحالات.

هذه الطرق هي الأكثر استخدامًا. ومع ذلك ، تتوفر أيضًا طرق تحليل البيانات الأخرى ، مثل تحليل المحادثة.

ربما يكون تحليل البيانات هو أهم عنصر في البحث. ينتج عن التحليل الضعيف نتائج غير دقيقة لا تعيق مصداقية البحث فحسب ، بل تجعل النتائج غير قابلة للاستخدام أيضًا. من الضروري اختيار أساليب تحليل البيانات بعناية للتأكد من أن نتائجك ثاقبة وقابلة للتنفيذ.


شاهد الفيديو: Prof. Oliver Tošković o važnosti donošenja odluke (شهر فبراير 2023).