معلومة

استرجاع التقاط Bootstrap حدودي

استرجاع التقاط Bootstrap حدودي


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا أستخدم استعادة الالتقاط (عينة واحدة) لتقدير عدد السكان المختبئين. تستخدم طريقة العينة الواحدة ترددات الالتقاط البحتة لتقدير السكان. اقترح أحد زملائي طريقة الإقلاع البارامترية لتقييم التباين في تقدير حجم السكان. حاولت البحث عبر الإنترنت قليلاً عن طريقة التمهيد المعياري هذه ، لكنني ما زلت لا أفهم كيف يتم تنفيذها. أعلم أن bootstrapping هو أساسًا إعادة أخذ عينات البيانات مع الاستبدال ثم حساب التباين فيها. ومع ذلك ، كيف يمكنني إجراء عملية التمهيد البارامترية (أفترض أن ترددات الالتقاط تتبع توزيع بواسون) على بيانات الاسترداد التي تم التقاطها؟ هل نتعامل مع الترددات على أنها بيانات ، أي إذا كانت f (1) = 100 و f (2) = 9 ، فإن بياناتنا تحتوي على 100x 1 و 9x 2 ثم إعادة تشكيلها؟ هل احتمالية الالتقاط اليومي للمعامل $ lambda $ في توزيع بواسون؟

أعتقد أن ما أحاول أن أسأله هو ، كيف تقوم بأخذ عينة من التمهيد المعياري [في التقاط الالتقاط]؟


لقد أجريت القليل من البحث وأعتقد أنه يعمل على هذا النحو:

  1. اجمع مجموعة بيانات من الملاحظات $ n $.

  2. تناسب نموذج حدودي لبياناتك. إذا كنت ترغب في تصميم النماذج المستردة ، فإنني أقترح Poisson-GLM. يمكنك أيضًا تقدير المعلمة مباشرة من بياناتك وتحديد معلمات توزيع Poisson. ومع ذلك ، لن يقوم هذا الأسلوب بنمذجة التباين العشوائي في بياناتك.

  3. استخدم النموذج المناسب لرسم عينة بحجم $ n $

  4. احسب المقياس الذي تريده بناءً على العينة. أعتقد في حالتك أن هذا سيكون حجم السكان (محسوبًا على أنه $ {N} = frac {nM} {m} $؟)

  5. كرر الخطوتين 3 و 4 عدة مرات (1000+)

  6. ها أنت ذا! الآن يمكنك بسهولة تقييم التباين في حجم السكان بناءً على التقديرات من عينات التمهيد الخاصة بك.


طرق الالتقاط والاستعادة للبيانات الخاصة بتنشيط التطبيقات على الهواتف المحمولة

يهتم هذا العمل بتحليل بيانات التسويق الخاصة بتفعيل التطبيقات (التطبيقات) على الأجهزة المحمولة. يحتوي كل تطبيق على رقم تعريف مجزأ خاص بالجهاز الذي تم تثبيته عليه. يمكن تسجيل هذا الرقم من خلال منصة عند كل تنشيط للتطبيق. يتم ربط عمليات التنشيط على نفس الجهاز معًا باستخدام رقم التعريف. من خلال التركيز على عمليات التنشيط التي حدثت في موقع عمل ، يمكن للمرء إنشاء مجموعة بيانات الالتقاط والاستعادة حول الأجهزة ، أي المستخدمين ، الذين "زاروا" النشاط التجاري: الوحدات هي مالكة للأجهزة المحمولة ومناسبات الالتقاط هي فترات زمنية مثل كأيام. يتم التقاط وحدة عندما تقوم بتنشيط أحد التطبيقات ، بشرط أن يتم تسجيل هذا التنشيط بواسطة النظام الأساسي الذي يوفر البيانات. يمكن تطبيق تقنيات الالتقاط والاستعادة الإحصائية على بيانات التطبيق لتقدير العدد الإجمالي للمستخدمين الذين زاروا النشاط التجاري خلال فترة زمنية ، وبالتالي توفير تقدير غير مباشر لحركة المرور على الأقدام. تجادل هذه المقالة بأن التصميم القوي ، وهو طريقة للتعامل مع تجربة متداخلة لاستعادة العلامات ، يمكن استخدامها في هذا السياق. تم اقتراح خوارزمية جديدة لتقدير معلمات تصميم قوي مع عدد كبير نسبيًا من مناسبات الالتقاط ومقدّر تباين حدودي بسيط. علاوة على ذلك ، يتم تقديم طرق تقدير جديدة ونتائج نظرية جديدة لتطبيق أوسع للتصميم القوي. يستخدم هذا لتحليل مجموعة بيانات حول الأجهزة المحمولة التي زارت وكلاء السيارات لعلامة تجارية كبرى للسيارات في منطقة حضرية بالولايات المتحدة على مدار عام ونصف. تتوفر المواد التكميلية لهذه المقالة ، بما في ذلك وصف موحد للمواد المتاحة لنسخ العمل ، كملحق عبر الإنترنت.


مقدمة

تشكل دراسة وفرة السكان وتحليل تقلباتها بمرور الوقت ، أي ديناميات السكان ، أداة أساسية في مراقبة الحياة البرية وحفظها وإدارتها 1،2. ومع ذلك ، غالبًا ما يكون من الصعب الحصول على تقديرات موثوقة لحجم العشائر ، أو حتى تقييم وجود الأنواع بدقة ، نظرًا لأن الأنواع داخل المجتمع والأفراد داخل مجموعة ما يتم اكتشافها بشكل غير كامل. من أجل تفسير الاكتشاف غير الكامل ، طور الباحثون عدة طرق للحصول على تقديرات موثوقة للوفرة ، مثل الالتقاط والعلامة وإعادة الأسر (CMR) والإزالة وأخذ العينات عن بعد 1،4. تعتمد هذه الأساليب في الغالب على التعريف الفردي أو نوع من البيانات المساعدة (على سبيل المثال في أخذ العينات عن بعد ، والمسافة العمودية بين الملاحظة والمقطع المقطعي) التي قد تكون باهظة التكلفة من حيث التكاليف والجهود ، وغير عملي لجمعها أو حتى غير مناسبة في البيئات المعقدة أو للأنواع الصغيرة والسرية. على مدار الخمسة عشر عامًا الماضية ، حظي تطوير وتطبيق نماذج خليط N 5 ، والتي تسمح بالتقدير المتزامن للوفرة واحتمالية الكشف ، باهتمام كبير من علماء البيئة الميدانيين 6. تعتمد هذه الطرق على التهم المتكرر للأفراد في مواقع متعددة (مثل خطوط الخط أو قطع الأراضي) وهي فعالة للغاية من حيث التكلفة 7،8. في الآونة الأخيرة ، تمت صياغة بعض الامتدادات لهذه النماذج لأنواع بيانات مختلفة بخلاف التعداد البسيط ، مثل الإزالة أو بيانات المراقب المزدوج 9 ، لنمذجة المجموعات المفتوحة بأسلوب تصميم قوي 10 ، أو حتى لنمذجة وفرة خاصة بالأنواع من التجمعات أو المجتمعات بأكملها 6،11. ميزة أخرى مهمة لنماذج المزيج N هي القدرة على نمذجة كل من عملية المراقبة (أي احتمال الكشف) والعمليات البيئية (مثل الوفرة) كدالة للمتغيرات البيئية وبالتالي السماح بالاستدلالات البيئية حول الوفرة والكثافة أو لمعالجة الإدارة والحفظ الإجراءات 12،13. أدت زيادة استخدام نمذجة المزيج N في مخططات المراقبة والدراسات البيئية إلى اهتمام متزايد بموثوقيتها. في الواقع ، أثارت العديد من الدراسات قضايا فيما يتعلق بإمكانية تحديد المعلمات عندما يتم انتهاك افتراضات النموذج أو في وجود مصادر غير متجانسة في الوفرة أو عمليات الكشف 14 ، 15. ومع ذلك ، على الرغم من المشكلات التي أثيرت ، أكدت العديد من الدراسات الحديثة موثوقية هذه المجموعة من النماذج في تطبيقات الحياة الواقعية: من خلال مقارنتها مع متغير هرمي لنموذج الالتقاط والاستعادة 16 ، أو من خلال مقارنة تقديرات الوفرة التي تم الحصول عليها عن طريق N- نماذج الخليط مقابل تلك المقدرة بالطرق المقبولة على نطاق واسع ، مثل CMR ، إزالة أو أخذ العينات عن بعد 7،17،18،19،20. على الرغم من أنه يمكن استخدام نمذجة خليط N في العديد من المواقف ، إلا أن هذا النهج يعتمد عادةً على تصميم السكان التلوي ، حيث يتم الحصول على أعداد متكررة من الأفراد في مواقع أخذ عينات متعددة بمرور الوقت 6. ومع ذلك ، لا سيما عند التعامل مع الأنواع ذات النطاق الجغرافي الضيق للغاية وعدد قليل من السكان المعروفين ، قد يكون بروتوكول الرصد المكرر مكانيًا غير عملي ، وقد تكون البيانات الخاصة بالمجموعات الفردية فقط في السنوات المتعاقبة متاحة. في هذه الحالات ، قد يكون تطبيق استبدال الوقت مقابل الفضاء (TSS) في إطار نمذجة خليط N خيارًا مناسبًا لمراقبة السكان في موقع واحد على مدار عدة سنوات 20 ، 21. يتم تطبيق استبدال الوقت مقابل المكان عندما يتم إجراء عمليات عد متعددة على فترات زمنية منتظمة (مثل الأشهر أو الفصول أو السنوات) في نفس الموقع ، ويتم استخدام التكرارات الزمنية (أي السنوات) بدلاً من مكررات المكان (أي المواقع) ، بينما يتم استخدام التعداد المتكرر خلال العام (أي المسوحات) كتكرار زمني ، مع الأخذ في الاعتبار السكان المغلقين ديموغرافيًا خلال كل عام. تم استخدام هذا الإطار لنظام متعدد الأنواع مع بيانات الكشف / عدم الكشف عن أنواع الطيور التي تم الحصول عليها خلال تسع سنوات متتالية في موقع واحد في اليابان 21. تم تطبيقه أيضًا على مجموعة بيانات تمتد على مدى 20 عامًا لعدد متناقص من الوزغة المهددة بالانقراض في إيطاليا ، وإيجاد اتفاق جيد مع تقديرات CMR التي تم الحصول عليها من نفس البيانات ، وبالتالي التحقق من صحة إطار TSS على تطبيق واقعي 20. على الرغم من وجود تقييم لهذه التقنية مقابل سيناريو محاكاة صغير ، فقد تم إبراز الحاجة إلى تقييم متعمق من خلال إطار محاكاة أكثر شمولاً 6.

الهدف من هذه الدراسة هو تقديم تقييم لموثوقية TSS المطبقة على نماذج خليط N ، وعلى وجه الخصوص لتقييم موثوقية تقديرات الوفرة والاتجاه على عدة سيناريوهات ، بما في ذلك الديناميكيات السكانية المختلفة ، الوفرة الأولية ، احتمالية الكشف ، جهد المسح أو مدة الدراسة ، من خلال محاكاة بيانات التعداد من مجموعة سكانية واحدة تم مسحها عدة مرات في السنة وتخضع لديناميكيات مختلفة ، ثم مقارنة قيم الوفرة الحقيقية والاتجاه مع تقديرات TSS.


تقدير حجم السكان مع الكشف غير الكامل باستخدام تمهيد حدودي

ليزا مادسن ، قسم الإحصاء ، جامعة ولاية أوريغون ، 239 Weniger Hall ، Corvallis ، أو 97331.

هيئة المسح الجيولوجي الأمريكية ، كورفاليس ، أوريغون

قسم الإحصاء ، جامعة ولاية أوريغون ، كورفاليس ، أوريغون

هيئة المسح الجيولوجي الأمريكية ، كورفاليس ، أوريغون

خدمة الأسماك والحياة البرية الأمريكية ، ديلينجهام ، ألاسكا

قسم الإحصاء ، جامعة ولاية أوريغون ، كورفاليس ، أوريغون

ليزا مادسن ، قسم الإحصاء ، جامعة ولاية أوريغون ، 239 Weniger Hall ، Corvallis ، أو 97331.

هيئة المسح الجيولوجي الأمريكية ، كورفاليس ، أوريغون

قسم الإحصاء ، جامعة ولاية أوريغون ، كورفاليس ، أوريغون

هيئة المسح الجيولوجي الأمريكية ، كورفاليس ، أوريغون

خدمة الأسماك والحياة البرية الأمريكية ، ديلينجهام ، ألاسكا

تسجيل الدخول المؤسسي
قم بتسجيل الدخول إلى مكتبة Wiley Online

إذا كنت قد حصلت مسبقًا على حق الوصول باستخدام حسابك الشخصي ، فيرجى تسجيل الدخول.

شراء الوصول الفوري
  • شاهد المقال بصيغة PDF وأي ملاحق وأرقام مرتبطة به لمدة 48 ساعة.
  • المادة يمكن ليس أن تتم طباعتها.
  • المادة يمكن ليس يمكن تنزيلها.
  • المادة يمكن ليس يتم إعادة توزيعها.
  • عرض غير محدود لمقال PDF وأي ملاحق وأرقام مرتبطة به.
  • المادة يمكن ليس أن تتم طباعتها.
  • المادة يمكن ليس يمكن تنزيلها.
  • المادة يمكن ليس يتم إعادة توزيعها.
  • عرض غير محدود للمقال / الفصل PDF وأي ملاحق وأرقام مرتبطة.
  • يمكن طباعة المقال / الفصل.
  • يمكن تحميل المادة / الفصل.
  • المادة / الفصل يمكن ليس يتم إعادة توزيعها.

الملخص

نقوم بتطوير طريقة جديدة لتقدير حجم السكان من التعداد المكتشف بشكل ناقص للأفراد وتقدير منفصل لاحتمال الكشف. يتم فصل الأعداد المرصودة إلى فئات يفترض فيها ثبات احتمال الاكتشاف. ضمن فئة الكشف ، يتم نمذجة الأعداد كملاحظة أحادية ذات الحدين X مع احتمال النجاح ص حيث الهدف هو تقدير المؤشر ن. نحن نستخدم مقدر هورفيتز - طومسون ل ن وحساب عدم اليقين في كل من بيانات العينة واحتمالية النجاح المقدرة عبر التمهيد المعياري. على عكس طرق الالتقاط والاستعادة ، لا يتطلب نموذجنا أخذ عينات متكررة من السكان. طريقتنا قادرة على تحقيق نتائج جيدة ، حتى لو كانت صغيرة X. لقد أظهرنا في دراسة محاكاة عاملي أن متوسط ​​عينة التمهيد له تحيز صغير بالنسبة لـ ن وأن تغطية احتمالات فترات الثقة ل ن قريبة من الاسمية في ظل مجموعة واسعة من السيناريوهات. منهجيتنا تبدأ في الانهيار عندما ص(X= 0) & gt0.1 لكنها لا تزال قادرة على الحصول على تغطية ثقة معقولة. نوضح التقنية المقترحة من خلال تقدير (1) حجم مجموعة موس في ألاسكا و (2) عدد وفيات الخفافيش في منشأة طاقة الرياح ، كلاهما من العينات ذات احتمالات الكشف غير الكاملة ، المقدرة بشكل مستقل.


أساليب

وصف دراسة المحاكاة

في دراسة المحاكاة ، أنشأنا 500 مجموعة بيانات مع 5000 حالة لكل منها. تم أخذ عينات من تاريخ الميلاد وجنس الحالات من توزيعات تاريخ الميلاد والجنس لحالات IPD الحقيقية الموجودة في المراقبة الخافرة. تم ترجيح اختيار الرموز البريدية بعدد السكان الذين تبلغ أعمارهم 50 عامًا وأكثر من المسجلين في هذا الرمز البريدي. ثمانية سيناريوهات مختلفة حددت كيف وأي الحالات تم الكشف عنها بواسطة ثلاثة أنظمة ترصد مختلفة. في الجزء المتبقي من النص ، ستُطلق على هذه الأنظمة اسم الحارس والمركز المرجعي الوطني (NRC) وعينة المستشفى. السيناريوهات معطاة أدناه.

أخذ عينات عشوائية (مر): تم الكشف عن الحالات على قدم المساواة. تم تحديد عدد الحالات المكتشفة في العينة من خلال عدد أجهزة الكشف المشاركة (المعامل والمستشفيات) على إجمالي عدد أجهزة الكشف ().

أخذ العينات المعتمدة على المتغير (مذ.سن): زاد احتمال اكتشافها بواسطة إحدى العينات الثلاث (أوزان الاحتمالية = سن(أيام) ^ 2.5) مع عمر القضية. كان احتمال اكتشاف حالة عمرها 100 عام 2 ^ 2.5 مرة أكثر من حالة عمرها 50 عامًا. يتم تحديد حجم العينات كما هو الحال في أخذ العينات العشوائية ().

عدم التجانس المكاني (مذ.بصق): يتم تحديد احتمالية الكشف عن طريق موقع الحالة بالنسبة لموقع الكواشف. تم الكشف عن حالة بواسطة واحد من أقرب ثلاثة أجهزة كشف. هذا الكاشف لا يشارك بالضرورة في نظام مراقبة معين. استندت المجموعة الفرعية من أجهزة الكشف التي شاركت في شبكة المراقبة إلى مجموعة بيانات IPD. احتمال الالتقاط يساوي لأقرب ثلاثة أجهزة كشف. يتم تحديد حجم العينات كما هو الحال في أخذ العينات العشوائية ().

الإحالات (مالسل.المرجع): بعد أخذ العينات العشوائية ، تم إحالة الحالات من عينة واحدة إلى أخرى 30٪ من حالات المختبر الخافر تمت إحالتها إلى المجلس النرويجي للاجئين ، وتم إحالة 40٪ من حالات المستشفى إلى المجلس النرويجي للاجئين

تم إعطاء كل حالة متغير معرف فريد أثناء المحاكاة. أدرجت أنظمة المراقبة الحالات التي تم التقاطها والتي تم بعدها دمج القوائم بواسطة متغير المعرف. لكل عملية محاكاة لكل سيناريو ، كانت هناك مجموعات بيانات نهائية ، تتكون من خصائص الحالة (المعرف ، الرمز البريدي ، تاريخ الميلاد ، الجنس ، العمر) وخصائص الالتقاط (معمل الكشف ، كشف المستشفى ، المسافة إلى مختبر الكشف ، المسافة إلى المستشفى للكشف ، تاريخ الاكتشاف وسجل الاكتشاف).

في السيناريوهات أعلاه فقط مر (أخذ العينات العشوائية) ليس له مصدر للاعتماد. تمت مقارنة السيناريوهات التي أدخلت الاعتماد مع سيناريو أخذ العينات العشوائية لتوضيح تأثير الاعتماد. تم توضيح تأثير أخذ العينات حسب العمر من خلال مقارنة كثافات احتمالية الالتقاط في السيناريو المعتمد على المتغير (مذ.سن) والسيناريو العشوائي (مر). تم توضيح عدم التجانس المكاني من خلال دالة المخاطر النسبية المصقولة النواة كما تم حسابها بواسطة حزمة R "sparr" [28]. يمثل الخطر النسبي نسبة احتمالات الكشف (مذ.بصق/مر). تم توضيح تأثير الإحالات من خلال حساب نسبة الأرجحية للكشف في عينة واحدة عن طريق الكشف في عينة أخرى. بالإضافة إلى ذلك ، قمنا ببناء أربعة سيناريوهات أخرى تم فيها دمج مصادر عدم التجانس هذه. ثلاثة سيناريوهات (مذ.سن.بصق, مTHB.سن.المرجع, مTHB.بصق.المرجع) كان لديه سيناريو اثنان وواحد (مTHB.سن.بصق.المرجع) ثلاثة مصادر لعدم التجانس.

وصف مجموعات البيانات البلجيكية حول الأمراض المعدية

تم تقدير كل من IPD والسعال الديكي من خلال دراسات من ثلاث عينات. تمت مطابقة مجموعات البيانات بمجموعة من خصائص الحالة (الرمز البريدي والجنس وتاريخ الميلاد) نظرًا لعدم وجود معرّف فريد للحالة. إذا تم اكتشاف الحالات ذات المعرفات المتطابقة بفارق أكثر من 90 يومًا ، فسيتم التعامل معها على أنها حالات فريدة. تم وصف خصائص خوارزمية المطابقة وتحليل الحساسية الإضافي في الملحق S1. تم جمع البيانات بموجب الموافقة الأخلاقية أو التشريع. تمت الموافقة على دراسة المكورات الرئوية في المستشفى من قبل لجنة KULeuven الأخلاقية. تم تشريع المراكز المرجعية الوطنية بموجب قانون KB 09/02/2011. تم تشريع الإخطار الإلزامي في فلاندرز بموجب "شارع منع 21/11/2003". تم تشريع الإخطار الإلزامي في والونيا بموجب "مراقبة الأمن الصحي 1/07/1998". بالنسبة لمراقبة المختبر الخفير ، تم تقديم بيان إلى لجنة الخصوصية البلجيكية.

دراسة IPD في المستشفى.

في بلجيكا ، أجريت دراسة وبائية في المستشفيات لمرض IPD عند البالغين بين عامي 2009 و 2011 [29]. تم تنسيق الدراسة من قبل شراكة بين القطاعين العام والخاص. كان البالغون الذين عولجوا في المستشفى مع الـ IPD المؤكدة ميكروبيولوجيًا مؤهلين للاشتمال في المراجعة. لقد قصرنا مجموعة البيانات على البيانات المتعلقة بالبالغين الذين تقل أعمارهم عن 50 عامًا ، ونظرنا فقط في البيانات التي تم جمعها بين 1 يوليو 2009 و 30 يونيو 2011.

المراكز المرجعية الوطنية (NRC).

حلل المجلس النرويجي للاجئين العزلات التي جمعوها بأنفسهم والعزلات التي تلقوها من المعامل البلجيكية. تم إرسال العزلات إلى مجلس اللاجئين النرويجي على أساس طوعي ولكن موصى به. كانت أهداف المجلس النرويجي للاجئين: التأكيد وتوصيف السلالة الإضافية (التنميط المصل والجيني) وتحديد مقاومة المضادات الحيوية [30]. إن آر سي لـ ب. السعال الديكي كانت المختبر في مستشفى جامعة بروكسل ومعهد الصحة العامة. تم اعتبار عيار الأجسام المضادة IgG ضد توكسين السعال الديكي (PT) و gt125 IU / ml أو PCR الإيجابي أو الثقافة على أنها تعكس احتمال الإصابة بالسعال الديكي الحاد. تألفت مجموعة بيانات المجلس النرويجي للاجئين من حالات بلجيكية مع عينات تم جمعها في عام 2014.

المختبر في مستشفى جامعة لوفين هو NRC للعزلات الغازية العقدية الرئوية بكتيريا. اقتصرت مجموعة بيانات IPD على تلك العزلات التي تم الحصول عليها من مواقع معقمة بشكل طبيعي ، في البالغين الذين تتراوح أعمارهم بين 50 عامًا أو أكثر ، بين 1 يوليو 2009 و 30 يونيو 2011.

شبكة مختبرات الحراسة.

العقدية الرئوية و البورديتيلة السعال الديكي كانا اثنان من 36 من مسببات الأمراض التي تم تنظيم المراقبة من أجلها من خلال شبكة خفر من المختبرات [31]. بدأت المراقبة في عام 1983 وتألفت من مختبرات المستشفيات والمختبرات الخاصة. تم تنسيق الشبكة من قبل معهد الصحة العامة. اقتصرت مجموعة بيانات IPD على تلك العزلات التي تم الحصول عليها من مواقع معقمة بشكل طبيعي ، في البالغين الذين تتراوح أعمارهم بين 50 عامًا أو أكثر ، بين 1 يوليو 2009 و 30 يونيو 2011. تتألف مجموعة بيانات السعال الديكي من جميع الحالات المكتشفة في عام 2014.

الإخطار الإلزامي.

كان الإخطار بحالات السعال الديكي المؤكدة إلزاميًا في جميع المناطق البلجيكية الثلاث. تم تنسيق الإخطار من قبل وكالات الصحة العامة الإقليمية. اضطر الأطباء والمختبرات إلى إخطار الحالات ، ولكن اشتبه في أن الإخطار غير مكتمل. تتكون مجموعة بيانات السعال الديكي من جميع الحالات التي تم الإبلاغ عنها في عام 2014.

مقدّرون

تم استخدام خمس طرق مختلفة في دراسة المحاكاة. تم استخدام نفس الأساليب لتقدير الشاهوق و IPD السكان. وقد تم استخدام هذه الأساليب سابقًا في دراسات الاستيلاء الوبائي واستعادة الأسر. اخترنا النمذجة الخطية ، الاحتمال (الشرطي) متعدد الحدود ، والمقدرات غير المعلمية ، سكين جاك بورنهام ، وتغطية عينة تشاو ، والنمذجة المباشرة لهيكل التبعية الأساسي باستخدام برنامج بايزي WinBUGS (الجدول 1). ويرد وصف موجز للمقدرات المستخدمة في الملحق S1.


مناقشة

قدمت دراستنا ، لأول مرة ، تقديرًا للعدد الإجمالي لتشخيصات فيروس العوز المناعي البشري الجديدة عند الأطفال دون سن 13 عامًا في البر الرئيسي لفرنسا خلال الفترة 2003-2006 (العدد = 387). كان اكتمال نظام الإخطار الإلزامي (DOVIH) والفوج الفرنسي في الفترة المحيطة بالولادة (EPF) أقل من 30٪. بلغ عدد الحالات المرصودة في المصادر الثلاثة المرتبطة 56٪.

القيود ونقاط القوة

يمكن أن تؤثر الانتهاكات المحتملة لافتراضات الالتقاط والاستعادة الأساسية على صحة نتائجنا. يجب تفسير تقديراتنا بحذر لأن معايير طريقة الالتقاط والاستعادة لم يتم الوفاء بها بالكامل [8].

تحديد الحالات الشائعة

تم إجراء ربط التسجيل باستخدام مجموعة من المعرفات ، بما في ذلك سنة الميلاد. تم تحديد عدد محدود من الحالات المشتركة بين السجلات وتم تأكيدها من خلال التحقق اليدوي اللاحق ، وبالتالي التقليل من انتهاك افتراض ربط التسجيل المثالي. ربما تم فقد الروابط بين المصدر LaboVIH والمصدرين الآخرين ، مما قد يؤدي إلى تقليل أو المبالغة في تقدير عدد تشخيصات فيروس نقص المناعة البشرية الجديدة.

السكان المغلقون

كانت فترة الدراسة والمنطقة الجغرافية واحدة لجميع المصادر. ومع ذلك ، فقد قُدر أن مجموعة EPF غطت 70٪ من النساء الحوامل المصابات بفيروس نقص المناعة البشرية ، الأمر الذي قد يؤدي إلى تحيز قد يؤدي إما إلى المبالغة في تقدير النتائج أو التقليل من شأنها.

الاستقلال بين المصادر

تم الاشتباه في الاعتماد الإيجابي بين DOVIH ومصادر EPF قبل التحليل. إن الوعي المتزايد لأطباء الأطفال الذين يشاركون في مجموعة EPF بضرورة الإبلاغ إلى الإخطار الإلزامي ، كما تم تنفيذه في عام 2003 ، قد يفسر هذا الاعتماد. شارك مختبرين كبيرين في كل من مجموعة EPF والمسح المختبري ، مما قد يؤدي إلى اعتماد إيجابي بين مصادر EPF و LaboVIH.

التقاط التجانس

تم تحديد ثلاثة متغيرات للقسطرة غير المتجانسة: بلد الميلاد ومنطقة التشخيص وسنة التشخيص. تضمن النموذج المختار المتغيرات الثلاثة للقابلية غير المتجانسة وقدم تقديرًا لـ 387 حالة (الجدول 2) ، والتي كانت أعلى قليلاً من النموذج بما في ذلك التبعيات بين المصادر فقط.

اختيار النموذج والتقدير

استند اختيار النموذج النهائي في التحليل الطبقي الذي تضمن متغيرات القدرة على السداد إلى AIC و DIC ، على افتراض أن ملاءمة هذا النموذج ، وفقًا لاختبار نسبة الاحتمالية ، صحيحة. تم تطبيق النهج الذي اقترحه Meng و Rubin لاستخدام اختبار نسبة الاحتمالية وقدم قيم p أقل قليلاً من النهج الساذج (البيانات غير معروضة). تم الحصول على معايير AIC / مدينة دبي للإنترنت عن طريق حساب متوسط ​​قيمها على مجموعات البيانات المحتسبة ، وبالتالي يجب تفسيرها بحذر [20]. قد يكون هناك مبالغة في تقدير الاختلافات بين النماذج وفقًا لهذه المعايير وربما أدت إلى اختيار نموذج معقد للغاية.

يعطي النموذج 7 والنموذج 8 تقديرًا مشابهًا (387 حالة). على الرغم من وجود AIC و DIC أعلى قليلاً ، فقد احتفظنا بالنموذج 7 نظرًا لإحصائياته الاحتمالية الأفضل قليلاً (p = 0.07). على الرغم من أن النموذج 7 أقل شحًا ، إلا أنه يتضمن مصطلح تفاعل مقبول بيولوجيًا بين EPF وسنة التشخيص.

تقدير القيم الناقصة

لم يتم تسجيل المتغير "مكان الميلاد" في المصدر LaboVIH ولكنه كان شبه مكتمل بالنسبة للمصدرين الآخرين. عادةً ما يكون النهج القياسي في طريقة الالتقاط والاستعادة هو تجاهل المتغيرات غير الشائعة في كل مصدر ، مما يؤدي غالبًا إلى تقديرات متحيزة لحجم السكان [24]. أحد الأساليب الشائعة الاستخدام لتحليل مجموعات البيانات غير المكتملة هو تحديد القيم المفقودة وتحليل مجموعة البيانات كما لو كانت كاملة. إن طرق التضمين الفردي هذه ليست صحيحة إحصائيًا ، وقد تسفر عن تقديرات متحيزة ، وتؤدي إلى تباينات أقل من الواقع [25]. هناك طريقتان يوصى بهما حاليًا للتعامل مع القيم المفقودة بشكل كافٍ وهما الحد الأقصى لتقدير الاحتمالية (MLE) و MI. هذه الطرق متكافئة تقاربيًا وتتطلب نفس الافتراض بأن البيانات مفقودة عشوائيًا (MAR) ، أي أن آلية البيانات المفقودة تعتمد على القيم المرصودة فقط [11 ، 26]. في دراستنا ، كان متغير "مكان الميلاد" مفقودًا دون الإشارة إلى آلية أساسية في مصدر LaboVIH ، مما يعني أنه تم استيفاء افتراض MAR. تشير دراسات قليلة فقط إلى احتساب القيم غير المرصودة في تطبيقات الالتقاط والاستعادة. تم تطبيق كل من MLE ، باستخدام خوارزمية تعظيم التوقعات (EM) [24 ، 27 ، 28] ، و MI في هذه الدراسات [29]. فان دير هايدن وآخرون.[28] القيم المفقودة المقدرة لمتغيرات القسطرة غير المتجانسة التي لم يتم جمعها في جميع المصادر ، مثل الجنس ومنطقة الإقامة. شدد المؤلفون على أن خوارزمية تعظيم التوقعات (EM) تتضمن أحيانًا تكاملًا عدديًا معقدًا ، خاصة أثناء الخطوة E (تحسب الخوارزمية توقع احتمالية السجل التي تم تقييمها باستخدام التقدير الحالي للمعلمات) ، وأن MI لديها ميزة كونها أبسط من الناحية الحسابية للحالات ذات المتغيرات المستمرة غير المكتملة. زواني وآخرون.[29] أظهروا في دراستهم أن أداء MI كان جيدًا في تطبيق الالتقاط والاستعادة. لقد قدروا القيم المفقودة لكل من المتغيرات المستمرة والقاطعية للقسطرة غير المتجانسة وخلصوا إلى أن MI مفضل على MLE في هذه الظروف. في دراستنا ، كان المتغير غير المكتمل قاطعًا. على الرغم من أنه كان من الممكن تطبيق MLE ، إلا أن نهج MI كان مفضلًا لأنه يمكن تنفيذه في معظم البرامج الإحصائية العامة.

عند بناء نموذج التضمين ، يوصى بتضمين أي متغيرات يمكن استخدامها في التحليلات اللاحقة [30]. كانت المتغيرات التالية مكتملة في قواعد البيانات الخاصة بنا واستخدمت كمتنبئات: العمر ، والمصادر ، وسنة التشخيص ، ومنطقة التشخيص. نظرًا لأن متغير "بلد الميلاد" كان مفقودًا في LaboVIH ، لم يتم تضمين المصدر المزدوج * شروط التفاعل المتغير في نموذج التضمين. لذلك ، كان من المفترض أن تتم عملية التضمين في ظل افتراض عدم وجود علاقة ارتباط بين المتغيرات المحذوفة والنتيجة. نتيجة لذلك ، يمكن أن تكون التقديرات المرتبطة بمصطلحات التفاعل هذه منحازة نحو الصفر [30 ، 31].

بحسب جراهام وآخرون.[30 ، 32] وأبيض وآخرون.[20] ، يوصى بإنشاء عدد من قواعد البيانات يساوي على الأقل النسبة المئوية للحالات غير المكتملة ، أو 30 قاعدة بيانات على الأقل في دراستنا. نظرًا لأن متغيرًا واحدًا فقط كان غير مكتمل ، فقد اخترنا احتساب عدد أكبر من قواعد البيانات.

تتمثل إحدى مزايا MI في أن الأخطاء المعيارية ومؤشرات الموثوقية للتقديرات متاحة بشكل مباشر كجزء من تقدير النموذج. تمت التوصية بمقاربة تمهيدية بارامترية لحساب مجالات الموثوقية للتقديرات النهائية [33 ، 34]. ينتج عن هذه الطريقة مؤشرات CI غير متناظرة وتسمح للمرء بأخذ نموذج عدم اليقين في الاعتبار. يجب أن تتناول الأبحاث المستقبلية إمكانية الجمع بين نهج التمهيد المعياري هذا مع MI.

تقديرات عدد التشخيصات الجديدة لفيروس نقص المناعة البشرية

من بين 89 حالة جديدة تم تشخيصها بفيروس نقص المناعة البشرية في الأطفال دون سن 13 عامًا في عام 2006 ، حدثت 40 حالة في الأطفال المولودين في فرنسا. هذا التقدير هو أكثر من ضعف العدد السنوي المتوقع للحالات التي ذكرتها يني [4]. ومع ذلك ، فإن تقدير Yeni لم يأخذ في الاعتبار النساء اللواتي لم يتم اختبارهن لفيروس نقص المناعة البشرية أثناء الحمل أو النساء اللاتي تعرضن للتحول المصلي أثناء الحمل بعد أول اختبار سلبي. يؤدي كلا السيناريوهين إلى زيادة خطر انتقال العدوى من الأم إلى الجنين. قبل عام 1994 في فرنسا ، وفي غياب أي استراتيجية وقائية ، كان معدل انتقال فيروس نقص المناعة البشرية من الأم إلى الطفل حوالي 20٪ [35]. تم تحديد مثل هذه المواقف عالية الخطورة في تحليل بأثر رجعي للأطفال الذين تم تشخيص إصابتهم بعدوى فيروس العوز المناعي البشري في مستشفى نيكر في باريس [36].

سمحت لنا نتائج الالتقاط والاستعادة التي توصلنا إليها بتقدير معدل تشخيصات جديدة لفيروس نقص المناعة البشرية لدى الأطفال في فرنسا القارية في عام 2006 تبلغ 9.1 لكل مليون. كان هذا المعدل أكبر بـ 38 مرة للأطفال المولودين في الخارج منه للأطفال المولودين في فرنسا. هذه النسبة أعلى من تلك التي لوحظت لدى البالغين ، حيث يبلغ معدل تشخيصات فيروس نقص المناعة البشرية الجديدة لدى البالغين المولودين في الخارج 6.0 لكل مليون ، مقارنة بـ 0.6 لكل مليون في أولئك الذين ولدوا في فرنسا [10]. يمكن تفسير النسبة الأعلى التي لوحظت في الأطفال من خلال انخفاض الوصول إلى تحري فيروس نقص المناعة البشرية والوقاية من انتقال العدوى من الأم إلى الطفل أثناء الحمل في البلدان الموبوءة بفيروس نقص المناعة البشرية.

يمكن مقارنة نتائجنا ببيانات من المملكة المتحدة لأن كلا البلدين لهما نفس الحجم من السكان (يبلغ عدد سكان المملكة المتحدة حوالي 60 مليون نسمة ، بما في ذلك 10 ملايين طفل) ، وتتركز أوبئة فيروس نقص المناعة البشرية بشكل مشابه وعدد السكان المولودين في الخارج (المملكة المتحدة). السكان المولودين في الخارج حوالي 8٪ من مجموع السكان ، مع ما يقرب من 0.5 مليون من أفريقيا جنوب الصحراء الكبرى). في عام 2006 ، كان معدل التشخيصات الجديدة لفيروس نقص المناعة البشرية لدى الأطفال دون سن 15 عامًا في المملكة المتحدة أعلى قليلاً (10.1 لكل مليون) من تقديراتنا لفرنسا. من المحتمل أن يرجع هذا التناقض إلى معدلات انتشار فيروس نقص المناعة البشرية المختلفة داخل البلدان الأصلية للسكان المولودين في الخارج في كل بلد. في المملكة المتحدة ، السكان المولودين في الخارج هم في المقام الأول من شرق أو جنوب أفريقيا. السكان المولودين في الخارج في فرنسا هم في المقام الأول من دول غرب أو وسط أفريقيا ، حيث انتشار فيروس نقص المناعة البشرية أقل. كما هو الحال في فرنسا ، انخفض عدد التشخيصات الجديدة لدى الأطفال في المملكة المتحدة من عام 2003 إلى عام 2006 (من 148 إلى 117) واستمر في الانخفاض منذ ذلك الحين [37]. بالإضافة إلى ذلك ، كما في فرنسا ، ما يقرب من ثلثي الأطفال الذين تم تشخيص إصابتهم بفيروس نقص المناعة البشرية في المملكة المتحدة ولدوا في الخارج [38].

الاكتمال

كان اكتمال الإخطار الإلزامي بالتشخيصات الجديدة لفيروس نقص المناعة البشرية لدى الأطفال منخفضًا (28٪) مقارنة بنظام DOVIH الشامل لفيروس نقص المناعة البشرية لدى الأطفال والبالغين (62٪ في عام 2004) [10]. يمكن تفسير هذا التناقض من خلال الإخطار المسبق الإجباري من المختبرات من قبل علماء الأحياء الدقيقة لفيروس نقص المناعة البشرية البالغ ، مما يسهل إبلاغ DOVIH من قبل الأطباء. تم تعديل نظام الإبلاغ عن عدوى فيروس نقص المناعة البشرية لدى الأطفال في عام 2007 لمطالبة علماء الأحياء الدقيقة بالإبلاغ عن تشخيصات جديدة لفيروس نقص المناعة البشرية لدى الأطفال. ومع ذلك ، فإن ضعف اكتمال وتعديل نظام المراقبة يجعل من الصعب تقييم الاتجاهات المحتملة في تشخيصات فيروس نقص المناعة البشرية الجديدة التي حدثت منذ عام 2007.

قد تفسر عدة فرضيات قلة اكتمال تشخيص فيروس نقص المناعة البشرية لدى الأطفال في EPF (26٪). تم تضمين ما يقرب من 70٪ من الأمهات الحوامل المصابات بفيروس نقص المناعة البشرية وأطفالهن في مجموعة برنامج EPF. قد تكون حالات الأطفال المصابين بفيروس نقص المناعة البشرية المولودين لأمهات لم يتم تضمينهم في برنامج EPF ، وخاصة أولئك الذين ولدوا في الخارج ، قد فاتت لسببين: (1) تم جمع البيانات بأثر رجعي لعامي 2003 و 2004 ، و (2) الوالدين يصعب أحيانًا الحصول على موافقة أطباء الأطفال بعد تشخيص فيروس نقص المناعة البشرية لدى الأطفال.


نموذج حدودي لتقدير أنماط التشتت المطبق على خمسة تجمعات سكانية منظمة مكانيًا

تم تحليل بيانات التقاط التشتت عند الولادة ‐ من خمس مجموعات مجزأة من العصافير المنزلية والثدي الكبير والثدي الأزرق باستخدام أساليب الاحتمالية القصوى. تم إنشاء توزيع ثنائي بارامترى جديد يتضمن أربعة توزيعات استخدمت سابقًا كحالات خاصة في الأدبيات. قدرت الانحرافات المعيارية للتشتت بـ 22.9 كم للعصافير المنزلية وتراوحت من 0.66 إلى 4.4 كم للثدي. الثدي الكبير للإناث والثدي الأزرق منتشر باستمرار أكثر من الذكور. تراوحت تقديرات معلمة الشكل لتوزيع التشتت من 0.66 إلى 2.27 ، مما يشير إلى عمليات نزوح تشتت قوية إلى معتدلة. كانت هناك تأثيرات كبيرة للكثافة على معدلات الهجرة المحلية وميل ثابت لمعدلات الهجرة للاعتماد بشكل غير متناسب على الكثافات المحلية. تم التحقيق في الآثار المحتملة لشكل التوزيع المشتت لانتشار الكائنات الغازية ومقارنتها مع النتائج السابقة. يتضح أن سرعة الموجة ، بالنسبة لانحراف معياري تشتت معين ، تعتمد فقط إلى حد ما على داء البريميات ، بشرط أن يكون معدل النمو الجوهري للسكان معتدلاً أو صغيراً. ومع ذلك ، عند تقدير الانحراف المعياري للتشتت ، يمكن أن تؤدي الافتراضات غير الصحيحة حول درجة داء البريميات إلى تحيز كبير في التقدير والتنبؤات.


تقييم أداء النموذج في علم الأحياء التطوري

تعتمد العديد من مجالات علم الأحياء التطوري الآن على النماذج الرياضية العشوائية. تعتبر هذه النماذج ذات قيمة لقدرتها على إضفاء الطابع الرسمي على التنبؤات في مواجهة عدم اليقين وتوفر إطارًا كميًا لاختبار الفرضيات. ومع ذلك ، لن يلتقط أي نموذج رياضي التعقيد البيولوجي بشكل كامل. بدلاً من ذلك ، تحاول هذه النماذج التقاط السمات المهمة للأنظمة البيولوجية باستخدام مبادئ رياضية بسيطة نسبيًا. يمكن أن تسمح لنا هذه التبسيطات بالتركيز على الاختلافات ذات المعنى ، بينما نتجاهل الاختلافات التي ليست كذلك. However, simplification also requires assumptions, and to the extent that these are wrong, so is our ability to predict or compare. Here, we discuss approaches for evaluating the performance of evolutionary models in light of their assumptions by comparing them against reality. We highlight general approaches, how they are applied, and remaining opportunities. Absolute tests of fit, even when not explicitly framed as such, are fundamental to progress in understanding evolution.


Evaluating Model Performance in Evolutionary Biology

Many fields of evolutionary biology now depend on stochastic mathematical models. These models are valuable for their ability to formalize predictions in the face of uncertainty and provide a quantitative framework for testing hypotheses. However, no mathematical model will fully capture biological complexity. Instead, these models attempt to capture the important features of biological systems using relatively simple mathematical principles. These simplifications can allow us to focus on differences that are meaningful, while ignoring those that are not. However, simplification also requires assumptions, and to the extent that these are wrong, so is our ability to predict or compare. Here, we discuss approaches for evaluating the performance of evolutionary models in light of their assumptions by comparing them against reality. We highlight general approaches, how they are applied, and remaining opportunities. Absolute tests of fit, even when not explicitly framed as such, are fundamental to progress in understanding evolution.


شكر وتقدير

Funding was provided by Everglades National Park through the Critical Ecosystem Science Initiative and the Land and Water Conservation Fund. We gratefully acknowledge the staff at the South Florida Natural Resources Center who provided essential administrative and technical assistance. Numerous technicians assisted on this project, most notably S. Wolf, J. Strantz, J. Ball, M. Rogne, and L. MacDade. Finally, we thank A. J. Kroll, J. Citta, and 2 anonymous reviewers for providing constructive criticism that sharpened our thinking and resulted in a substantially improved manuscript.


شاهد الفيديو: Bootstrap 5 Navbar Tutorial (شهر اكتوبر 2022).