معلومة

ما هي الطريقة التي ستستخدمها في تكوين أشكال وراثية لأشكال تعدد الأشكال في عينات منخفضة الجودة؟

ما هي الطريقة التي ستستخدمها في تكوين أشكال وراثية لأشكال تعدد الأشكال في عينات منخفضة الجودة؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

ما هي الطريقة التي ستستخدمها في تكوين أشكال تعدد الأشكال الجيني في عينات منخفضة الجودة؟ من الناحية المثالية ، أرغب في إجراء تركيب وراثي لمئات من النيوكلوتايد في مئات من عينات براز (كمية قليلة جدًا من الحمض النووي المستهدف ، من المحتمل أن تكون متدهورة وملوثة بشدة بالحمض النووي الآخر).


أتفق مع gchadwick في أن المزيد من المعلومات من شأنه أن يساعد.

ومع ذلك ، بناءً على فهمي لما تحاول القيام به (التنميط الجيني SNP على عدة جينات) ، أقترح. 1) إثراء الحمض النووي الخاص بك بالحمض النووي من الكائن الحي الذي تريده 2) إثراء الحمض النووي الخاص بك بالحمض النووي في المناطق المرغوبة (إن وجدت).

الحل: التخصيب المستهدف. ربما تكون على دراية بأن شركات مثل agilent و nimblegen و illumina تقدم مجموعة تخصيب مستهدفة لتسلسل الجيل التالي. ومع ذلك ، إذا كان الحمض النووي الخاص بك سيئًا للغاية ، أقترح إجراء اختيار الهدف باستخدام تفاعل البوليميراز المتسلسل.


استدعاء النمط الجيني SNP ومراقبة الجودة للدراسات متعددة الدُفعات

في التحليلات الجينية ، يشير مصطلح "تأثير الدُفعات" إلى الاختلافات المنهجية الناتجة عن عدم تجانس الدُفعات. يعد التحكم في هذا التأثير غير المقصود أهم خطوة في عمليات مراقبة الجودة (QC) التي تسبق التحليلات. حاليًا ، لا يتم التحكم في تأثيرات الدُفعات بشكل مناسب من خلال الإحصائيات ، وهناك حاجة إلى مناهج أحدث.

أساليب

في هذا التقرير ، نقترح طريقة جديدة لاكتشاف عدم تجانس شدة المسبار بين دفعات مختلفة وإجراء لاستدعاء الأنماط الجينية ومراقبة الجودة في وجود تأثير دفعي. أولاً ، أجرينا تحليلًا متعدد المتغيرات للتباين (MANOVA) لاختبار الاختلافات في شدة المسبار بين الدُفعات. إذا تم اكتشاف عدم التجانس ، فيجب تجميع الموضوعات باستخدام خوارزمية K-medoid باستخدام متوسطات قياسات شدة المسبار لكل دفعة ويجب استدعاء الأنماط الجينية للموضوعات في مجموعات مختلفة بشكل منفصل.

نتائج

تم استخدام الطريقة المقترحة لتقييم بيانات التنميط الجيني لـ 3619 شخصًا يتألف من 1074 مريضًا يعانون من مرض الزهايمر ، و 296 مصابين بضعف إدراكي خفيف (MCI) ، و 1153 مريضًا. تعمل الطريقة المقترحة على تحسين دقة الأنماط الجينية المسماة دون الحاجة إلى تصفية الكثير من الموضوعات والنيوكلوتايد SNPs ، وبالتالي فهي طريقة معقولة للتحكم في تأثيرات الدُفعات.

الاستنتاجات

اقترحنا إستراتيجية جديدة تكتشف تأثيرات الدُفعات بقياس كثافة المجس وتستدعي الأنماط الجينية في وجود تأثيرات الدُفعات. يوضح تطبيق الطريقة المقترحة على البيانات الحقيقية أنها تنتج نهجًا متوازنًا. علاوة على ذلك ، يمكن توسيع الطريقة المقترحة لتشمل سيناريوهات مختلفة مع تعديل بسيط.


دفع نمو الأعمال التجارية من خلال الرؤى الجينية

يعد اختبار النمط الجيني Phylos أداة قوية لفهم وتحسين النباتات الخاصة بك. احصل على معرّف جيني فريد وتقرير لكل نبات تختبره ، مع إظهار تطابق استنساخ متطابق ، ومدى ارتباطها بالأصناف حول العالم ، وإلقاء نظرة ثاقبة على إمكانات تكاثرها.

دافع عن عنوان IP الخاص بك

دافع عن حقوق الملكية الفكرية الخاصة بك وقم بتوثيق حيازة أصناف القنب الخاصة بك بتقرير مختوم بالوقت ومعرف فريد في Phylos Galaxy ، والذي يمكن اعتباره شكلاً من أشكال IP الدفاعية.

بناء علامة تجارية موثوقة

احصل على قائمة في Phylos Galaxy ، أكبر قاعدة بيانات في العالم للإحصاءات الجينية للقنب والقنب. يتضمن كل اختبار من اختبارات النمط الوراثي Phylos موضعًا في Phylos Galaxy مع ارتباط قابل للمشاركة إلى مجموعتك — عرض مخصص لأصنافك.

دعم البيانات المفتوحة

يمكنك الاشتراك في مشاركة بيانات التسلسل الخاصة بك مع مستودع بيانات عام (أو مكتبة بيانات) ، مما يساعد في دفع البحث من خلال تحليل البيانات. لن نشارك بياناتك أبدًا دون إذنك. اتصل بـ [email protected] لتحديث تفضيلات مشاركة البيانات الخاصة بك.


الملخص

أدت التطورات التكنولوجية الحديثة إلى توسيع نطاق بيانات omic المتاحة ، من بيانات تسلسل الجينوم الكامل ، إلى البيانات النصية والميثيلومية والأيضية الشاملة. يتمثل الهدف الرئيسي لتحليلات هذه البيانات في تحديد النماذج الفعالة التي تتنبأ بالسمات والنتائج المظهرية ، وتوضيح المؤشرات الحيوية المهمة وتوليد رؤى مهمة حول الأسس الجينية لتوريث السمات المعقدة. لا تزال هناك حاجة لاستراتيجيات تحليل قوية ومتقدمة لتسخير فائدة هذه البيانات الشاملة عالية الإنتاجية بشكل كامل ، وتحديد الارتباطات الحقيقية وتقليل عدد الارتباطات الخاطئة. في هذه المراجعة ، نستكشف الطرق الناشئة لتكامل البيانات - بما في ذلك التحليلات متعددة الأبعاد والمتعددة المراحل - والتي تهدف إلى تعميق فهمنا لدور علم الوراثة والجينوميات في النتائج المعقدة. مع استخدام وتطوير هذه الأساليب ، يمكن الكشف عن فهم أفضل للعلاقة بين التباين الجيني والأنماط الظاهرية البشرية.


نتائج ومناقشة

تحليل البيانات الحقيقي

في نتيجة GWAS المستندة إلى 1 ميغابايت ، كانت الارتباطات (p_w ) مع (q_w ) و WPPA 0.62 و 0.65 ، على التوالي ، مما يعني أن النوافذ الكثيفة تميل إلى شرح المزيد من التباين الجيني ولديها WPPA كبير. أحد التفسيرات المحتملة (الفرضية) لهذه الملاحظة هو أن النافذة ذات الكثافة العالية من تعدد الأشكال من المحتمل أيضًا أن تحتوي على مواضع سمات أكثر من النافذة ذات الكثافة المنخفضة من تعدد الأشكال. لاختبار هذه الفرضية ، قمنا بإعادة تحليل البيانات وحساب ارتباطات (p_w ) مع (q_w ) و WPPA بعد تبديل النمط الظاهري ، حيث قمنا بتبديل تسميات النمط الظاهري ولكننا احتفظنا بالأنماط الجينية كما هي. إذا كانت هذه الفرضية صحيحة ، فإن الارتباطات التالية للتبديل في الطرز المظهرية يجب أن تكون منخفضة منذ إزالة العلاقة بين النمط الظاهري والنمط الجيني. ومع ذلك ، في 30 نسخة مكررة من الخلط العشوائي ، كان متوسط ​​الارتباط بين (p_w ) و (q_w ) 0.36 ، وبين (p_w ) و WPPA كان 0.62. بالإضافة إلى ذلك ، تم الحصول دائمًا على أكبر WPPA لإحدى النوافذ الثلاثة الأكثر كثافة ، والتي تحتوي على 733 و 594 و 545 SNPs ، على التوالي. يشير الارتباط الكبير بين (p_w ) و WPPA إلى أن النوافذ الكثيفة تميل إلى أن تحتوي على WPPA كبيرة بغض النظر عن الأنماط الظاهرية وهذا من المحتمل جدًا أن يتسبب في زيادة الإيجابيات الخاطئة. قد يؤدي استخدام المناهج السابقة في مناهج أخرى ، مثل BayesB [19 ، 20] أو Bayesian LASSO [21] ، إلى نفس المشكلة المذكورة أعلاه.

بعد تغيير قيمة تي من ثابت إلى قيمة خاصة بالنافذة (1 ميجا بايت وات) ، ظل الارتباط بين (p_w ) و (q_w ) كما هو ، لكن ذلك بين (p_w ) و WPPA انخفض من 0.65 إلى 0.29. تُظهر مؤامرة مانهاتن أن النوافذ الكثيفة التي تظهر إشارات مهمة اختفت عند استخدام 1 ميجاوات وات بدلاً من 1 ميجا بايت (الشكل 1). ينبغي للمرء أن يلاحظ أن استخدام نافذة محددة تي لا يغير نسبة التباين الجيني التي توضحها كل نافذة ، ولكنه يغير WPPA من خلال قيم مختلفة لـ تي.

مؤامرة مانهاتن لتحليل GWAS للبيانات الحقيقية. 1 ميجا بايت = تحليل GWAS بحجم نافذة 1 ميجا بايت وثابت تي لجميع النوافذ 1 ميجا بايت = تحليل GWAS بحجم نافذة 1 ميجا بايت ونافذة محددة تي 100 T = تحليل GWAS بحجم نافذة 100 SNPs وثابت تي 1 ميجابايت = تحليل GWAS مع نافذة بحجم 1 ميجابايت باستخدام EMMAX. النقاط الحمراء تمثل نوافذ كثيفة

تحليل البيانات المحاكاة

تشبه الارتباطات التي تم الحصول عليها مع بيانات المحاكاة تلك التي تحتوي على بيانات حقيقية. بالنسبة لنافذة بحجم 1 ميغا بايت ، كان الارتباط بين (p_w ) و (q_w ) قويًا (الشكل 2) ، خاصة بالنسبة (n_ = ) 90 و 300. كانت كثافة النوافذ أيضًا مرتبطة ارتباطًا وثيقًا بـ WPPA عند استخدام الثابت تي قيمة لحساب WPPA ، بينما انخفض الارتباط بشكل كبير عند استخدام نافذة محددة تي القيمة (الشكل 3). متي تي مضبوط على ( frac <1>) ، فإن الفرضية الصفرية هي أن كل نافذة جينومية تشرح قدرًا متساويًا من التباين الجيني (على سبيل المثال ، لا توجد QTL). ومع ذلك ، عند استخدام (T_w = frac

) ، فإن الفرضية الصفرية هي أن كل SNP يشرح قدرًا متساويًا من التباين الجيني ، وبالتالي يتعين على النوافذ الكثيفة أن تشرح تباينًا وراثيًا أكبر من النوافذ غير الكثيفة للحصول على نفس قيمة WPPA.

توضح العلاقات بين عدد تعدد الأشكال ونسبة التباين الجيني بواسطة كل نافذة بحجم نافذة 1 ميجا بايت للبيانات المحاكاة. تم الحصول على الارتباطات بناءً على 30 مكررًا لكل عدد من QTL المحاكاة

الارتباطات بين عدد SNPs و WPPA لكل نافذة جينومية. تم الحصول على الارتباطات بناءً على 30 مكررًا لكل عدد من QTL المحاكاة. 1 ميجا بت = تحليل GWAS بحجم نافذة 1 ميجا بايت وثابت تي لجميع النوافذ 1 ميجا بايت = تحليل GWAS بحجم نافذة 1 ميجا بايت ونافذة محددة تي

يتم عرض قيم pAUC5 البالغة 1 ميجا بايت ، و 1 ميجا بايت ، و 100 طن في الجدول 1. على الرغم من عدم وجود فرق كبير في pAUC5 عند (n_ = 30 ) ، كان معدل pAUC5 البالغ 1 ميجا بايت أقل بكثير من 1 ميجاوات وات و 100 طن عند (n_) = 90 و 300. لم يتم العثور على فرق كبير بين 1 ميجاوات وات و 100 T. تشير نتيجة pAUC5 إلى أن استخدام حجم نافذة 100 SNPs أو نافذة محددة تي يحسن أداء GWAS. لاحظ أن أداء 100 طن قد لا يكون مشابهًا لأداء 1 ميجا بايت و 1 ميجا بايت وات نظرًا لأنه تم اختبار نوافذ جينومية مختلفة في 100 T. لوحظت نتائج مماثلة لدراسات المحاكاة ذات الوراثة المختلفة (النتائج غير معروضة). كان الارتباط بين اللوغاريتم السالب للقيم p وعدد النيوكلوتايد في كل نافذة منخفضًا (- 0.11) لـ 1 ميجا بايت في تحليل البيانات الحقيقية ، ولم يكن أي من النوافذ الكثيفة مهمًا (الشكل 1). هذا لأنه ، في ظل الفرضية الصفرية ، لكل نافذة ، تتبع إحصائية الاختبار توزيع Chi-square مع درجات الحرية التي تساوي عدد SNPs في النافذة ، مما يقلل من اللوغاريتم السلبي لقيم p للنوافذ الكثيفة. فيما يتعلق بأداء GWAS في دراسة المحاكاة ، كان أداء 1 MbFre أسوأ بكثير من 1 MbT و 1 MbTw عندما (n_) = 30 و 90 بناءً على pAUC5 ، على الرغم من عدم ملاحظة اختلاف كبير عند (n_) = 300. أجرينا أيضًا دراسة محاكاة أخرى باستخدام مجموعة بيانات الخنازير المكونة من 928 فردًا و 44،055 تعدد الأشكال [22]. في مجموعة بيانات الخنازير ، حسّن 1 ميجا بايت وات باستمرار أداء GWAS مقارنة بـ 1 ميجا بايت عند استخدام لوحات التركيب الوراثي بكثافة SNP غير المتجانسة (النتائج غير معروضة).


التنميط الجيني بالآلاف عن طريق التسلسل (GT-seq) تطوير لوحة وتطبيقها على عينات DNA طفيفة التوغل لدعم الدراسات في البيئة الجزيئية

Michael A. Russello، Department of Biology، University of British Columbia، Okanagan Campus، Kelowna، BC، Canada.

قسم الأحياء ، جامعة كولومبيا البريطانية ، حرم أوكاناغان ، كيلونا ، كولومبيا البريطانية ، كندا

GTseek LLC ، Twin Falls ، ID ، الولايات المتحدة الأمريكية

إستراتيجية وزارة البيئة وتغير المناخ في كولومبيا البريطانية ، فيكتوريا ، كولومبيا البريطانية ، كندا

قسم علوم الموارد الطبيعية ، جامعة طومسون ريفرز ، كاملوبس ، كولومبيا البريطانية ، كندا

قسم الأحياء ، جامعة كولومبيا البريطانية ، حرم أوكاناغان ، كيلونا ، كولومبيا البريطانية ، كندا

Michael A. Russello، Department of Biology، University of British Columbia، Okanagan Campus، Kelowna، BC، Canada.

الملخص

ينتشر أخذ العينات طفيف التوغل (MIS) على نطاق واسع في دراسات الحياة البرية ، ومع ذلك ، فإن فائدته في تسلسل الحمض النووي المتوازي على نطاق واسع (MPS) محدودة. يمكن أن تجعل جودة العينة الضعيفة والتلوث بواسطة الحمض النووي الخارجي من الصعب استخدام MIS مع مناهج التنميط الجيني الحديثة بالتسلسل ، والتي تم تطويرها تقليديًا لمصادر الحمض النووي عالية الجودة. بالنظر إلى أن MIS غالبًا ما يكون أكثر ملاءمة في العديد من السياقات ، هناك حاجة لجعل هذه العينات عملية لتسخير MPS. هنا ، نختبر القدرة على التنميط الجيني بالآلاف عن طريق التسلسل (GT-seq) ، وهو نهج تسلسل متعدد الإرسال ، من أجل النمط الجيني الفعال لعينات الحمض النووي ذات التدخل الجراحي البسيط التي تم جمعها من أفعى الجرسية الغربية (Crotalus oreganus) ، من الأنواع المهددة في كولومبيا البريطانية ، كندا. نظرًا لعدم وجود معلومات وراثية سابقة لهذا النوع ، تم اختيار لوحة محسّنة من 362 SNPs للاستخدام مع GT-seq من a من جديد تجميع تسلسل الحمض النووي المرتبط بموقع التقييد (RADseq). وجدت المقارنات بين الأنماط الجينية التي تم إنشاؤها داخل وبين RADseq و GT-seq لنفس الأفراد معدلات منخفضة من أخطاء التنميط الجيني (GT-seq: 0.50٪ RADseq: 0.80٪) والتناقض (2.57٪) ، ومن المحتمل أن يكون الأخير بسبب استدعاء النمط الجيني المختلف النماذج المستخدمة. GT-seq يعني أن التناقض في النمط الجيني بين عينات الدم ومسحة المخرق التي تم جمعها من نفس الأفراد كان أيضًا ضئيلًا (1.37 ٪). كانت تقديرات معلمات التنوع السكاني متشابهة عبر مجموعات بيانات GT-seq و RADseq ، كما تم استنتاج أنماط هيكل السكان. بشكل عام ، يمكن تطبيق GT-seq بفاعلية على عينات الحمض النووي منخفضة الجودة ، مما يقلل من أوجه القصور التي يقدمها الحمض النووي الخارجي الموجود عادةً في العينات قليلة التوغل ومواصلة التوسع في البيئة الجزيئية وعلم الوراثة الحفظ في عصر الجينوميات.

يرجى ملاحظة ما يلي: الناشر غير مسؤول عن محتوى أو وظيفة أي معلومات داعمة مقدمة من المؤلفين. يجب توجيه أي استفسارات (بخلاف المحتوى المفقود) إلى المؤلف المقابل للمقالة.


نتائج

من بين 486605 BRLMM تسمى SNPs التي تم توفيرها لـ GAW16 ، اجتاز 343،427 SNPs بنجاح sQC. بالنسبة لـ 695 من أصل 1000 مخطط تم اختياره عشوائيًا ، توصل القارئان المستقلان إلى قرارات متطابقة ، وأعرب كلا القراء عن يقينهما بشأن قرارهما. تم الحكم على خمسمائة وثمانية وثمانين (84.6 ٪) على أنها تسمى بشكل صحيح SNPs ، وتم تصنيف 107 SNPs المتبقية على أنها SNPs حيث كان تخصيص النمط الجيني غير موثوق به. يتم عرض تقديرات النقطة والفاصل الزمني للحساسية والنوعية و PPV و NPV في الجدول 1. للحصول على F = 1.5 لقد حققنا خصوصية 99٪ ، أي تقريبًا تم التعرف على جميع أشكال SNPs الجيدة بواسطة ACPA.

أدت زيادة حدود الكتلة إلى فقدان الخصوصية (86٪) ولكنها زادت من حساسية ACPA للكشف عن تعدد الأشكال بشكل سيئ. انخفض PPV من 93٪ إلى 53٪.


خلفية

يمكن أن ينتج التنميط الجيني بالتسلسل (GBS) مكتبات متعددة من العينات بناءً على إنزيم التقييد ومحولات الحمض النووي المشفرة ، ويحتمل أن يقلل تكلفة التنميط الجيني [1]. مع التسلسل المنخفض التمثيل للعينات متعددة الإرسال ، تم تطوير GBS كطريقة قوية لاكتشاف العلامات الجزيئية على مستوى الجينوم وتنميطها [2]. بالنسبة لبعض الأنواع ، لا تتوفر مجموعة شرائح تجارية ، وبالتالي ستكون GBS طريقة جيدة للحصول على الأنماط الجينية لواسمات الحمض النووي [3]. ومع ذلك ، فإن جودة التنميط الجيني لـ GBS تميل إلى أن تكون أقل من جودة مجموعة الشرائح [4]. نظرًا لأن عمق قراءة تسلسل الجينوم الواسع يختلف باختلاف كل جينوم متسلسل لأفراد مختلفين ، فإن جودة النمط الجيني تختلف أيضًا وفقًا لذلك [5]. لذلك ، فإن نسبة التراكيب الجينية المسماة بشكل صحيح ستنخفض بعد تقليل أعماق القراءة.

اقترحت العديد من الدراسات أنه من الأقوى تسلسل عدد أكبر من الأفراد في التغطية الأقل [6]. يمكن للتسلسل منخفض التغطية أن يلتقط قدرًا كبيرًا من التباين عبر الجينوم مثل مصفوفات SNP وقد أسفر عن زيادة متناسبة في القوة الإحصائية ، والتي ستكون استراتيجية أكثر جاذبية لدراسات علم الوراثة المعقدة للسمات [7 ، 8]. في تقرير Gorjanc [4] ، أدى توسيع مجموعة التدريب إلى دقة إجمالية أعلى لقيمة التكاثر المقدرة (EBV) ، حتى مع تقليل جودة التنميط الجيني لتكلفة أقل ، ولكن جودة التنميط الجيني قد تكون أكثر أهمية لمجموعة التنبؤ. تبين أن دقة التنبؤ زادت بشكل كبير عندما زادت أيضًا أعماق القراءة في مجموعة التنبؤ [4].

نظرًا لانخفاض التغطية ، فإن الأنماط الجينية غير المتجانسة التي تم تصنيفها جينيًا بشكل خاطئ مثل الزيجوت المتماثلة الزيجوت تعتبر مشكلة خطيرة في بيانات GBS. على سبيل المثال ، قراءة عمق واحد من شأنه أن يصنف جينياً فقط أليل واحد من ثنائي الصيغة الصبغية عشوائياً ، بحيث يكون صحيحاً أأ من المؤكد أن النمط الجيني أأ أو AA النمط الجيني عن طريق الخطأ. اقترحت الدراسات السابقة طريقة الاحتمال الأقصى (ML) لاستدعاء الأنماط الجينية في بيانات التسلسل ذات التغطية المنخفضة [9 ، 10] ، كما طورت البرامج ذات الصلة ، مثل ANGSD [11] و polyRAD [12]. قدرت الحزمة R polyRAD الاحتمالية اللاحقة من المقدمات والاحتمالات لكل فرد وأليل باستخدام نظرية بايز. طبقت معلومات من علامات عالية العمق لتحسين دقة التنميط الجيني للعلامات منخفضة العمق باستخدام البنية السكانية والربط بين المواقع [12] ، بالإضافة إلى ذلك ، حققت بعض الدراسات في تقدير العلاقة لتحسين بناء مصفوفات الارتباط باستخدام GBS بعمق منخفض [13 ، 14] .

من الناحية العملية ، من الممكن تصحيح استدعاءات النمط الجيني الخاطئة لبيانات GBS بناءً على أعماق القراءة وترددات الأليل ، وبالتالي تحسين جودة GBS إلى حد ما. لذلك ، فإن طرق تصحيح خطأ النمط الجيني مطلوبة لاستكمال الاستخدام المستقبلي لبيانات GBS [8]. المحاكاة هي أداة ذات قيمة عالية لتقييم طرق تصحيح GBS. وبالتالي ، كان الهدف من هذه الدراسة هو اقتراح طريقة لتصحيح النمط الجيني لبيانات GBS الأصلية ، ثم التحقيق في تحسين التنبؤ الجيني (GP) باستخدام البيانات المحاكاة لمجموعات الثروة الحيوانية. في هذه الدراسة ، تمت محاكاة أربعة أعماق قراءة مختلفة للأنماط الجينية GBS والأنماط الجينية لمجموعة الشرائح (Chip). تم التنبؤ بقيم التكاثر باستخدام GBS و GBS المصحح (GBSc) والأنماط الجينية للرقاقة. تمت مقارنة دقة التنبؤات الجينية لتقدير قيمة GBS وتحسين GBSc من تصحيح التركيب الوراثي باستخدام مجموعات بيانات وراثية مختلفة.


الاختبار الجيني للكلاب - مقدمة في التقنيات

هذه مقدمة موجزة عن التقنيات الحالية لأنها تنطبق على الاختبارات الجينية للكلاب. يتم توجيه القارئ إلى ثلاث مقالات قصيرة كتبها الدكتور برين والتي تعد بمثابة مقدمة أساسية لعلم الوراثة للكلاب ، وهي متاحة على https://www.akc.org/author/matthew-breen/.

نظرًا لأن الاختبارات الجينية للكلاب أصبحت متاحة على نطاق واسع ، سواء عن طريق أخصائي الصحة البيطرية أو مباشرة إلى المستهلكين ، فمن المهم أن يكون جميع مربو الكلاب على دراية بالتقنيات المستخدمة لتقديم مثل هذا الاختبار. تشترك جميع الكلاب في نفس المجموعة المكونة من حوالي 20000 جين منظم في المجموعة المميزة المكونة من 39 زوجًا من الكروموسومات في كل خلية. ومع ذلك ، على مستوى تسلسل الحمض النووي هناك تباين كبير (تعدد الأشكال) بين الأفراد. هذا الاختلاف في التسلسل هو الذي يشكل أساس الاختبار الجيني للتحقق من الأبوين ، وخطر / اكتشاف المرض ، وسلالة السلالة ، وتحليل الطب الشرعي. تهدف جميع الاختبارات الجينية إلى مطابقة التوقيعات الجينية للفرد المرتبط بواحدة أو أكثر من السمات أو الأنماط الظاهرية.

أخذ العينات البيولوجية وعزل الحمض النووي

تبدأ جميع الاختبارات الجينية للكلاب المستندة إلى الحمض النووي بجمع عينة بيولوجية من الكلب قيد الاختبار. يعد نوع العينة البيولوجية ، إلى جانب الطريقة التي يتم بها الحصول عليها وتخزينها ونقلها ومعالجتها في النهاية بواسطة المختبر ، كلها عوامل رئيسية يمكن أن تؤثر على جودة وكمية البيانات الوراثية الناتجة. بالنسبة للاختبار الجيني للكلاب ، فإن المصادر الأكثر شيوعًا للمواد البيولوجية هي الدم ومسحات الفم (مسحات الخد / الخد). في حين أنه من السهل نسبيًا الحصول على مسحات من الشدق ، فإن جودة وكمية الحمض النووي الجيني للكلاب المسترجعة متغيرة للغاية ، اعتمادًا على نوع المسحة المستخدمة ، وفعالية جمع الشدق ، ونظافة فم الكلب و rsquos. في المقابل ، فإن الحمض النووي الجيني المأخوذ من عينة دم كاملة يكون باستمرار أعلى جودة وكمية من المسحات الشدقية. ومع ذلك ، فإن الحصول على عينة دم يتطلب عمومًا اختصاصيًا صحيًا مرخصًا ، مما قد يضيف الوقت والتكلفة. تستفيد الأساليب الحديثة لعزل الحمض النووي من الدم أو مسحات الشدق من الترميز الشريطي والمعالجة شبه الآلية لزيادة الكفاءة وتتبع العينات بدقة.

منهجيات الاختبار الجيني

بمجرد عزل الحمض النووي الجيني من الكلب ، يتم تحليله بواسطة تقنية واحدة أو أكثر اعتمادًا على نوع التباين الجيني الذي يتم تقييمه. في عام 2020 ، أكثر المتغيرات شيوعًا المستخدمة في الاختبارات الجينية للكلاب هي التكرارات الترادفية القصيرة (STRs) وتعدد الأشكال النوكليوتيدية المفردة (SNPs). كلا النوعين من التباين الجيني موروث وينتقل من الآباء إلى الأبناء.

التكرارات الترادفية القصيرة (STRs): يتألف تسلسل الحمض النووي من أربعة نيوكليوتيدات: الأدينين (A) والثايمين (T) والجوانين (G) والسيتوزين (C) ، وهذا الترتيب المحدد لهذه النيوكليوتيدات هو الذي يحدد الكود الجيني. التكرار الترادفي القصير (STR) هو سلسلة من الحمض النووي ، بشكل عام 2-5 نيوكليوتيدات في الطول ، والتي تتكرر عدة مرات في موقع معين (موضع) في الجينوم. تتم تسمية STRs بعدد النيوكليوتيدات في تسلسل التكرار ، لذلك يُشار إلى تكرار النوكليوتيدات 2 و 3 و 4 و 5 على أنها تكرارات ثنائية وثلاثية ورباعية وخماسية النوكليوتيدات ، على التوالي. كل فرد لديه نسختان (أليلات) من كل STR ، نسخة واحدة موروثة من كل والد. يشار إلى هوية كل أليل على أنه النمط الجيني. عندما يكون أليلان STR الموروثة من كل والد متماثلين ، يُشار إلى النمط الجيني على أنه متماثل اللواقح. إذا كان الأليلين مختلفين ، فيشار إلى النمط الجيني STR على أنه متغاير الزيجوت. يرجع تعدد الأشكال في STR إلى وجود عدد متغير من نسخ عنصر التكرار الذي يحدث في أفراد مختلفين.

تقليديا ، يتم تحديد النمط الجيني لأليلات STR من خلال تحليل جزء صغير من الجينوم (أقل من 500 نيوكليوتيد) يحيط بكل STR. يشار إلى التقنية المستخدمة باسم تفاعل البوليميراز المتسلسل ، أو PCR ، وهي عملية تنتج ملايين النسخ المتطابقة من منطقة معينة من الجينوم. تسمى هذه العملية بالتضخيم ويشار إلى منطقة الجينوم التي يتم نسخها باسم أمبليكون PCR. يتم الإبلاغ عن النمط الجيني لكل STR بحجم كل من amplicons. بالنسبة إلى STR الفردية ، قد يكون هناك 5 أو 6 أو 7 أو أكثر من الأليلات في مجموعة سكانية ، وبالتالي يمكن أن يكون العدد المحتمل لتوليفات الأليلين في أي كلب واحد مرتفعًا. يتم استخدام تواتر كل أليل في مجموعة سكانية لحساب درجة تعدد الأشكال لـ STR في تلك المجموعة السكانية. بشكل عام ، كلما زاد تعدد الأشكال ، زادت فائدة اختبار STR في اختبار النسب. لزيادة القدرة على استبعاد الأبوين ، يتم دمج لوحات تقارير المعاملات المشبوهة. تضم لوحة النسب الحالية لـ AKC (SuperPlex-G) 13 تقريرًا مشروطًا بالإضافة إلى علامة تحديد الجنس ، وتوفر ثقة تزيد عن 99 ٪ لاستبعاد الأبوين. ومع ذلك ، فإن تقارير المعاملات المشبوهة لها فائدة محدودة في اختبارات الصحة الوراثية.

تعدد أشكال النوكليوتيدات الأحادية (SNP): تعد الأشكال المتعددة للنيوكليوتيدات المفردة (SNPs) هي الشكل الأكثر شيوعًا للتنوع الجيني في جينوم الكلاب ، ويقدر عددها بعدة ملايين لكل كلب على حدة وعشرات الملايين عبر السلالات. يمثل SNP نيوكليوتيد بديل في مكان محدد في الجينوم ، على سبيل المثال ، قد يكون a & lsquoC & rsquo (السيتوزين) في فرد واحد & lsquoT & rsquo (التيروزين) في شخص آخر. على عكس الدرجة العالية من تعدد الأشكال لـ STRs ، عادةً ما تحتوي SNPs على أليلين فقط وبالتالي يكون لكل منهما تعدد أشكال محدود. عند استخدامها في اختبار النسب ، يجب تقييم العديد من تعدد أشكال النيوكلوتايد (الألواح التي تضم أكثر من 100) لتوفير قوة الاستبعاد التي يوفرها عدد أقل من تقارير المعاملات المشبوهة (الألواح أقل من 20). ومع ذلك ، مع وجود ملايين SNPs للاختيار من بينها ، جنبًا إلى جنب مع التكنولوجيا التي يمكن أن تكوِّن بسرعة الآلاف من SNPs بالتوازي ، أصبحت SNPs الخيار المفضل لاختبار الأبوة في العديد من الأنواع الحيوانية. في حين أن معظم تعدد الأشكال حميدة ، حيث يحدث SNP في تسلسل رئيسي يحدد وظيفة الجين ، يمكن أن يكون هناك تأثير صحي ، مثل ارتفاع مخاطر الإصابة بمرض معين. بالإضافة إلى اختبار الأبوة الدقيق ، يمكن للنماذج المتعددة الأشكال (SNPs) الإبلاغ عن وراثة مخاطر الأمراض والمساعدة في الإدارة الصحية للكلاب الفردية وبرامج التربية. يوفر العدد الكبير من SNPs الموزعة في جميع أنحاء كل جينوم كلاب مورداً قيماً في تسهيل الدراسات البحثية الجارية لتحديد أجزاء جديدة من الجينوم مرتبطة بسمات معينة ، بما في ذلك المرض. تشكل لوحات SNPs المرتبطة بالسمات الأساس لمعظم الاختبارات الجينية المتاحة لأصحاب الكلاب في عام 2020.

هناك العديد من التقنيات الجزيئية التي يمكن استخدامها للحصول على نتائج الاختبار الجيني للكلاب ، بما في ذلك PCR ، والتكنولوجيا القائمة على المصفوفة ، والتسلسل المباشر للحمض النووي. يحدد اختيار التكنولوجيا المستخدمة عدد SNPs التي يمكن تحليلها لكل عينة DNA للكلاب وأيضًا عدد العينات التي يمكن معالجتها في دفعة واحدة (إنتاجية العينة).

PCR: بالنسبة للاختبارات الجينية التي يتم إجراؤها لتقييم تسلسل الحمض النووي القصير ، أو مجموعات صغيرة من التسلسلات ، يتم استخدام تفاعل البوليميراز المتسلسل بشكل شائع كوسيلة موثوقة لتضخيم أجزاء صغيرة من الحمض النووي الجيني بشكل انتقائي. على سبيل المثال ، بينما يبلغ طول الجينوم الكامل للكلب 2.4 مليار نيوكليوتيد ، فإن طول المنطقة اللازمة لتحديد النمط الوراثي لموضع اهتمام واحد قد يتطلب تحليل جزء من تسلسل الحمض النووي أقل من 100 نيوكليوتيد في الطول (أي. 0.000004٪ من الجينوم). يوفر تحليل محتوى النوكليوتيدات لكل أمبليكون النمط الجيني لـ SNP قيد التحقيق. يعتبر هذا النهج مثاليًا لتحليل SNP الفردي ، ولكنه غير مناسب للتنميط الجيني للأعداد الكبيرة من SNPs المطلوبة لاختبار الصحة الجينية.

المصفوفات الدقيقة للحمض النووي: يمكن دمج مجموعات المتغيرات الجينية المعروفة في شكل مقاطع DNA مرجعية قصيرة (50-100 نيوكليوتيد) مثبتة على خرز أو على أسطح سيليكون / زجاجية. توفر هذه المجموعات ، التي يشار إليها باسم المصفوفات الدقيقة الجينومية ، تقنية موثوقة وفعالة من حيث التكلفة لتحديد الأنماط الجينية لأعداد كبيرة من SNPs في وقت واحد. عندما يتم تطبيق الحمض النووي للكلب على المصفوفة الجينية الدقيقة ، فإن التكنولوجيا تفك شيفرة النمط الجيني الدقيق لكل أليل من أجل تعدد أشكال النيوكلوتايد. بشكل عام ، تشتمل المصفوفات الدقيقة المستخدمة في الاختبارات الجينية على مجموعة من المتغيرات المحددة جيدًا التي تساهم في و / أو تسبب المرض ، مع استكمالها بمجموعة أكبر بكثير من تعدد الأشكال المتباعدة بالتساوي في جميع أنحاء الجينوم بأكمله. يقتصر عدد المتغيرات الممثلة في المصفوفة على النظام الأساسي المستخدم فقط.

يوفر التنميط الجيني بواسطة المصفوفات الدقيقة تقنية مثالية لتقييم أعداد كبيرة من تعدد الأشكال في أعداد كبيرة من الكلاب في نفس الوقت (إنتاجية عالية). يتم تحديد محتوى المصفوفة الدقيقة للتنميط الجيني بعد إجراء البحث لتحديد تعدد الأشكال الذي يجب تضمينه. الميزة الرئيسية هي أنه نظرًا لأن المحتوى معروف ، فإن كل SNP يتم تقييمه هو نفسه لجميع عينات الحمض النووي التي يتم اختبارها. يتمثل أحد القيود في أن المصفوفات الدقيقة للتنميط الجيني يمكنها فقط الإبلاغ عن المحتوى المعروض ، وبالتالي فإن أي متغير (متغيرات) جديد يتم اكتشافه يتطلب تطوير مصفوفة ميكروأري جديدة.

التنميط الجيني بالتسلسل (GBS): التنميط الجيني بالتسلسل (GBS) ، أو التنميط الجيني المستهدف عن طريق التسلسل ، هو طريقة تستخدم لتحديد النمط الجيني للعديد من SNPs في نفس الوقت. عند استخدامه للاختبار الجيني ، يستخدم النهج عينة من الحمض النووي مع تعقيد أقل بكثير من تسلسل الجينوم الكامل. يتم تحقيق خفض تعقيد الحمض النووي من خلال عملية الإثراء الانتقائي لتسلسلات الحمض النووي القصيرة التي تحيط بـ SNPs ذات الأهمية. تخضع الأجزاء المخصبة من الجينوم بعد ذلك لتسلسل الحمض النووي المتزامن للكشف عن النمط الجيني لكل SNP في اللوحة. يتطلب تحديد الأنماط الجينية تحليل تسلسل الحمض النووي باستخدام أدوات حسابية متطورة مصممة للحصول على البيانات وتخزينها ومعالجتها على النحو الأمثل. تمتد واجهة علم الأحياء والعلوم الحاسوبية ، وتسمى هذه الأدوات بالمعلوماتية الحيوية.

تمرير منخفض تسلسل الجينوم الكامل (تمرير منخفض WGS): قدرت التكلفة النهائية لتوليد تسلسل عالي الجودة للجينوم البشري بحوالي 3 مليارات دولار. كان أحد المكونات الرئيسية لمشروع الجينوم البشري هو الاستثمار الضخم في التقنيات الجديدة التي أدت إلى انخفاض تكلفة تسلسل الحمض النووي بشكل كبير كل عام. في عام 2020 ، بينما تدعي بعض الشركات أنها قادرة على توليد تسلسل جينوم كامل بأقل من 100 دولار ، فإن هذه ليست جينومات كاملة مع كل تسلسل نيوكليوتيد محدد بدقة ، بل هي جينومات جزئية. لا يزال تسلسل الجينوم الكامل عالي التغطية (WGS) ، حيث يتم تسلسل كل نوكليوتيد بشكل مستقل 15-25 مرة على الأقل (يشار إليه بـ 15x-25x WGS) ، هو النهج المعياري الذهبي. ومع ذلك ، فإن تكلفة هذا النهج لا تزال تتجاوز 1000 دولار لكل جينوم وبالتالي فهي باهظة التكلفة للتبني الروتيني. لتحقيق بديل أكثر بأسعار معقولة ، يتم تمرير تسلسل الجينوم الكامل بتمرير منخفض (
بالإضافة إلى التمرير المنخفض الذي يوفره WGS للملايين من الأنماط الجينية لأشكال SNP بتكلفة مماثلة لمجموعة التنميط الجيني ، يتطلب هذا النهج DNA أقل بكثير مما هو مطلوب للمصفوفة الدقيقة. كما هو الحال مع جميع التقنيات الناشئة ، فإن تقييم جميع جوانب الأداء مهم لتحديد الجدوى ، وفي هذا السياق ، دقة التنميط الجيني SNP. مع اعتماد WGS للتمرير المنخفض على نطاق واسع لتطبيقات الكلاب ، فإن التكاليف المنخفضة ، ومتطلبات الحمض النووي المنخفضة ، والدقة المحسنة من خلال أدوات المعلومات الحيوية الأكثر نضجًا ، ستعزز هذا النهج للاختبار الجيني للكلاب الروتينية.

ملخص

التنميط الجيني هو أداة قوية عند تطبيقها في الاختبارات الجينية للكلاب. استخدمت الطرق التقليدية للتنميط الجيني لاختبار الأبوة تقارير المعاملات المشبوهة ، والتي يتم تحليلها على أساس حجم كل من الأليلين. يؤدي النظر في الأنماط الجينية لتقارير المعاملات المشبوهة المتعددة إلى زيادة القوة المشتركة لاستبعاد الأبوة من الكلاب بدقة تزيد عن 99٪. في حين أن هذا نهج موثوق للغاية ، إلا أنها تقنية قديمة تظل مكلفة مع إنتاجية محدودة للعينة. من المستحسن التحول نحو طريقة أقل تكلفة لتحديد الأنماط الجينية ، خاصة إذا كانت التكنولوجيا تسمح أيضًا بتحليل العديد من العينات في وقت واحد. يوفر استخدام نظام التنميط الجيني القائم على SNP مزايا رئيسية مقارنة بالطرق الحالية. تسمح SNPs بخيارات التنميط الجيني الأسرع والقابلة للتكرار مقارنةً باستخدام تقارير المعاملات المشبوهة ، مع المنصات الحالية التي تسمح بالتقييم جنبًا إلى جنب لمزيد من المتغيرات بشكل كبير. على عكس المعاملات المشبوهة ، التي عادة ما تكون محايدة ، قد تترافق النيوكلوتايد مع سمات الكلاب الموروثة المحددة ، بما في ذلك المرض. على الرغم من أن برنامج AKC DNA الحالي يركز على اختبار الوالدين ، إلا أنه يجدر النظر في فرص جديدة للاستفادة من هذه التطورات التكنولوجية. سواء كان ذلك من خلال نهج قائم على مجموعة أو نهج قائم على التسلسل ، فإن استخدام تقنية SNP لتقديم اختبار الوالدين والاختبار الصحي المشتركين هو الآن خيار عملي يجب مراعاته.


أساليب

نظرة عامة على MethylToSNP

يتنبأ MethylToSNP بموقع تعدد الأشكال التي تؤثر على بيانات صفيف مثيلة Illumina. يأخذ البرنامج بيانات صفيف مثيلة لعينات متعددة (يوصى بـ 50 عينة على الأقل) كمدخل ويولد قائمة تحتوي على مواقع جميع تعدد الأشكال المحتملة في مجموعة البيانات. بعد تحديد نمط ثلاثي المستويات ، يمكن إجراء المعالجة اللاحقة مع شرح تحقيقات و SNPs (تعتمد بشكل أساسي على قاعدة بيانات dbSNP [18]) المتوفرة في Bioconductor. على سبيل المثال ، يمكن تصفية المواقع وفقًا لموقعها داخل المسبار أو مباشرة على موقع CpG أو يمكن تصنيف المجسات على أنها تعدد الأشكال المعروفة أو التي يحتمل أن تكون جديدة. تم إنشاء MethylToSNP بلغة البرمجة R [24] كجزء من نظام R Bioconductor البيئي. يتم توضيح سير العمل النموذجي في الشكل 2 أ ، حيث قد تنشأ بيانات الإدخال من جهاز بعيد (على سبيل المثال ، GEO) أو مصدر محلي بتنسيق إشارة صفيف خام أو قيم مثيلة معالجة مسبقًا. سوف يقبل MethylToSNP إدخال المستخدم بتنسيق قيم بيتا أو ، بشكل مفضل ، بالتنسيق الذي تم إنشاؤه بواسطة حزمة BioConductor minfi. هذا الأخير مفضل لأن minfi يتضمن تنسيق البيانات رسم الخرائط الجينومية وتعليقات SNP لتحقيقات المصفوفة.

نمط من ثلاث طبقات به فجوات

To detect a position where methylation values are affected by a SNP either at the target CpG or its neighboring position [5], the methylation data has to be discretely separated by two gaps of similar width, where these gaps contribute to the majority of the total data range (Fig. 3). The algorithm clusters methylation data into three clusters, favoring clusters located farther away from each other, and optionally disregards outliers, and then evaluates the gaps between clusters.

Because clustering of beta-values is a one-dimensional problem, and the number of clusters is low, it can be solved optimally with dynamic programming ك-means implementation rather than with randomly initialized ك-means algorithm that is not guaranteed to converge to an optimum. We relied on an implementation in R package Ckmeans.1d.dp [25].

Larger clusters will naturally have higher weight than clusters only consisting of a few data points. If untreated, this problem could lead to detection of multiple clusters in highly populated data ranges (e.g., beta-values 0.7–0.9). However, in fact, we are interested in detecting large and small clusters across the whole span of beta-values. Therefore, we used weights inversely proportional to the number of samples, i.e., inverse quantile density. For quantile ( q ) and the number of samples ( N_ ) clustering weights were calculated as follows:

Additional file 1: Figure S3 illustrates the effect of inverse quantile weighting on the YRI beta-values at cg21226234 probe.

The gap between clusters can be defined as the difference in methylation levels between the bordering samples in each cluster, for instance gap between clusters ( A ) and ( B ) , where a and b are methylation values of bordering samples, such that ( forall a in A > forall b in B ) :

After gaps are identified, a subsequent method is used to assess the size of the data-free gaps at each methylation site using two adjustable cutoffs: the ( < ext>]_< ext>\_< ext> ) value and the ( < ext>\_< ext> ) value. The ( < ext>\_< ext>\_< ext> ) approach evaluates the total gap size by summing the size of the gaps and testing whether it represents a majority of the β-value range. By contrast, the ( < ext>\_< ext> ) approach compares sizes among the two largest gap regions and tests whether their relative sizes are roughly equivalent. To pass this threshold, the size of the smaller gap must be at least a certain percentage of the larger gap. For example, if the ( < ext>\_< ext> ) is set to 0.75, and the larger gap spans 0.3 β-value, the smaller gap must span at least 0.225 β-القيمة. For the algorithm to identify possible SNP locations, thresholds for both the ( < ext>\_< ext>\_< ext> ) and the ( < ext>\_< ext> ) must be met. This method allows for variability in the methylation values, while still covering a majority of the whitespace, caused by compression of the β-value range away from upper or lower boundaries of 1.0 and 0, respectively. Additionally, we benefit by avoiding use of a fixed cutoff to separate methylation values into levels, such as thirds or quadrants. As shown in Fig. 3b, it is typically impossible to define fixed cutoffs that would work for all probes.

Considering the two gaps between three clusters ( < ext>, < ext>, < ext> ) —“high”, “mid” and “low”: ( d_<<< ext> - < ext>>> ) and ( d_<<< ext> - < ext>>> ) , the threshold parameters ( < ext>\_< ext> ) and ( < ext>\_< ext>\_< ext> ) for the algorithm are defined as:

where the denominator is the total range of beta-values across all three clusters.

Calibrating default MethylToSNP parameters

First, two simulated data sets were created to test the ability of MethylToSNP to identify SNP-associated methylation patterns when different proportions of samples (i.e., data points) were present at each tier level. The datasets included 95 samples each, to mimic the size of the southern African data set, and circa 10,000 probe loci. In both data sets, half of the probes corresponded to non-SNPs that were drawn from the actual southern African data. The second half of the probes represented SNPs and were generated in a different way depending on the set: in the “set-frequency” dataset unequal distribution of methylation values across the tiers was generated, corresponding to low minor allele frequency (MAF) scenario, whereas in the “uniform-frequency” dataset the methylation values were distributed equally across the tiers, simulating the high MAF scenario, characteristic for common SNPs. The procedure is described in more detail in Additional file 1, along with the set frequencies and the code to reproduce the data. We used these simulated datasets to calibrate the default values of MethylToSNP parameters: the ( < ext>\_< ext>\_< ext> ) and the ( < ext>\_< ext> ) . To choose the defaults ( ( < ext>\_< ext>\_< ext> = 0.50 ) , ( < ext>\_< ext> = 0.75 ) ), the parameters were altered in 0.05 increments (see Additional file 1: Figure S1). With these parameter thresholds, the benchmark returned 97% true positive rate on “set-frequency” dataset. The uniformly simulated data set returned 100% true positive rate. In all cases there were no false positives.

However, the simulated SNP probes had a clear separation between the tiers of methylation values, thus making it difficult to assess the performance in case of presence of noise or other confounding factors.

Therefore, we created a second benchmark to assess false negative rates using the 59 control SNP probes placed by array designers on the Illumina EPIC arrays. Also to demonstrate the use of the approach on the Illumina EPIC we tested 152 pediatric samples from GEO GSE137682 dataset, where MethylToSNP with default parameters identified 41 out of 59 positions for 27% false negative rate (Additional file 1: Figure S2). However, we note that 18 control SNPs were A > G transitions or located further away than 2 bp from the CG position on the array, which we would not intend to find with our first pass approach. The remaining C > T and T > C (14 and 15, respectively) and G > A (12 total) were correctly identified.

The benchmark figures (Additional file 1: Figure S2A, B) showed that the ( < ext>_< ext> ) value can be lowered from 0.75 to 0.50 to retrieve more hits. However, the major hindrance to detection of gap patterns is the presence of noise or otherwise confounded measurements with methylation values between the tiers. In order to make the method insensitive to such measurements we implemented an outlier detection option ( < ext>_< ext> ) that is the measurement of the allowed within-cluster variance (in standard deviations). For instance, a sample with beta-value ( eta ) is an outlier in the cluster ( < ext> ) with the cluster center ( mu_< ext> ) and variance ( sigma_< ext>^ <2>) if the following threshold is not satisfied:

In case when the outlier filtering option is enabled, any beta-value that belongs to a cluster but does not match the threshold would be excluded from the calculation of gaps between clusters. An additional benchmark run with outlier filtering enabled (Additional file 1: Figure S2D, E) showed that this option completely rescued retrieval, with zero false negatives, even in complicated cases.

We encourage users to use our benchmarks as a guidance for changing the default parameter values. Alternatively, users can recalibrate the thresholds using their own predefined control probes, for instance known SNPs, or simulated datasets.

Size of the dataset required for the analysis

The algorithm relies on identification of three clusters, therefore the absolute minimum number of samples required for the analysis is three. However, the SNP patterns may only be detectable with larger datasets, particularly for the rare alleles. While the low MAF SNPs will set the upper detection boundary, we wanted to calibrate the lower boundary, i.e., the minimal recommended number of samples for the analysis based on common SNPs with MAF close to 0.50. We used the false negative detection rate of SNP control probes for the 152 pediatric samples from GEO GSE137682 dataset as a benchmark (Additional file 1: Figure S2C). The plot shows how many true SNP probes are retrieved in case of subsampling without replacement from 5 to 150 data points out of 152, with a step of 5, with 30 replicates. The saturation is reached at about 50 samples (i.e., data points). Removal of outliers improves the overall retrieval however, it does not affect the lowest boundary on the number of samples required to find the three-tier methylation pattern (Additional file 1: Figure S2F). Based on this benchmark we, therefore, recommend that the size of the datasets analyzed with MethylToSNP should not be smaller than 50 samples. The program will run with 3 or more samples but will print a warning message if supplied data is insufficient for reliable detection of SNPs.

SNP-reliability score and thresholds

MethylToSNP quantitatively assesses how close the observed methylation pattern resembles the expected meC > T SNP by providing a reliability score. In general, the majority of sites that MethylToSNP identifies are meC > T SNPs, or neighboring sites affecting the probe. In these cases, C is the major allele and is consistently methylated. When replaced by a T allele, a false signal of differential methylation appears. By contrast, an unmethylated C major allele will give the same methylation value as a T allele. The reliability score ( R ) represents a weighted measure based on the appearance of the data points for a given probe in the three β-value tiers, defined as “high” (> 0.75), “low” (< 0.25) and “middle” (between 0.25 and 0.75), with number of samples in each tier represented as ( N_< ext> , N_< ext> , N_< ext> ) , respectively:

If methylation values are falling in fewer than three tiers the reliability score of 0 is assigned.

We apply this stringent scoring approach to refine our datasets to those spanning the largest beta-value range, i.e., at the target CpG or the second position, as these locations have the greatest potential to impact the ص values calculated for differential methylation between comparison groups.

To assess the reliability threshold necessary for calling SNP positions affecting the methylation interpretation, we calculated the scores for the simulated benchmark with two generated datasets (see Additional file 1). For the dataset with predetermined ratios of data points at each tier (which includes SNPs with low MAF) the mean reliability score was 0.568, whereas for SNPs with uniform distribution of methylation across tiers (corresponding to high MAF) mean reliability was 0.501 (Table 7). We assigned the threshold of 0.50 to reliability scores, with approximately 75% of all examples in the more realistic set-frequency dataset passing the threshold. When the data points are distributed mainly between the top two levels, this approach creates a theoretical reliability score of 0.75, whereas 0.50 is the expected value when all samples are evenly distributed across all three levels. Therefore, a higher reliability score represents a greater likelihood of the target site harboring an uncharacterized C to T SNP, consistent with a low-frequency T polymorphism being present and a higher concentration of samples falling within the top two tiers.

YRI HapMap dataset

We next tested MethylToSNP on data from YRI HapMap samples, some of which have both methylation and genotype data available. Methylation data were downloaded from Gene Expression Omnibus (GEO) project GSE26133 [16] for 77 samples and corresponding genotype data for available samples were found in the 1000 Genomes Browser (https://www.ncbi.nlm.nih.gov/variation/tools/1000genomes) [26]. One caveat with the browser data is that there were not genotype data at some methylation sites of interest for the samples which appeared polymorphic. For targeted sequencing, DNA samples were ordered from the Coriell depository and Sanger sequenced. The same samples were also subjected to targeted bisulfite sequencing to verify the methylation levels observed from the Illumina 450K methylation chip analysis.

CEU HapMap dataset

Another group of well-studied samples, from individuals that likely have a very different epigenetic profile and genetic and life history from the individuals who contributed to the YRI (i.e., Yoruba in Ibadan, Nigeria) datasets, the CEU HapMap dataset, includes data from 90 Utah residents with Northern and Western European ancestry. Illumina 27K methylation data from the CEU sample set (from GEO project GSE27146 [17]) were subjected to MethylToSNP analysis.

Southern African data analysis

To test MethylToSNP on primary samples, we used an in-house methylation dataset acquired from whole blood collected from peoples ethno-linguistically self-identifying as either KhoeSan or Bantu of Namibia, as in [27]. Few genomic data exist for these populations less than ten genomes have been fully sequenced to date [21]. These populations harbor the greatest amount of genomic diversity, specifically the earliest diverged human lineage represented by people of KhoeSan ancestry [21], and population-specific SNPs are recorded in dbSNP. Nevertheless, many unidentified SNPs in this group may affect the interpretation of methylation studies—and MethylToSNP may detect them. Also, previously identified polymorphisms may not be present in the samples used in this study. The sample set contained 95 samples, 40 were KhoeSan, 51 were non-KhoeSan or Bantu-speaking southern Africans, and six were geographically matched Namibians of European descent, with two of the European controls run in duplicate for comparison. All samples were run on the Illumina 450K methylation chip (manuscript in preparation). The KhoeSan and control data were used to find sites that were differentially methylated between these two groups. This data set is broken down into three subsets for analysis: (i) all quality controlled methylation data from the chip (473,767 sites), (ii) all sites that are differentially methylated between the KhoeSan group and control group based on Mann–Whitney يو tests (ص ≤ 0.05) with Bonferroni test correction (ف ≤ 0.05 12,631 sites), (iii) the top 5% of differential methylation sites, ranked by largest magnitude of absolute difference, which are also statistically significant with Mann–Whitney يو tests (ص ≤ 0.05) and Bonferroni test correction (ف ≤ 0.05), where known SNP positions are removed (400 sites).

Regions of particular interest: CTCF sites and enhancers elements

We took an in-depth look at enhancer and CTCF sites implicated in differential methylation, where potential novel SNP content could confound methylation analysis. For example, a finding of differential methylation in a CTCF site could inhibit CTCF binding [28], as demonstrated at imprint control regions, such as IGF2 و H19, where allele-specific methylation [29] inhibits binding. A SNP could also inhibit CTCF binding and present as differential methylation, impeding correct biological interpretation. Using the southern African dataset, we investigated how many differential methylation sites address these alternatives. The CTCF site locations were downloaded from the University of California, Santa Cruz Genome Browser [22, 30]. Likewise, sites of differential methylation that overlap known enhancer regions were intersected with our data to determine whether enhancer function could be impacted by the presence of SNPs or differential methylation. Enhancer site locations were downloaded with the Illumina 450K array annotation file and were originally compiled by Illumina from ENCODE projects. In order to maintain consistency of annotations in CTCF site analysis, we also downloaded a 450K array dataset (GEO GSE39672) for YRI and CEU HapMap samples.


شاهد الفيديو: 44. دورة دوت نيت كور - تعدد الأشكال Polymorphism (شهر فبراير 2023).