معلومة

31.3: هيكل دراسة eQTL - علم الأحياء

31.3: هيكل دراسة eQTL - علم الأحياء


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

يتمثل النهج الأساسي وراء دراسة eQTL في النظر إلى تعبير كل جين على أنه سمة كمية متعددة العوامل والتراجع في المكونات الرئيسية التي تفسر التباين في التعبير. تتراجع مستويات التعبير لكل جين على الطرز الجينية ، وتتحكم في الضوضاء البيولوجية والتقنية ، مثل ذلك

[Y_ {i} = alpha + X_ {i} beta + epsilon_ {i} nonumber ]

أين Yأنا هو التعبير الجيني للجين i ، Xأنا هو متجه يحتوي على التركيب الأليلي لكل SNP المرتبط بالجين (ويمكن أن يأخذ القيم 0 ، 1 ، أو 2 مع إعطاء أليل مرجعي) ، ( alpha ) و ( beta ) هي متجهات عمود تحتوي على معاملات الانحدار ، و ( epsilon_ {i} ) هو الخطأ المتبقي (انظر الشكل 31.5) [9]. من حيث المفهوم ، هذه الدراسة بسيطة للغاية. من الناحية العملية ، هناك المئات من عوامل الإرباك المحتملة والشكوك الإحصائية التي يجب أخذها في الاعتبار في كل خطوة من العملية. ومع ذلك ، يمكن استخدام نفس نموذج الانحدار لحساب هذه المتغيرات المشتركة.

يحتوي الشكل 31.9 على مثال لدراسة eQTL أجريت على الربو. النتيجة الرئيسية من الدراسة هي النموذج الخطي في أعلى اليمين: يمكننا أن نرى أن النمط الجيني يميل أكثر نحو المتغير "أ" ، ينخفض ​​التعبير الجيني المستهدف.

اعتبارات لبيانات التعبير

القياس الكمي للتعبير الجيني محفوف بالتحديات التجريبية. لمزيد من المناقشة التفصيلية لهذه القضايا ، انظر الفصل 14. أحد الاعتبارات الهامة لهذا النوع من تحليل التعبير هو SNP- تأثير تحت المجسt: تسلسل المسبار الذي يرسم للمناطق ذات المتغيرات الشائعة يقدم نتائج غير متسقة بسبب تأثير التباين داخل المسبار نفسه على ديناميكيات الربط. وبالتالي ، فإن تكرار التجارب مع مجموعات متعددة من المجسات ستنتج نتيجة أكثر موثوقية. يجب أيضًا استبعاد تحليل التعبير بشكل عام جينات التدبير المنزلي، والتي لا يتم تنظيمها بشكل تفاضلي عبر أفراد من السكان و / أو أنواع الخلايا ، لأن هذه لن تؤدي إلا إلى إضعاف القوة الإحصائية للدراسة.

اعتبارات للبيانات الجينومية

هناك نوعان من الاعتبارات الرئيسية لتحليل البيانات الجينومية: تردد الأليل الصغير ونصف قطر البحث. ال نطاق البحث يحدد عمومية التأثير الذي يتم النظر فيه: يتوافق نصف قطر البحث اللانهائي مع مسح الجينوم الكامل cis و trans-eQTL ، بينما يقصر نصف القطر الأصغر التحليل على cis-eQTLs. ال تردد أليل طفيف يحدد (MAF) القطع الذي لا يتم بموجبه اعتبار موقع SNP: إنه محدد رئيسي للقوة الإحصائية للدراسة. يؤدي قطع MAF الأعلى عمومًا إلى قوة إحصائية أعلى ، لكن MAF ونصف قطر البحث يتفاعلان بطرق غير خطية لتحديد عدد الأليلات المهمة المكتشفة (انظر الشكل 31.6).

تعديل متغير

هناك العديد من عوامل الإرباك الإحصائية المحتملة في دراسة eQTL ، البيولوجية والتقنية. يمكن أن تؤثر العديد من العوامل البيولوجية على التعبير المرصود لأي مرنا معين في الفرد ؛ يتفاقم هذا بسبب استحالة التحكم في ظروف الاختبار لعينات السكان الكبيرة اللازمة لتحقيق الأهمية. يعتبر التقسيم الطبقي للسكان والاختلافات الجينية بين المجموعات العرقية من العوامل الإضافية المساهمة. التباين الإحصائي موجود أيضًا على الجانب الفني. حتى العينات التي تعمل على نفس الجهاز في أوقات مختلفة تظهر مجموعات مختلفة بشكل ملحوظ لنتائج التعبير. (الشكل 31.7).

استخدم الباحثون بنجاح تقنية تحليل المكون الرئيسي (PCA) لفصل تأثيرات هذه الإرباكات. يمكن أن ينتج PCA محاور إحداثيات جديدة يكون على طولها بيانات التعبير الجيني المرتبطة بـ SNP أعلى تباين ، وبالتالي عزل المصادر غير المرغوب فيها للتباين الثابت (انظر الفصل 20.4 للحصول على وصف مفصل لتحليل المكونات الرئيسية). بعد استخراج المكونات الرئيسية لبيانات التعبير الجيني ، يمكننا توسيع نموذج الانحدار الخطي لحساب هذه الإرباكات وإنتاج انحدار أكثر دقة.

التعليمات

س: لماذا تعد PCA أداة إحصائية مناسبة لاستخدامها في هذا الإعداد ولماذا نحتاج إليها؟

ج: لسوء الحظ ، تحتوي بياناتنا الأولية على العديد من التحيزات والعوامل الخارجية التي ستجعل من الصعب استنتاج eQTLs الجيدة. ومع ذلك ، يمكننا التفكير في هذه التحيزات على أنها تأثيرات مستقلة على مجموعات البيانات التي تخلق تباينًا مصطنعًا في مستويات التعبير التي نراها ، مما يربك العوامل التي تؤدي إلى التباين الفعلي. باستخدام PCA ، يمكننا تحليل وتحديد هذه الفروق في مكوناتها الرئيسية ، وتصفيتها بشكل مناسب. أيضًا ، نظرًا للطبيعة المعقدة للسمات التي يتم تحليلها ، يمكن أن تساعد PCA في تقليل أبعاد البيانات وبالتالي تسهيل التحليل الحسابي.

التعليمات

س: كيف نقرر عدد المكونات الرئيسية التي يجب استخدامها؟

ج: هذه مشكلة صعبة. يتمثل أحد الحلول الممكنة في تجربة عدد مختلف من المكونات الرئيسية وفحص eQTLs التي تم العثور عليها بعد ذلك - وهذا الرقم بالذات للاختبارات المستقبلية من خلال معرفة ما إذا كانت eQTLs الناتجة قابلة للتطبيق. لاحظ أنه سيكون من الصعب "تحسين" معلمات مختلفة لدراسة eQTL لأن كل مجموعة بيانات ستحتوي على العدد الأمثل من المكونات الرئيسية ، وأفضل قيمة لـ MAF ، إلخ ...

نقاط للنظر فيها

فيما يلي بعض النقاط التي يجب مراعاتها عند إجراء دراسة eQTL.

  • قد لا تكون الإستراتيجية المثلى لاكتشاف eQTL في مجموعة بيانات محددة من بين جميع الطرق المختلفة لإجراء إجراءات التطبيع ، وتصفية الجينات غير المحددة ، واختيار نصف قطر البحث ، وقطع تردد أليل ثانوية قابلة للتحويل إلى دراسة eQTL أخرى. يتغلب العديد من العلماء على هذا باستخدام الضبط الجشع لهذه المعلمات ، وتشغيل دراسة eQTL بشكل متكرر حتى يتم العثور على أقصى عدد من eQTLs المهمة.
  • من المهم ملاحظة أن دراسات eQTL لا تجد سوى الارتباط بين العلامات الجينية وأنماط التعبير الجيني ، ولا تشير إلى السببية.
  • عند إجراء دراسة eQTL ، لاحظ أن معظم eQTLs تم العثور عليها ضمن عدد قليل من كيلو بايت من الجين المنظم.
  • تاريخيًا ، وُجد أن معظم دراسات eQTL قابلة للتكرار بحوالي 30-40٪ ، وهذا من بقايا كيفية تنظيم مجموعة البيانات واستراتيجيات التطبيع والتصفية المختلفة التي يستخدمها الباحثون المعنيون. ومع ذلك ، فإن eQTLs الموجودة في مجموعتين أو أكثر تتبع بثبات تأثير تعبير مماثل داخل كل مجموعة.
  • العديد من eQTLs خاصة بالأنسجة ؛ أي أن تأثيرها في التعبير الجيني يمكن أن يحدث في نسيج واحد ولكن ليس في آخر ، والتفسير المحتمل لهذا هو التنظيم المشترك لجين واحد بواسطة eQTLs المتعددة التي تعتمد على جين واحد يحتوي على أليلات متعددة.

تأثير الخلط والأصل على تحليل eQTL وتوحيد GWAS في GTEx

خلفية: قد يؤدي التركيب السكاني بين الأشخاص الخاضعين للدراسة إلى إرباك دراسات الارتباط الجيني ، وقد يؤدي الافتقار إلى التصحيح المناسب إلى نتائج زائفة. يحتوي مشروع Genotype-Tissue Expression (GTEx) إلى حد كبير على أفراد من أصل أوروبي ، لكن إصدار v8 يشمل أيضًا ما يصل إلى 15٪ من الأفراد من أصل غير أوروبي. يُحسِّن تقييم التعديلات القائمة على النسب في GTEx من إمكانية نقل هذا البحث عبر المجموعات السكانية ويميز أيضًا تأثير التركيبة السكانية على تحديد مواقع GWAS.

نتائج: هنا ، نحدد مجموعة فرعية من 117 فردًا في GTEx (v8) بدرجة عالية من الاختلاط السكاني ونقدر السلالة المحلية على مستوى الجينوم. نقوم بإجراء رسم خرائط على مستوى الجينوم باستخدام عينات مختلطة في سبعة أنسجة ، تم تعديلها حسب السلالة العالمية أو المحلية. تمشيا مع العمل السابق ، نلاحظ تحسن القوة مع تعديل السلالة المحلية. في الموقع حيث ينتج التعديلين متغيرات مختلفة من الرصاص ، نلاحظ 31 موقعًا (0.02٪) حيث يتم استدعاء كولوكلونيشن كبير فقط باستخدام طريقة واحدة لتعديل أصل eQTL. والجدير بالذكر أن كلا التعديلين ينتجان أعدادًا متشابهة من عمليات التوحيد الكبيرة داخل كل من طريقتين مختلفتين لتكوين البُعد ، وهما COLOC و FINEMAP. أخيرًا ، نحدد مجموعة فرعية صغيرة من المتغيرات المرتبطة بـ eQTL المرتبطة ارتباطًا وثيقًا بالأصول المحلية ، مما يوفر موردًا لتعزيز المتابعة الوظيفية.

الاستنتاجات: نحن نقدم خريطة سلالة محلية للأفراد المختلطين في إصدار GTEx v8 ووصف تأثير السلالة والخلط على التعبير الجيني و eQTLs و GWAS. في حين أن غالبية النتائج متوافقة بين التعديلات المحلية والعالمية القائمة على النسب ، فإننا نحدد مزايا وعيوب مميزة لكل نهج.

الكلمات الدالة: اختلاط كولوكاتيزيون GTEx التعبير الجيني أصل محلي بنية السكان eQTL.


تكشف التحليلات التكميلية المستندة إلى eQTL عن بيولوجيا مواقع خطر الإصابة بسرطان الثدي

نادرًا ما يتم دراسة محددات الخط الجرثومي للتعبير الجيني في الأورام بسبب تعقيد تنظيم النسخ الناجم عن التعديلات المكتسبة جسديًا. أجرينا تحليلات تستند إلى موضع السمات الكمية للتعبير (eQTL) باستخدام المعلومات متعددة المستويات المتوفرة في أطلس جينوم السرطان (TCGA). من بين العوامل التي قمنا بقياسها ، شكلت eQTLs المؤثرة في رابطة الدول المستقلة 1.2 ٪ من التباين الكلي للتعبير الجيني للورم ، بينما يمثل تغيير رقم النسخ الجسدي ومثيلة CpG 7.3 ٪ و 3.3 ٪ على التوالي. أدت تحليلات eQTL لـ 15 موقعًا لخطر الإصابة بسرطان الثدي تم الإبلاغ عنها سابقًا إلى اكتشاف ثلاثة متغيرات مرتبطة بشكل كبير بمستويات النسخ (معدل الاكتشاف الخاطئ [FDR] & lt 0.1). حدد تحليلنا العابر ثلاثة مواقع مخاطر إضافية للعمل من خلال ESR1 و MYC و KLF4. توفر هذه النتائج صورة أكثر شمولاً لمحددات التعبير الجيني في سرطان الثدي بالإضافة إلى رؤى ثاقبة في البيولوجيا الأساسية لمواقع خطر الإصابة بسرطان الثدي.

حقوق النشر © 2013 Elsevier Inc. جميع الحقوق محفوظة.

الأرقام

تأثيرات ثلاثة محددات على ...

تأثيرات ثلاثة محددات على التعبير الجيني في سرطان الثدي الإيجابي ER: رابطة الدول المستقلة -التمثيل…

رسم تخطيطي للفرضية التي ...

رسم تخطيطي لفرضية أن خطر الأليلات هي رابطة الدول المستقلة -EQTLs لعوامل النسخ ...

اختلال التوازن الأليلي (AI) لـ ...

اختلال التوازن الأليلي (AI) من ESR1 , MYC ، و KLF4 عوامل النسخ…

يوضح التقاط التشكل الكروموسوم (3C) ...

يوضح التقاط التشكل الكروموسوم (3C) التفاعلات الفيزيائية بين موضع الخطر 6q25 و ...


نتائج

يشمل GTEx خليط السكان الأفريقي والآسيوي

يتضمن إصدار GTEx v8 تسلسل الجينوم الكامل وبيانات التعبير الجيني لـ 838 فردًا ، من بينهم 103 أمريكيًا من أصل أفريقي و 12 فردًا أمريكيًا آسيويًا (أسلاف تم الإبلاغ عنها ذاتيًا). تعكس المكونات الرئيسية القائمة على النمط الجيني على مستوى الجينوم (gPCs) GA وقد تم استخدامها لضبط البنية السكانية في كل من دراسات GWAS [6 ، 9 ، 13] و eQTL [7]. لذلك ، لفهم درجة الاختلاط السكاني الممثلة في GTEx ، قمنا بمقارنة أول اثنين من gPCs مع سلف تم الإبلاغ عنه ذاتيًا (الشكل 1 أ). يوضح الشكل 1 أ أن gPC1 و gPC2 يعكسان أصلًا أفريقيًا وآسيويًا ، على التوالي ، يتجمع غالبية الأمريكيين الأوروبيين (698 من أصل 715 فردًا) معًا بالقرب من الأصل ، مما يشير إلى أن العينات في هذه المجموعة متجانسة نسبيًا من أصل أوروبي. يتم ملاحظة هذه الأنماط بدقة أدق عند إجراء النمط الجيني PCA باستخدام بيانات GTEx و 1000 جينوم مدمجة [19] (ملف إضافي 1 ، الشكل S1). تم الاحتفاظ بمجموعة فرعية من 117 فردًا مع أكثر من 10 ٪ من خليط السكان ، والمشار إليها باسم 117AX ، لتحليلات المصب (الشكل 1 أ ، ملف إضافي 2 ، الجدول S1).

خليط السكان في مجموعة GTEx v8. أ تعكس المكونات الجينية الرئيسية (gPCs) أصلًا عالميًا. يتم تلوين النقاط حسب الأصل المبلغ عنه ذاتيًا. تشير النقاط المحاطة بدائرة إلى 117 فردًا تم تعريفهم على أنهم مختلطون (117AX). ب مجموعة فرعية من أنسجة GTEx v8 لها حجم عينة 117AX لا يقل عن 30. الأنسجة السبعة المختارة رابطة الدول المستقلةيتم تلوين خرائط eQTL في 117AX بخط غامق. ج تنهار مسارات LA المتغيرات المتتالية على كروموسوم أبوي واحد مع نفس تخصيص الأصل في كتل النمط الفرداني المتجاورة. الدقة المكانية الدقيقة للأصل المحلي تتناقض مع نسب النسب العالمية المشار إليها في الأسطورة. يتم إقران الأنماط المفردة (الأعمدة) بواسطة صفوف فردية عبارة عن كروموسومات جسمية. يتم فرز الأفراد من اليسار إلى اليمين عن طريق تقليل نسب الخليط الأوروبي. د ترتبط gPCs ارتباطًا وثيقًا بنسب السلالة العالمية التي تم حساب متوسطها من السلالة المحلية على مستوى الجينوم. ه يشرح السلالة المحلية (أو العالمية) جزءًا صغيرًا من التباين في التعبير الجيني المتبقي بعد تصحيح السلالة العالمية (أو المحلية). يتم تعريف السلالة المحلية على أنها السلالة المحلية في موقع بدء النسخ لكل جين أصل عالمي هو أول خمسة جي بي سي. يتم تلوين النقاط حسب ألوان الأنسجة ب. Subc. ، NSE تحت الجلد ، وليس VE المعرض للشمس ، أوضح التباين LA ، أصل محلي GA ، أصل عالمي

الأنسجة الـ 49 المستخدمة لاكتشاف QTL في إصدار GTEx v8 لها تمثيل متفاوت قدره 117AX. سبعة وعشرون من هذه الأنسجة لها حجم عينة لا يقل عن 30 فردًا مخلوطًا (الشكل 1 ب). يتم توفير أحجام العينات لجميع الأنسجة 49 في الشكل S2 (ملف إضافي 1). تمتلك الغدة النخامية و 13 من أنسجة الجهاز العصبي المركزي أقل تمثيل قدره 117AX مقارنة بأحجام العينة الإجمالية لكل نسيج (يعني 7٪). اخترنا سبعة مناديل لأداء رابطة الدول المستقلة- استدعاء eQTL استنادًا إلى حجم عينة مختلط بحد أدنى 60 [20] ومدى ملاءمته للأنماط الظاهرية ذات الاختلافات السكانية المعروفة (على سبيل المثال ، الدهون تحت الجلد وتوزيع الدهون في الجسم [21 ، 22] ، ن = 84 جلد غير معرض للشمس (NSE) وتعبير جيني للبشرة [23] ، ن = 71 انتشار الرئة والربو [24] ، ن = 64 عضلة هيكلية وكتلة عضلية هزيلة [25] ، ن = 98). دم كامل (ن = 95) وشريان قصبة الساق (ن = 89) لأن لديهم أحجام عينة كبيرة 117AX.

باستخدام RFMix [26] ، أجرينا تقدير LA ثلاثي السكان (الأوروبي والأفريقي وشرق آسيا) على 117AX (انظر قسم "الطرق" الشكل 1 ج ، الملف الإضافي 1 ، الشكل S3). نحن نقدم مكالمات LA هذه كمورد لمزيد من التحقيق في بيانات GTEx (ملف إضافي 3 ، الجدول S2). لكل فرد ، تم حساب متوسط ​​LA على مستوى الجينوم لتوفير تقديرات GA. تحتوي كل عينة في 117AX على أقل من 90٪ GA من أي مجموعة سلالة واحدة خارج أوروبا وإفريقيا وشرق آسيا. لقد ربطنا نسب GA هذه بأول خمسة gPCs ، مما يدل من الناحية الكمية على العلاقات القوية بين gPC1 والأصل الأفريقي (ص = - 0.98) و gPC2 وأصول شرق آسيا (ص = 1.0 الشكل. 1 د).

من أجل تقييم أهمية LA في سياق التعبير الجيني ، قمنا بتكييف نهج حالي [27] لحساب نسبة التباين الموضحة في التعبير الجيني 117AX بواسطة LA بعد حساب GA والعكس بالعكس (راجع قسم "الطرق" الشكل 1 هـ ، ملف إضافي 4 ، الجدول S3). في المتوسط ​​، عبر الجينات الموجودة في أنسجتنا السبعة التي تهمنا ، تشرح GA تباينًا في التعبير الجيني أكثر من LA في موقع بدء النسخ لكل جين (ص القيمة & lt 2.2e − 16 ، على الوجهين ر اختبار). ومع ذلك ، تشرح LA ما لا يقل عن 7 ٪ من التباين في التعبير المتبقي لـ 1 ٪ من الجينات المعبر عنها (م = 1159). في أقصى الحدود ، تشرح لوس أنجلوس 32 ٪ من التباين في التعبير المتبقي لـ عضو عائلة المجال TBC1 3 (TBC1D3)، وهو أحد الجينات الورمية الخاصة بأشباه البشر [28] ، في الرئة ، يفسر LA أيضًا تباينًا أكبر بشكل ملحوظ في TBC1D3 التعبير عن GA في جميع الأنسجة السبعة التي تم اختبارها (ص القيمة = 0.0018 ، على الوجهين ر اختبار). في دراسة منفصلة لرقم النسخة ، TBC1D3 كان من بين أكثر المتغيرات (الوسيط 38.13 ، التباين 93.2 نسخة بين 159 فردًا) والطبقات السكانية (متوسط ​​29.28 ، 34.17 ، و 43.86 أرقام النسخ في العينات الأوروبية والآسيوية واليوروبية ، على التوالي) عائلات الجينات البشرية [29]. تدعم هذه الأدلة البيولوجية للتباين المتبقي في التعبير الجيني الذي تم التقاطه بواسطة LA أهمية اعتبار LA في سياق رسم خرائط eQTL.

يزيد تعديل السلالة المحلية من قوة الاكتشاف في رابطة الدول المستقلة-رسم الخرائط eQTL

أدينا رابطة الدول المستقلة-رسم خرائط eQTL في المجتمع المختلط (117AX) لتحديد الارتباطات بين المتغيرات والتعبير الجيني داخل كل من الأنسجة السبعة الموضحة في الشكل 1 ب (انظر قسم "الطرق" ، الملف الإضافي 5 ، الجدول S4). قمنا بتنفيذ نماذج خطية لاختبار الارتباط بين كل جينرابطة الدول المستقلةزوج متغير. لكل زوج ، تم إجراء اختبارين للارتباط: الأول لضبط السلالة العالمية (GlobalAA) والثاني للتكيف مع السلالة المحلية (LocalAA). الأهم من ذلك ، حساب LocalAA لعدد الأليلات الأوروبية والأفريقية وشرق آسيا لكل متغير بينما تستخدم GlobalAA المكونات الرئيسية الخمسة الأولى للنمط الجيني كبديل للأصل العالمي ، وتنفيذ نفس تعديل الأصل المستخدم في خط أنابيب استدعاء GTEx eQTL.

مؤامرة الكمي من الاسمي ص توضح القيم (-log10) لجميع اختبارات الارتباط في GlobalAA و LocalAA أن LocalAA لها أهمية أكبر ص القيم (ممثلة بأعلى الكميات) بالنسبة إلى GlobalAA لستة من الأنسجة السبعة ، مع إظهار جلد NSE أكثر تشابهًا ص توزيعات القيمة بين الطريقتين (الشكل 2 أ). هذا يؤكد النتائج السابقة التي تفيد بأن تعديل LA يؤدي إلى اسمية أكثر أهمية ص القيم من تعديل GA في سياق رابطة الدول المستقلةتخطيط eQTL [10].

مقارنة رابطة الدول المستقلة-eQTLs تم استدعاؤها بواسطة LocalAA أو GlobalAA. رابطة الدول المستقلةتم إجراء رسم خرائط eQTL في سبعة أنسجة. اسمي ص تم تطبيق عتبة القيمة 1e − 6 لتحديد الارتباطات المهمة. أ مؤامرة Q-Q الاسمية ص تشير قيم جميع الاختبارات إلى تحسن متواضع في الطاقة في معظم الأنسجة عند استخدام LocalAA. ب يحدد LocalAA عددًا أكبر من eGenes مقارنة بـ GlobalAA في جميع الأنسجة السبعة (ص القيمة = 0.0078 ، الاحتمال ذي الحدين). ج يتم تحديد غالبية eGenes من خلال كل من طرق تعديل النسب (رمادي + بنفسجي). تشير الطريقتان إلى متغيرات إلكترونية مختلفة لجزء صغير من هذه eGenes (أرجواني). تشير الأرقام إلى eGenes التي تم استدعاؤها بشكل فريد من خلال إحدى طرق تعديل النسب ، والتي تم رسمها في د. د تقع غالبية eGenes الفريدة لطريقة تعديل أصل واحد بالقرب من عتبة الأهمية ، كما هو موضح في مخطط السجادة. تحدد الخطوط المنقطة المنطقة التي يكون خارجها eGenes بطريقة واحدة اسمية ص قيمة اثنين على الأقل من حيث الحجم أكثر أهمية من الطريقة البديلة. يتم تلوين النقاط بواسطة الأنسجة

قمنا بتطبيق اسمي ص القيمة الفاصلة للقيمة 1e − 6 لتحديد eQTLs المهمة ، تقترب هذه العتبة عن كثب من الحد الأدنى المطلوب لـ eQTL لتمرير معدل اكتشاف خاطئ بنسبة 5٪ (ملف إضافي 1 ، الشكل S4). يتم استدعاء المزيد من eGenes باستخدام LocalAA مقارنة بـ GlobalAA في جميع الأنسجة السبعة (ص القيمة = 0.0078 ، الاحتمال ذي الحدين) (الشكل 2 ب). تتداخل غالبية eGenes بين الطريقتين ، حيث تحتوي مجموعة فرعية منها على متغيرات إلكترونية مختلفة مرتبطة بالرصاص بين LocalAA و GlobalAA (الشكل 2 ج). قدمت هذه المجموعة الفرعية من eGenes فرصة لتوصيف الاختلافات في المتغيرات الإلكترونية الرئيسية التي تم تحديدها بين طريقتين لتعديل النسب وكانت محور تحليلات المصب.

تعتبر eGenes فريدة من نوعها لطريقة تعديل النسب إذا وصل الارتباط إلى أهمية فقط بهذه الطريقة (الاسمية ص قطع بقيمة 1e − 6 1055 مثيلًا إجماليًا عبر الأنسجة لـ 988 جينًا فريدًا). غالبية (65 ٪) من eGenes الفريدة لطريقة واحدة تتكرر في ص قيمة ضمن ترتيب واحد من حيث الحجم للطريقة الأخرى (الشكل 2 د). ومع ذلك ، فإن 44 من هذه eGenes تتكرر فقط في الطريقة الأخرى عند a ص قيمة أكثر من أمرين من حيث الحجم أقل أهمية (14 و 30 eGenes فريد من نوعه لـ LocalAA و GlobalAA ، على التوالي). عشرون من هذه الـ 44 eGenes موجودة في الجلد NSE ولا يوجد أي منها في الشريان الظنبوبي. ومن المثير للاهتمام ، أنه بالنسبة لـ 29 من هذه الـ 44 eGenes ، على الرغم من الاختلاف الكبير في الأهمية الإحصائية ، فإن المتغيرات الرئيسية بين طريقتي التعديل متطابقة.

تسفر تعديلات السلالة المختلفة لـ eQTL عن اختلافات طفيفة في تحديد موقع GWAS

تقيم تحليلات تحديد الموقع درجة مشاركة إشارات الارتباط المستقلة ، بما في ذلك إشارات eQTL و GWAS ، في نفس المتغير السببي. أجرينا عملية التوحيد باستخدام طريقتين مختلفتين: COLOC [30] و FINEMAP [31]. تقدر COLOC الاحتمال اللاحق بأن متغير واحد يؤثر على كلتا السمتين (PP4). تقدر FINEMAP الاحتمال اللاحق للسببية لخاصية واحدة لجميع المتغيرات في المنطقة كما هو موصوف سابقًا ، ويمكن استخدام هذه الاحتمالات لاشتقاق الاحتمال اللاحق للتركيز اللاحق (CLPP) لاثنين من إشارات الارتباط المستقلة [32] (انظر قسم "الطرق"). الأهم من ذلك ، أن FINEMAP تفسر بشكل صريح اختلال التوازن (LD) في حين أن COLOC لا تعتبر ذات صلة خاصة بالنظر إلى الأصل المختلط لفوج eQTL.

اخترنا 142 جيجاوات لأداء تحديد المواقع باستخدام eQTLs الخاصة بنا. في السابق ، تم استخدام 114 من هذه GWAS لأداء تحديد الموقع مع جميع GTEx v8 eQTLs [33]. تم اختيار GWAS في الأصل لتشمل تمثيلًا واسعًا لفئات السمات المختلفة وبعض التكرار بين GWAS من البنك الحيوي في المملكة المتحدة (UKB) واتحادات أخرى. قمنا بتضمين 28 GWAS متعددة الأعراق إضافية من دراسة PAGE لزيادة تمثيل الأتراب المختلطة في تحليلاتنا الخاصة بالتلوين [34]. يتوفر مزيد من المعلومات حول كل GWAS في الجدول S5 (ملف إضافي 6).

أجرينا التحويل بين مجموعاتنا الأربعة عشر من إحصائيات ملخص eQTL (واحدة لكل طريقة تعديل سلالة لكل سبعة أنسجة) و 142 GWAS. هنا ، نحدد الموضع كزوج من سمات الجين و GWAS في نسيج معين. بالنسبة إلى موضع واحد ، يتم إجراء اختبارين لتوحيد التنسيق مع كل طريقة من طرق تحديد الموقع: اختبار واحد بين GWAS وكل مجموعة من إحصائيات ملخص eQTL (LocalAA أو GlobalAA). لذلك ، هناك ما يصل إلى أربع درجات كولوكليشن (COLOC PP4 أو FINEMAP CLPP) لموضع واحد. بالنسبة لتحليلات التوحيد مع COLOC ، قمنا بتقييد المواقع المختبرة إلى مجموعة فرعية من eGenes مع متغيرات إلكترونية رئيسية مختلفة بين LocalAA و GlobalAA في اسمي مريح ص عتبة القيمة (الشكل 3 أ). أجرينا لاحقًا تحليلات تحديد المواقع باستخدام FINEMAP لمجموعة فرعية من المواقع ذات تنسيق كولوك واحد على الأقل (الشكل 3 ب). نحدد الدليل على التوحيد في موضع مثل PP4 & gt 0.5 أو CLPP & gt 0.01 لـ COLOC و FINEMAP ، على التوالي.

تأثير طرق تعديل النسب الخاصة بـ eQTL على التوحيد مع GWAS. أ, ب لقد أجرينا عملية تحديد المواقع لمجموعة فرعية من المواقع حيث يطلق LocalAA و GlobalAA على eQTLs مع متغيرات إلكترونية رئيسية مختلفة (اسمية ص عتبة القيمة 1e − 4). تمثل كل نقطة اختبار تحديد موقع GWAS / eQTL بالقرب من eGene واحد (ملون بواسطة نسيج eQTL). ال x- و ذ- المحاور على التوالي تُظهر الاحتمالات اللاحقة لتوحيد المحاور باستخدام إشارات GlobalAA أو LocalAA eQTL. تتوافق نفس النقاط البالغ عددها 31 التي تم إبرازها في كلتا المخططين مع المواضع حيث يتم تحديد موقع إشارة eQTL المعدلة من قبل أحد الأسلاف ولكن الأخرى لم يتم تحديدها ، مع نتائج متطابقة بين طريقتين لتوحيد الموقع. أ تم إجراء عملية تحديد المواقع الملونة باستخدام COLOC لجميع المواقع حيث أطلق LocalAA و GlobalAA على eQTLs مع متغيرات إلكترونية رئيسية مختلفة (الاسمية ص عتبة القيمة 1e − 4). تم استخدام عتبة احتمالية لاحقة لتكوين الصلات (PP4) تبلغ 0.5 لتحديد أحداث التلوين مع COLOC. ب بالنسبة للمجموعة الفرعية من المواقع التي أبلغت COLOC عن تكوّنها (أي ، النقاط الملونة في أ) ، تم أيضًا إجراء عملية تحديد المواقع باستخدام FINEMAP. يتم عرض الاحتمالات اللاحق لتحديد موقع التلوين (CLPPs) على مقياس log10. تم استخدام عتبة CLPP البالغة 0.01 لتحديد أحداث التلوين باستخدام FINEMAP. ج يتم توفير الاحتمالات اللاحقة لتكوين التنسيق في 31 موقعًا مميزًا في أ و ب. تشير القيم الأكبر إلى تآزر أقوى. يشار إلى أنسجة eQTL المرتبطة بدوائر ملونة وعلامات تجزئة أسفل x-محور. SR ، DBD المبلغ عنه ذاتيًا ، تم تشخيصه من قبل الطبيب ن، عدد

بينما تم اختبار تحديد موقع GWAS فقط في المواقع التي أسفرت فيها طريقتا تعديل السلالة eQTL عن متغيرات مختلفة للرصاص الإلكتروني ، فإن احتمالات التوحيد لا تختلف بشكل منهجي بين الطريقتين (ص القيمة = 0.791 و ص القيمة = 0.324 لـ COLOC و FINEMAP ، على الوجهين على التوالي ر اختبار). علاوة على ذلك ، فإن المواقع التي تحتوي على دليل قوي على التوحيد (COLOC PP4 & gt 0.5 أو FINEMAP CLPP & gt 0.01) لها احتمالات لاحقة عالية بالمثل من تحديد الموقع بغض النظر عن طريقة التصحيح ، مما يشير إلى أن التأثيرات القوية يتم التقاطها من خلال تعديلات السلالة.

من بين 174388 موقعًا تم اختبارها من أجل التوحيد ، فإن 793 موقعًا (& lt 0.5٪) لديها ما لا يقل عن تحديد موقع واحد تم الإبلاغ عنه بواسطة إما COLOC أو FINEMAP. فقط 159 من هذه المواقع لديها واحد على الأقل من التوحيد المتوافق الذي تم الإبلاغ عنه بواسطة على حد سواء COLOC و FINEMAP (على سبيل المثال ، تشير كلتا الطريقتين إلى تحديد موقع محلي لـ LocalAA أو GlobalAA أو كليهما). بالنسبة لمجموعة فرعية من 31 موقعًا ، تم تحديد موقع إشارة eQTL المعدلة من قبل أحد الأسلاف ولكن الأخرى لم تفعل ذلك ، مع نتائج متطابقة بين طريقتين الترابط. يُظهر اثنان وعشرون و 9 مواقع تواجدًا أقوى مع GlobalAA و LocalAA ، على التوالي (النقاط المميزة ، الشكل 3 أ ، ب الشكل 3 ج ، ملف إضافي 1 ، الشكل S5). ومن المثير للاهتمام ، أن جميع المواقع الـ 31 تتوافق مع GWAS في مجموعات أوروبية في المقام الأول ، بغض النظر عما إذا كان الترابط أقوى مع GlobalAA أو LocalAA.

ترتبط ستة من المواقع ذات عمليات التجميع الأقوى لـ GlobalAA بنفس eGene ، AP003108.2 في الشريان الظنبوبي. ترتبط GWAS الستة ذات التنسيق المشترك بثلاثة أنواع من السمات: الربو (الربو الذي تم الإبلاغ عنه ذاتيًا من قبل UKB الذي تم تشخيصه من قبل الطبيب عن طريق تشخيص الربو) ، وعدد خلايا الدم الحمراء (Astle وآخرون. عدد خلايا الدم الحمراء Astle وآخرون. عدد الخلايا الشبكية) والأحماض الدهنية (GLGC الدهون الثلاثية MAGNETIC CH2: نسبة الرابطة المزدوجة في الأحماض الدهنية المنتشرة). على الرغم من هذا القولون المتكرر ، لا الجين غير المعلق AP003108.2 ولا eVariant الرائدة GlobalAA ، rs492751 ، أبلغت عن ارتباطات في كتالوج GWAS [35]. لاحظنا أيضًا أن rs492751 له ترددات أليل متغيرة للغاية بين 1000 مجموعة سكانية فائقة جينوم (ترددات أليل بديلة تبلغ 0.02 و 0 و 0.76 في سكان أوروبا وشرق آسيا وأفريقيا ، على التوالي). هذا يشير إلى أن هذه التصاقات الأقوى مع الشريان الظنبوبي GlobalAA AP003108.2 في الواقع ، قد تكون إشارة eQTL مدفوعة بارتباطات زائفة مرتبكة من أصل محلي. وتجدر الإشارة إلى أن تحديد موقع أقوى مع تعديل أصل واحد لـ eQTL ليس مرادفًا لإشارات eQTL الأكثر دقة التي يمكن أن تؤدي إلى اكتشافات خاطئة.

يتوافق موقعان مع تضامن أقوى من LocalAA مع MYO3A في العصب الظنبوبي. السمات المرتبطة بها هي تعداد الحمضات وارتفاع تعداد الخلايا الشبكية المبعثرة للضوء (Astle et al.). MYO3A تم الإبلاغ سابقًا عن ارتباطات مع إنترلوكين -6 وإفراز الكورتيزول ومحيط الخصر المعدل بمؤشر كتلة الجسم [35] في دراسات أخرى ، تم ربط تعداد الحمضات وخصائص خلايا الدم الحمراء بالسمنة أو مؤشر كتلة الجسم [36 ، 37] ، والسمنة هي المرتبطة باستجابة التهابية [38 ، 39]. لذلك ، هناك تضامن حقيقي بين العصب الظنبوبي MYO3A eQTL والسمات المتعلقة بخصائص خلايا الدم الحمراء وخلايا الدم البيضاء غير الناضجة أمر مقبول. يوفر هذا المكان مثالاً على المكان الذي قد يتفوق فيه LocalAA على GlobalAA من حيث التقاط إشارات eQTL الحقيقية. ومع ذلك ، فإننا ندرك أن الاختلافات في احتمالات التلقيح تكون أصغر عندما يكون لـ LocalAA تلاقح أقوى مقارنةً بالوقت الذي تتمتع فيه GlobalAA بتوحيد محلي أقوى. بشكل عام ، قد يقلل LocalAA من الارتباطات الخاطئة أكثر مما يكتشف ارتباطات حقيقية غير محددة أيضًا مع GlobalAA. بشكل عام ، نلاحظ أنه لا LocalAA ولا GlobalAA يؤديان أداءً أفضل بشكل ملحوظ في سياق التوليف ، بغض النظر عن أصل GWAS أو طريقة تحديد الموقع.

ترتبط مجموعة فرعية من GTEx v8 eVariants ارتباطًا وثيقًا بالأصول المحلية

أحد المبررات لأداء LocalAA على عكس GlobalAA هو القدرة الفريدة على تجنب الخلط من خلال هيكل السكان المحليين [15]. قمنا بفحص جميع الارتباطات المهمة التي تم الإبلاغ عنها بواسطة خط أنابيب استدعاء GTEx v8 eQTL الشامل للحصول على دليل على الخلط مع LA. لاحظ أنه تم توسيع هذا التحليل ليشمل مجموعة GTEx v8 الكاملة ، وليس فقط المجموعة الفرعية المختلطة المشاركة في التحليلات السابقة. لكل متغير من نوع GTEx eVariant في مجموعة جميع الارتباطات المهمة عبر 49 نسيجًا ، وجدنا التباين في التركيب الوراثي الذي أوضحه LA (عدد الأليلات الأفريقية وشرق آسيا في الموقع) عبر جميع الأفراد المصنفين وراثيًا البالغ عددهم 838 فردًا (انظر قسم "الطرق") . لا ترتبط الغالبية العظمى من متغيرات GTEx eVariants ارتباطًا وثيقًا بالتحديد الوراثي عند النظر في إجمالي عدد السكان الموروثين من 838 فردًا (الشكل 4 أ).

العلاقة بين التركيب الوراثي والأصل المحلي في GTEx v8 eVariants. بالنسبة لجميع المتغيرات الإلكترونية التي تم الإبلاغ عنها بواسطة خط أنابيب استدعاء GTEx v8 eQTL الإجمالي ، قمنا بحساب الارتباط بين الأنماط الجينية والأصل المحلي باستخدام مجموعة GTEx v8 الكاملة. أ لا يتم الخلط بين غالبية متغيرات GTEx v8 eVariants من قبل السلالة المحلية عندما يتم النظر في جميع الأفراد البالغ عددهم 838 شخصًا. ب يفسر الأصل المحلي أكثر من 70 ٪ من التباين في الأنماط الجينية لمجموعة فرعية من GTEx v8 eVariants. على عكس أ, ب يأخذ بعين الاعتبار فقط الأفراد ذوي النمط الجيني المتطابق وبيانات التعبير الجيني لكل نسيج ، مما يعكس العينة المستخدمة لاستدعاء هذه الارتباطات المهمة. يتم تصنيف eQTLs مع الاحتمالات اللاحقة لتوحيد GWAS بنسبة 0.5 على الأقل (COLOC PP4 & gt 0.5) بسمة eGene و GWAS

ومع ذلك ، غالبًا ما تكون أحجام عينة النسخ داخل كل نسيج من أنسجة GTEx v8 eQTL أقل من حجم العينة الكامل (يعني 310 الانحراف المعياري 171). لذلك ، يمكن أن تختلف درجة الخلط بين النمط الجيني للمتغير و LA في سياق رسم خرائط eQTL بين الأنسجة. إلى هذه النقطة ، يوفر الشكل 4 ب التباين في التركيب الوراثي الذي أوضحه LA لمتغيرات GTEx eVariants عندما يتم تضمين الموضوعات ذات النمط الوراثي المتطابق وبيانات التعبير فقط في الانحدار. على عكس الشكل 4 أ ، يحتوي المتغير الإلكتروني على العديد من نقاط البيانات مثل الأنسجة التي تم الإبلاغ عنها في ارتباط مهم. تم أيضًا شرح عشرين متغيرًا من نوع GTEx v8 eGenes لها احتمالية تضافر تركيز أكبر من 0.5 ، كما أفاد Barbeira et al. ، [33]. والجدير بالذكر أن 19 متغيرًا إلكترونيًا فريدًا لها نسب تباين أوضحها LA أكبر من 0.9 (ملف إضافي 7 ، الجدول S6). هذه المتغيرات لها اختلافات كبيرة في ترددات الأليل المرجعي بين 1000 جينوم. على سبيل المثال ، يحتوي أحد هذه المتغيرات ، chr1_1170732_A_G_b38 ، على ترددات أليل مرجعية تبلغ 0.993 و 0.996 و 0.124 في سكان أوروبا وشرق آسيا وأفريقيا ، على التوالي. يتم توفير قائمة شاملة للجمعيات المهمة 2556 GTEx v8 حيث تشرح LA أكثر من 70 ٪ من التباين في النمط الجيني eVariant في الجدول S7 (ملف إضافي 8). نتوقع أن تستفيد عمليات المتابعة الوظيفية لعمليات تحديد مواقع eQTL / GWAS من الإحالة المرجعية مع هذه البيانات.


بناء هيكل تمهيدي ثلاثي الأبعاد فيروس بيتاريتروفيروس Simian betaretrovirus النمط المصلي -2 (SRV-2) إنزيم النسخ العكسي المعزول من الأندونيسي Cynomolgus Monkey

فيروس بيتاريتروفيروس Simian betaretrovirus النمط المصلي 2 (SRV-2) هو عامل ممرض مهم في قرود المكاك الآسيوية. إنه متغير محتمل محتمل في البحوث الطبية الحيوية. SRV-2 also provides a valuable viral model compared to other retroviruses which can be used for understanding many aspects of retroviral-host interactions and immunosuppression, infection mechanism, retroviral structure, antiretroviral and vaccine development. In this study, we isolated the gene encoding reverse transcriptase enzyme (RT) of SRV-2 that infected Indonesian cynomolgus monkey (Mf ET1006) and predicted the three dimensional structure model using the iterative threading assembly refinement (I-TASSER) computational programme. This SRV-2 RT Mf ET1006 consisted of 547 amino acids at nucleotide position 3284-4925 of whole genome SRV-2. The polymerase active site located in the finger/palm subdomain characterised by three conserved catalytic aspartates (Asp90, Asp165, Asp166), and has a highly conserved YمDD motif as Tyr163, Met164, Asp165 and Asp166. We estimated that this SRV-2 RT Mf ET1006 structure has the accuracy of template modelling score (TM-score 0.90 ± 0.06) and root mean square deviation (RMSD) 4.7 ± 3.1Å, indicating that this model can be trusted and the accuracy can be seen from the appearance of protein folding in tertiary structure. The superpositionings between SRV-2 RT Mf ET1006 and Human Immunodeficiency Virus-1 (HIV-1) RT were performed to predict the structural in details and to optimise the best fits for illustrations. This SRV-2 RT Mf ET1006 structure model has the highest homology to HIV-1 RT (2B6A.pdb) with estimated accuracy at TM-score 0.911, RMSD 1.85 Å, and coverage of 0.953. This preliminary study of SRV-2 RT Mf ET1006 structure modelling is intriguing and provide some information to explore the molecular characteristic and biochemical mechanism of this enzyme.

الكلمات الدالة: 3D Structure Model Reverse Transcriptase SRV-2 Indonesian Isolates.

© Penerbit Universiti Sains Malaysia, 2020.

الأرقام

PCR amplification to SRV-2 RT…

PCR amplification to SRV-2 RT gene isolated from Indonesian cynomolgus monkeys (SRV-2 RT…

Phylogenetic tree of SRV-2 RT…

Phylogenetic tree of SRV-2 RT Mf ET1006 amino acids sequences relatedness to others…

Amino acid sequences alignment and…

Amino acid sequences alignment and secondary structural motifs prediction of the SRV-2 RT…

(A) Three-dimensional structure model of…

(A) Three-dimensional structure model of the full-length SRV-2 RT Mf ET1006. The models…

Ribbon diagram of the SRV-2…

Ribbon diagram of the SRV-2 RT Mf ET1006 bound to a stick model…

Interaction of amino acids that…

Interaction of amino acids that play roles in polymerase site active of SRV-2…


مناقشة

In this article, we have tested several methods to reverse-engineer eQTL networks from synthetic expression and genotype data [5]–[7]. The merit of our approach resides in combining existing machine learning algorithms in committees. Since the predictions of the other challenge participants are not public, we cannot directly compare the precision-recall curves of our approaches to their results. However, the filtered committee we submitted to the DREAM5 competition achieved higher AUPR than any other competing method in the challenge. After the release of the DREAM5 gold standard networks, we continued working in this direction by testing other committees using the DREAM5 framework and identified methods that achieve much higher AUPR than the DREAM best performer at the cost of only slightly lower AUROC values.

When the amount of training data is limited (as is the case in eQTL mapping), many models can explain the data equally well. In machine learning this is well known as the “small ن، كبير ص problem”: the number of samples is small compared to the number of parameters and thus, the system is underdetermined [27]. A model using all available parameters is likely to overfit the data, leading to a large variance in the predictions sensitive to small variations of the training data. On the other hand, using too few parameters will lead to high bias. Ensemble methods are widely used in machine learning, because they enable the simultaneous reduction of variance and bias, even when the size of the training data is small [27], [28]. In fact, the Random Forests method is itself a committee. Random Forests learns an ensemble of decision trees by varying the learning data, yielding stable models (low variance) with a minimized bias [11]. Consistent with the known superior performance of ensemble methods, we have previously shown that RF outperforms other eQTL mapping methods [8]. Here, we combined RF and other modeling techniques into committees, a type of ensemble [13]. We observed that these committee methods almost always performed better than their constituent methods ( Figure 4 ).

We evaluated the committees composed of all possible pairs of the four single variable selection methods (RF.sf, RF.pi, ElNet and LASSO). In order to assess if committees were beneficial, we compared their performance to the performance of their constituent methods. For each combination of method pairs, we calculated the ratio of the AUPR and AUROC of the constituent methods over the AUPR and AUROC of the committee. We used this ratio to compute the gain of AUROC (A) and AUPR (B) obtained by the committees over the constituent methods and averaged this over the 15 networks of the DREAM challenge. Error bars represent the standard deviation. This figure shows that the committees are almost always more predictive than the constituent methods.

When groups developing algorithms are also the ones validating them, the benchmark data and the assessment metrics can be biased (knowingly or not) in favor of the proposed algorithm [29]. A key aspect of the DREAM challenges is that the ‘ground truth’ data is obscured from the participants [29], resulting in a more objective assessment than most computational methods papers can provide. This makes the DREAM challenges a valuable tool for the computational biology community. Our approach had already proven its value within the context of the DREAM challenge itself (before the evaluation data was released). Here, we extended the analysis of committee methods and tested additional combinations of the learners in order to better understand the factors that explain the performance of our approach. This analysis revealed that Random Forests alone – which in itself is a committee method – performed almost as well as the combined approach that we chose for the challenge. Combining just two out of the four methods that we included in our initial committee (RF.sf+LASSO) yielded top performance. The role of LASSO may be to ameliorate the problem of linkage disequilibrium, i.e. given a linked region, LASSO identifies the marker within the region that is most likely associated with the expression of the target gene. LASSO could therefore be used for 𠆏ine mapping’ the causal locus.

The evaluation of the performance of the methods competing in the DREAM5 challenge relies on the AUROC and AUPR. The Receiver Operator Characteristic (ROC) curve shows how the fraction of correctly classified positive instances (True Positive Rate, TPR) varies with the fraction of incorrectly classified negative instances (False Positive Rate, FPR) [20], [21]. It has been argued that ROC curves are not reliable when there is a large skew in the class distribution under this condition they strongly over-estimate an algorithm’s performance [30], [31]. In the case of gene-regulatory network reconstruction or eQTL mapping, the number of negative instances greatly exceeds the number of positive instances i.e. the number of true interactions is only a small portion of the potential interaction space. This implies that large differences in the number of false positives (i.e. the number of incorrectly predicted interactions) may only slightly affect the FPR and therefore lead to small changes in the AUROC. In contrast to this, precision, which drives the AUPR, compares the number of false positives (incorrectly predicted interactions) to the number of true positives (correctly predicted interactions) and is thus more sensitive against small changes of the number of false positives when the number of true negatives (non-interacting pairs of genes) is large. Precision-recall curves are therefore considered as an alternative to ROC curves when the class distribution is skewed [21].

We showed that our approaches yield a much higher AUPR at the cost of a slightly lower AUROC than the other competing methods of the DREAM challenge. We argue here that in the case of eQTL mapping, the AUPR may better assess the performance of the competing methods, in the way that it penalizes the detection of false positive edges among the top scoring edges more heavily than the AUROC score. Indeed, in practice the prediction of a regulatory relationship is only the first step of the analysis. The predicted relationships can be used as a basis to study a biological process, or be validated in a follow-up experiment, or (more commonly) be integrated with other data to make biological inferences. Depending on the down-stream analysis, erroneous prediction of an interaction may be much more expensive than missing an interaction.

Data simulations are a well-established means to test new approaches for data analysis and compare them to state of the art methods in the field. However, the more complex the data to be analyzed, the more difficult it is to mimic these data with simulations. While the DREAM5 SYSGEN A data were designed to simulate the complex regulatory relationships between genetic loci and gene expression, there are several considerations missing from the data-generating model. Epistatic interactions between loci (non-additive effects) greatly complicate the structure of eQTL networks [32], [33]. The model underlying the DREAM5 SYSGEN A data includes multiplicative effects of the regulators on gene expression. However, true epistatic effects may also include other types of interactions, for example an XOR relationship between two loci. Additionally, in practice, methods have to be able to cope with missing data (in the genotyping as well as in the phenotyping of the RILs). Further, the ratio of strains being tested versus the number of markers is often lower than in the DREAM5 challenge, thus creating additional statistical complications [34]–[37]. Finally, by equating eQTL and gene loci (i.e. there are no intergenic regions in the simulated data), the DREAM challenge avoids the problem of finding the true causal polymorphism and relating it to the genomic feature driving the eQTL. This is arguably the most difficult part of any eQTL study and is vital for any biomedically beneficial result of the analysis. We believe that while the DREAM5 challenge is a good first step in developing methods to discover gene-regulatory networks from systems genetics data, there are some clear steps that could be taken to make the simulated data more closely mirror the characteristics of real-world data. It would be of interest to assess the performance of the kinds of methods we have described here on future community shared benchmarks that better reflect the complexity of eQTL mapping and also to integrate real data into the evaluation procedure [8].


4. مناقشة

We introduced a novel method—GeD—that integrates genotype, expression and progeny data, providing an analytical framework for the determination of gene regulation programs. In an eQTL association clique, vertices representing a locus' genotype are fully connected with vertices that represent progeny strains. Such a structure refers to the case that loci have the same genotype when restricted to these progeny strains. Analogously, vertices that represent genes are fully connected with vertices representing progeny strains, indicating that the corresponding progeny strains share the same gene expression patterns. As such, eQTL association cliques allow the determination of associations of loci, progeny strains and genes in a simple way. In addition, the number of progeny strains supports the linkage between loci and genes in the same association clique, which can help to detect eQTLs.

In this article we focused on the application of the eQTL association cliques to enhance eQTL discovery. However, eQTL association cliques have the potential to answer other questions as well. For example, loci that are not in linkage disequilibrium and co-occur in a highly supported clique might indicate functionally important co-segregation. Note that while loci that are in the same clique and are genomic neighbors are likely to be in linkage disequilibrium. However, the opposite case is not necessarily true. This observation should be useful in elucidating non-random properties of linkage disequilibrium. Additionally, eQTL association cliques may help the identification of loci and genes that are related in a certain phenotype. If the phenotype of progeny strains in an association clique is different from remaining progeny strains, the loci and genes in the corresponding association clique are the prime candidates that affect the phenotype in question.

Using eQTL association cliques might also help to uncover multiple locus linkage. For example, consider loci لي و لص and gene زأنا, and four eQTL association cliques, where لي0 و لص0 appear with زiu in one clique, لي0 و لص1 appear with زid in another clique, لي1 و لص1 appear with زiu in the third clique and لي1 و لص0 appear with زid in the last clique. It is unlikely that لي أو لص وترتبط مع زأنا individually because the genotype 0/1 of لي is associated with both up- and down-regulated expression of زأنا. The same rational holds for locus لص. But since the joint genotype 00 and 11 of لي و لص is associated with up−regulation of زأنا's expression, and joint genotype 01 and 10 of لي و لص is associated with down-regulation of زأنا's expression, the two loci can have a significant epistatic interaction effect on زأنا. By restricting our attention on loci in the same association clique, we can select a small set of triplets (لي, لص, زأنا), which fit the above scenario, by simply counting association cliques. Testing the selected triples for epistatic effects reduces the number of statistical tests, ا(|إل| 2 |جي|), required by an exhaustive search, where إل is the locus set and جي is the gene set.

In our method, we modeled underlying data using certain choices. First, discretizing expression data, a gene was considered differentially regulated if its expression level was at least one standard deviation away from its mean expression. This choice was dictated by its relative simplicity and applicability of that method to the data where differences in the expression levels are not expected to be very large. Other methods of discretizing expression data will be considered in the future improvement of the method. Next, we chose to look at maximal cliques rather than other densely, yet not completely, connected subgraphs, allowing us to avoid the introduction of additional �nsity’ parameter. Furthermore, such an approach also allowed us to easily generate such clique-structures utilizing the efficient bipartite clique enumeration method (Farach-Colton and Huang, 2008). While bipartite cliques can potentially be replaced with bi-clusters, the best heuristic for the identification of such overlapping bi-clusters remains to be found. We conclude that our choices might potentially influence our ability to detect potential eQTLs. However, we made our choices as simple as possible and highlight the usability of our novel method.

We applied GeD to progeny data of المتصورة المنجلية and found that eQTL association cliques have very different structures and distributions compared to random association cliques. Using eQTL association cliques to select a small set of locus–gene pairs, we corroborated previously identified eQTLs, and significantly increased their number, including new eQTL hotspots. Preliminary analysis of the possible functional relevance of these new eQTL hotspots showed that some harbor important antigen genes while others include target genes involved in drug and parasite-host interactions. Compared to previous results, we conclude that GeD bolsters traditional eQTL analysis methods and provides new opportunities for the discovery of critical biological functions in المتصورة المنجلية. Approximately 25% of eQTLs in the two eQTL sets identified by GeD and Gonzales وآخرون. (Gonzales وآخرون., 2008) overlap, a difference that can be caused by several factors. First, Gonzales وآخرون. applied an interval mapping method based on a complex Bayesian model for QTL detection (Sen and Churchill, 2001). Assuming each marker is the potential eQTL location, we in turn applied a two-sided تي-test to determine linkage between markers and gene expression. To a certain extent, GeD may lose some information and consequently detection sensitivity due to the discretization of gene expression values and focus on relatively large eQTL association cliques. In contrast, the GWAS used by Gonzales وآخرون. is likely to miss more subtle associations detected by our method because only the most significant eQTLs can pass multiple testing correction performed for all possible locus–gene pairs.

Our current implementation of GeD is designed for the analysis of the large data set of المتصورة المنجلية. However, the number of eQTL association cliques can increase exponentially with the number of loci and genes in the worst case. Therefore, the scalability of GeD to larger eQTL data sets containing thousands or even millions of loci remains to be tested. Specifically, in human studies where we have to deal with huge amount of expression and genomic data we expect strongly increasing computational costs, prompting the development of further heuristics and improved computational techniques that will allow us to tackle more challenging GWAS problems.


Brain Transcriptome

Ashutosh K. Pandey , Robert W. Williams , in International Review of Neurobiology , 2014

8 RNA-seq for Allele-Specific Expression

A remarkable feature of RNA-seq is its ability to assay genomewide ASE using isogenic F1 hybrids ( Bell et al., 2013 Korir & Seoighe, 2014 McManus et al., 2010 Rozowsky et al., 2011 Skelly et al., 2011 ) made by crossing inbred parents. RNA-seq can reliably distinguish mRNA representing the alternative alleles and can be used to detect unequal production of alleles. An advantage of using F1 animal for ASE analysis is that the two alleles in these animals share all environmental and trans-acting influences. As a result, any genetic expression differences in heterozygotes must be attributed to the local allele-specific endogenous effect.

8.1 Key factors in design of genomewide ASE

A key factor to consider for measuring رابطة الدول المستقلة-eQTLs on a genomic scale is the presence of appropriate coding variants—usually SNPs—to assay allelic imbalance. Another factor is the sequencing depth needed to detect differences with good statistical power. Fontanillas and colleagues showed that the read depth required to detect an allelic imbalance depends on the size of difference in the allelic expression ( Fontanillas et al., 2010 ). They determined that 50 reads per SNP is enough to provide 60% statistical power for larger than twofold differences in expression. Small allelic expression differences of less than 1.25 fold will require more than 500 reads to reach the same power.

ASE can be used to identify imprinted genes by comparing ratios of expression in reciprocal F1 crosses. The reciprocal F1 females are genetically identical but the polarity of parents differ (e.g., B mother to D father, or D mother to B father). An initial RNA-seq study of this type reported an implausibly high number of imprinted genes in the CNS ( Griffith et al., 2010 ). Correct modeling of biological and technical variation brought this estimate down to less than 100 genes ( DeVeale, van der Kooy, & Babak, 2012 ). Several other factors can contribute to error in estimating ASE. Allelic bias in read mapping to a single reference genome has already been discussed. Other mapping artifacts can also produce false positives include using nonunique reads (reads that can be mapped to multiple locations) and reads that map to low-complexity genomic regions. PCR amplification bias during library preparation can also cause false-positive allelic imbalances.

8.2 Advantages and disadvantages of ASE

An advantage of using ASE-based approach to identify رابطة الدول المستقلة-eQTLs on a genomic scale is that it requires relatively few samples. Additionally, it does not depend on arbitrary window cut-off as used in eQTL mapping. A disadvantage of ASE analysis over eQTL mapping is its complete inability to locate عبر-eQTLs. Babak and colleagues compared array-based eQTL mapping with RNA-seq ASE to detect رابطة الدول المستقلة-eQTLs ( Babak et al., 2010 ). They found an extensive agreement between رابطة الدول المستقلة-eQTL results. For genes showing discrepancies between methods, RNA-seq more frequently matched subsequent validation using conventional qRT-PCR protocols.


معلومات الكاتب

الانتماءات

Center for Data Sciences, Brigham and Women’s Hospital, Boston, MA, 02115, USA

Emma E. Davenport, Tiffany Amariuta, Maria Gutierrez-Arcelus, Kamil Slowikowski, Harm-Jan Westra, Yang Luo & Soumya Raychaudhuri

Divisions of Genetics and Rheumatology, Department of Medicine, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA, 02115, USA

Emma E. Davenport, Tiffany Amariuta, Maria Gutierrez-Arcelus, Kamil Slowikowski, Harm-Jan Westra, Yang Luo & Soumya Raychaudhuri

Partners Center for Personalized Genetic Medicine, Boston, MA, 02115, USA

Emma E. Davenport, Tiffany Amariuta, Maria Gutierrez-Arcelus, Kamil Slowikowski, Harm-Jan Westra, Yang Luo & Soumya Raychaudhuri

Program in Medical and Population Genetics, Broad Institute of MIT and Harvard, Cambridge, MA, 02142, USA

Emma E. Davenport, Tiffany Amariuta, Maria Gutierrez-Arcelus, Kamil Slowikowski, Harm-Jan Westra, Yang Luo & Soumya Raychaudhuri

Department of Biomedical Informatics, Harvard Medical School, Boston, MA, 02115, USA

Tiffany Amariuta, Kamil Slowikowski & Soumya Raychaudhuri

Department of Cell Biology, Harvard Medical School, Boston, MA, 02115, USA

Division of Rheumatology, Allergy, Immunology, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA, 02115, USA

Pfizer Inc., Cambridge, MA, 02139, USA

Ying Zhang, David von Schack, Jean S. Beebe, Nan Bing, Michael S. Vincent & Baohong Zhang

Pfizer New Haven Clinical Research Unit, New Haven, CT, 06511, USA

Biogen, Cambridge, MA, 02142, USA

Faculty of Medical and Human Sciences, University of Manchester, M13 9PL, Manchester, UK

Harvard New Research Building, 77 Avenue Louis Pasteur, Suite 250D, Boston, MA, 02446, USA

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

مساهمات

The project was conceived and designed by EED, MSV, BZ, and SR. Statistical analysis was conducted by EED, TA, MG-A, KS, H-JW, YL, and CS. Molecular data was obtained, organized and analyzed by YZ, SP, DvS, JSB, NB, MSV, BZ, and DAR. The initial manuscript was written by EED and SR. All authors edited and approved the manuscript.

المؤلف المراسل


Molecular analysis of population structure and antibiotic resistance of Klebsiella isolates from a three-year surveillance program in Florence hospitals, Italy

We report the results of a three-year surveillance program of Klebsiella spp. in six hospitals in Florence (Italy). A total of 172 Klebsiella isolates were identified and typed by AFLP: 122 were K. pneumoniae and 50 were K. oxytoca. Most K. pneumoniae (80%) and K. oxytoca (93%) showed unrelated AFLP profiles. Beside this heterogeneous population structure, we found five small epidemic clonal groups of K. pneumoniae. Four of these groups were involved in outbreak events, three of which occurred in neonatal ICUs. The fifth clonal group spread in three different wards of two hospitals. Only one non-epidemic clonal group of K. oxytoca was detected. The frequencies of isolates with multiple antibiotic resistances increased with time at the end of the study period, most K. pneumoniae were resistant to all the antibiotics tested. A PCR analysis of seven ertapenem resistant isolates was unable to detect any of the major genes known to underlie carbapenem resistance in K. pneumoniae.


شاهد الفيديو: التخصص الخلوي التمايز. الأحياء. علم الأحياء ونمو الكائنات (شهر نوفمبر 2022).