معلومة

تعريف Cis-eqtl

تعريف Cis-eqtl


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لدي سؤال بسيط ، هل تستخدم cis-eQTLs SNPs التي تقع في نطاق 1 ميجا بايت من TSS للجين على نفس الكروموسوم؟


نوع من.

ما تصفه هو cis-eQTL ، لكن المسافة الدقيقة (1 ميجابايت في كل اتجاه ، إجمالي 1 ميجابايت ، ...) وتعريف موقع الجين (TSS ، حدود النص ، ...) تعتمد على من يحسب cis-eQTLs و ليست عالمية. جزء "رابطة الدول المستقلة" يعني فقط أن SNP قريب بطريقة ما من الجين ، ولا يوجد حد محدد للمسافة.


تحليل eQTL

تتم دراسة التباين الجيني في مجموعة سكانية بشكل شائع من خلال تحليل تعدد أشكال النوكليوتيدات المفردة (SNPs) ، وهي متغيرات جينية تحدث في مواقع محددة في الجينوم. يسعى تحليل مواضع السمات الكمية للتعبير (eQTL) إلى تحديد المتغيرات الجينية التي تؤثر على التعبير عن جين واحد أو أكثر: زوج الجين-SNP الذي يرتبط به التعبير الجيني بالتكوين الأليلي لـ SNP يُشار إليه بـ eQTL . لقد أثبت تحديد eQTLs أنه أداة قوية في دراسة وفهم الأمراض لدى البشر وغيرهم من السكان.

باستخدام صفائف النمط الجيني والتعبير الحديث ، يمكن أن يشتمل تحليل eQTL النموذجي على الملايين من SNPs وعشرات الآلاف من الجينات ، مما يجعل الحساب والاختبار المتعدد تحديات رئيسية. حتى تحليلات eQTL المحلية (رابطة الدول المستقلة) التي تقيد الانتباه إلى الجينات القريبة و SNPs يمكن أن تشمل عشرات الملايين من أزواج الجينات-SNP. تناول عملنا الأولي في تحليل eQTL الحساب السريع لإحصائيات الارتباط في المجموعات المتماثلة اللواقح ، والاختبار اللاحق. نحن نحقق حاليًا في استخدام طرق الاختبار التكراري لتعزيز قوة تحليلات eQTL الكاملة (العابرة). استكمالًا لاختبار eQTL ، قمنا مؤخرًا بتطوير نموذج سجل خطي بسيط لتقييم حجم تأثير eQTL ، وهي مشكلة مهمة لم تحظ بالكثير من الاهتمام المنهجي في الأدبيات.

حتى الآن ، نظرت معظم دراسات eQTL في تأثيرات التباين الجيني على التعبير داخل نسيج واحد (الدم عادةً). تتمثل الخطوة التالية المهمة في التحليل المتزامن لـ eQTLs في أنسجة متعددة. يمتلك تحليل الأنسجة المتعددة القدرة على تحسين نتائج دراسات eQTL الفردية للأنسجة من خلال استعارة القوة عبر الأنسجة ، ومعالجة الأسئلة البيولوجية الأساسية حول طبيعة ومصدر الاختلافات بين الأنسجة. من السمات المهمة لدراسات الأنسجة المتعددة أن SNP قد يرتبط بالتعبير عن الجين في بعض الأنسجة ، ولكن ليس في البعض الآخر. من خلال العمل مع اتحاد NIH Genotype-Tissue Expression (GTEx) ، قمنا بتطوير إجراء Bayes التجريبي ، يسمى MT-eQTL ، لتحليل eQTL متعدد الأنسجة. كان الإجراء ، القادر على اختبار أنماط الارتباط المعقدة عبر أنسجة متعددة ، أحد طريقتين مستخدمتين لاختبار eQTLs في الورقة العلمية الأخيرة للاتحاد. يقتصر إجراء MT-eQTL على تسعة أو عشرة أنسجة ، لكننا نعمل حاليًا على امتدادات من شأنها أن تتسع لما يصل إلى عشرين أو ثلاثين من الأنسجة.


أساليب

السلالات المستخدمة

تم استخدام الأنواع البرية N2 و CB4856 و 54 RILs المشتقة من تهجين CB4856 x N2 (سلالات ولدت في [12]). بالنسبة لـ 49/54 من هذه السلالات تم تطبيق التسلسل منخفض التغطية لإنشاء خريطة جينية أكثر تفصيلاً (انظر أيضًا [22]). يمكن العثور على مصفوفة بأسماء السلالات والخريطة الجينية في ملف إضافي 1.

زراعة الديدان الخيطية

تم الاحتفاظ بالسلالات في أطباق متوسطة النمو لنيماتودا بطول 6 سم (NGM) تحتوي على الإشريكية القولونية سلالة OP50 كمصدر للغذاء [23]. تم الاحتفاظ بالسلالات في ثقافة الصيانة عند 12 درجة مئوية ، وكانت درجة حرارة النمو القياسية للتجارب 20 درجة مئوية. تم القضاء على الالتهابات الفطرية والبكتيرية عن طريق التبييض [23]. تم تطهير السلالات من الذكور قبل التجارب عن طريق اختيار يرقات L2 ووضعها بشكل فردي في بئر في لوحة 12 بئراً عند 20 درجة مئوية. بعد ذلك ، تم فحص السكان بحثًا عن ذرية ذكور بعد 3 أيام وتم نقل مجموعات خنثى 100 ٪ فقط إلى أطباق NGM جديدة بحجم 9 سم تحتوي على بكتريا قولونية OP50 ونمت حتى الجوع.

التحكم والإجهاد الحراري والتعافي من تجارب الإجهاد الحراري لعلم النسخ

بدأت التجارب بنقل السكان الجائعين إلى طبق NGM جديد بحجم 9 سم. نمت هذه المجموعة من السكان لمدة 60 ساعة عند 20 درجة مئوية للحصول على البيض البالغ الذي تم تبييضه لمزامنة السكان. تم نقل البيض إلى طبق NGM طازج بحجم 9 سم. تم تطبيق ثلاثة شروط للنمو: (1) نمت معالجة التحكم لمدة 48 ساعة عند 20 درجة مئوية ، (2) تمت زراعة معالجة الإجهاد الحراري لمدة 46 ساعة عند 20 درجة مئوية تليها ساعتان عند 35 درجة مئوية ، و ( ج) تمت زراعة علاج الاسترداد لمدة 46 ساعة عند 20 درجة مئوية ، تليها ساعتان عند 35 درجة مئوية وبعد ذلك ساعتين عند 20 درجة مئوية. قبل بدء العلاج ، تم تحديد المرحلة التطورية للسكان من خلال مراقبة المرحلة التنموية للفرج عند عدة أفراد. لم يتم عزل المجموعات السكانية التي لا تتكون من يرقات L4. مباشرة في نهاية المعالجة ، تم غسل السكان من اللوح باستخدام المخزن المؤقت M9 وتم تجميعهم في أنبوب إيبندورف ، والذي تم تجميده بسرعة في النيتروجين السائل. بهذه الطريقة ، تم تقييم 48 RILs لكل حالة.

الأنماط الجينية وبناء الخريطة الجينية

في السابق ، تم تسلسل ومحاذاة 49 سطرًا. تم أخذ مكالمات تعدد الأشكال أحادي النوكليوتيدات (SNP) لكل سلالة لبناء الخريطة الجينية [22]. تم تحديد كثافة SNP لكل 10 kb bins وتم التعرف على أحداث إعادة التركيب على أنها انتقال لمنطقة لم يكن فيها CB4856 SNPs في 10 صناديق متتالية في منطقة كان فيها CB4856 SNPs والعكس بالعكس. لم يكن مسموحًا أن يكون هناك حدثان لإعادة التركيب في غضون 10 صناديق متتالية (100 كيلوبايت). تم وضع علامة على حاوية سعة 10 كيلو بايت حيث تم اكتشاف أول SNPs كحدث إعادة التركيب. قبل استخدامها في رسم الخرائط ، تمت تصفية الخريطة للعلامات الإعلامية - أي - العلامات التي تشير إلى حدث إعادة التركيب في سطر واحد على الأقل. نتج عن ذلك خريطة لـ 729 علامة إعلامية ، تشير كل منها إلى موقع أحداث إعادة التركيب في حدود 10 كيلو بايت (انظر الشكل في الملف الإضافي 2).

تم فحص الخريطة الجينية عن طريق تحليل الارتباط لتقييم الارتباط بين العلامات. أظهرت العلامات الموجودة على مراكز الكروموسومات ارتباطًا قويًا (انظر أيضًا [24]). لم يتم العثور على ارتباطات قوية بين الكروموسوم (انظر الشكل في الملف الإضافي 3).

التنميط نسخة

عزل الحمض النووي الريبي

تم عزل الحمض النووي الريبي لعينات RIL باستخدام RNeasy Micro Kit من Qiagen (هيلدن ، ألمانيا). تم اتباع بروتوكول `` تنقية إجمالي الحمض النووي الريبي من الأنسجة الحيوانية والبشرية '' ، مع إجراء lysing تم تعديل الكريات المجمدة في 150 ميكرولتر من محلول Rneasy Lysis Tissue المؤقت ، و 295 ميكرولتر من الماء الخالي من RNAse ، و 800 ميكروغرام / مل بروتيناز K و 1 ٪ ß - مركابتوإيثانول. تم تحضين المعلق عند 55 درجة مئوية عند 1000 دورة في الدقيقة في Thermomixer (إيبندورف ، هامبورغ ، ألمانيا) لمدة 30 دقيقة أو حتى تصبح العينة واضحة. بعد هذه الخطوة تم اتباع بروتوكول الشركة المصنعة.

توليف (كدنا) ووضع العلامات والتهجين

تم اتباع "بروتوكول تحليل التعبير الجيني ثنائي اللون المستند إلى ميكروأري منخفض المدخلات السريعة" ، الإصدار 6.0 من Agilent (Agilent Technologies ، سانتا كلارا ، كاليفورنيا ، الولايات المتحدة الأمريكية) ، بدءًا من الخطوة الخامسة. ال C. ايليجانس (V2) تم استخدام شرائح Gene Expression Microarray 4X44K المصنعة بواسطة Agilent. قبل البدء في تخليق (كدنا) ، تم قياس جودة وكمية الحمض النووي الريبي باستخدام مقياس الطيف الضوئي NanoDrop-1000 (Thermo Scientific ، Wilmington DE ، الولايات المتحدة الأمريكية) وتم تحديد سلامة الحمض النووي الريبي عن طريق الرحلان الكهربائي لهلام الاغاروز (3 ميكرولتر من عينة الحمض النووي الريبي على 1 ٪ هلام الاغاروز).

استخراج البيانات وتطبيعها

تم فحص المصفوفات الدقيقة بواسطة ماسح ضوئي Agilent High Resolution C بالإعدادات الموصى بها. تم استخراج البيانات باستخدام Agilent Feature Extraction Software (الإصدار 10.5) ، باتباع إرشادات الشركات المصنعة. للتطبيع ، تم استخدام "R" (الإصدار 3.3.1 × 64) مع حزمة Limma. لم يتم تصحيح الخلفية قبل التطبيع (على النحو الموصى به من قبل [25]). تم إجراء التطبيع داخل المصفوفة باستخدام طريقة Loess وتم التطبيع بين المصفوفة باستخدام طريقة Quantile [26]. تم تحويل شدة التطبيع أحادية القناة التي تم الحصول عليها واستخدامها لمزيد من التحليل.

الاستجابات البيئية

تم تحديد الاستجابة النسخية للإجهاد الحراري من خلال شرح التعبير الجيني على العلاج بنموذج خطي ،

حيث y هي كثافة log2 المقيسة كما تم قياسها بواسطة ميكروأري من البقعة i (أنا = 1 ، 2 ،. 45،220) ، و T هو العلاج (إما التحكم ، أو الإجهاد الحراري ، أو التعافي من الإجهاد الحراري). تجاهل هذا التحليل النمط الجيني.

تم تصحيح الدلالات للاختبار المتعدد من خلال تطبيق طريقة Benjamini Yekutieli في p.adjust (R ، الإصدار 3.3.1 Windows × 64) عند FDR = 0.05 [27]. تم تحديد عتبات -log10 (p) 2.87 للتحكم مقابل معالجة الإجهاد الحراري ، −log10 (p) ≥ 3.09 للتحكم مقابل معالجة الاسترداد ، و -log10 (p) 3.02 لعلاج الإجهاد الحراري مقابل معالجة الاسترداد .

الاختلاف التنموي

نظرًا لإعداد تجربتنا ، يمكن أن يوجد تباين محتمل في التطوير بين RILs والمعالجات. تم أخذ عينات من حيوانات الاسترداد بعد ساعتين من حيوانات التحكم وحيوانات الإجهاد الحراري ، علاوة على ذلك ، يؤدي الإجهاد الحراري إلى إبطاء معدل النمو [19]. قدرنا العمر النسبي باستخدام مجموعة

100 جين تظهر استجابة خطية قوية وإيجابية أثناء التطور [9]. من خلال تحديد متوسط ​​عمر RILs الضابطة إلى 48 ساعة ، يمكننا تقدير ومقارنة RILs في جميع المعالجات (ملف إضافي 8).

تحليل المكون الرئيسي

تم إجراء تحليل مكون رئيسي على بيانات التعبير الجيني لـ RILs على العلاجات الثلاثة. لهذا الغرض ، تم تحويل البيانات إلى نسبة log2 بمتوسط ​​، باستخدام

حيث R هو التعبير النسبي log2 عن البقعة i (أنا = 1 ، 2 ،. 45،220) في سلالة j (RIL) على جميع الظروف الثلاثة (ن = 48 لكل حالة) ، و ذ هي شدة (وليس شدة تحويل log2) النقطة i في سلالة j.

تم استخدام البيانات المحولة في تحليل المكون الرئيسي ، حيث تم فحص المحاور الستة الأولى بشكل أكبر.

التعبير عن تحليل موضع السمة الكمية

تعيين eQTL وتحديد العتبة

تم إجراء تعيين eQTL في "R" (الإصدار 3.3.1 Windows × 64). تم تركيب بيانات التعبير الجيني على النموذج الخطي ،

حيث y هي كثافة log2 المقيسة كما تم قياسها بواسطة ميكروأري من البقعة i (أنا = 1 ، 2 ،. 45،220) من RIL j. يتم شرح ذلك على النمط الجيني (إما CB4856 أو N2) في موقع العلامة x (x = 1 ، 2 ،. 729) من RIL j.

تم تحديد عتبة الأهمية على مستوى الجينوم من خلال التقليب ، حيث تم توزيع شدة التطبيع log2 بشكل عشوائي لكل جين على الأنماط الجينية. تم اختبار البيانات العشوائية باستخدام نفس النموذج المستخدم في رسم خرائط eQTL. تكرر هذا لعشر مجموعات بيانات عشوائية. تم استخدام معدل اكتشاف خاطئ لتحديد العتبة (على النحو الموصى به للاختبار المتعدد تحت التبعية) [27] ،

حيث FDS (الاكتشافات الخاطئة) هي نتيجة التباديل و RDS (الاكتشافات الحقيقية) هي نتيجة تعيين eQTL عند مستوى أهمية معين. قيمة م0بلغ عدد الفرضيات الصفرية الحقيقية المختبرة 45،220-RDS ، وبالنسبة لقيمة m تم أخذ عدد الفرضيات المختبرة وعدد النقاط (45220). تم ضبط قيمة q عند 0.05. أسفر هذا عن عتبة –log10 (p) & gt 3.9 لعنصر التحكم ، −log10 (ص) & gt 3.5 للإجهاد الحراري ، و – log10 (ص) و GT 3.9 لعلاج الانتعاش. بالنسبة للتحليلات ، استخدمنا العتبات الأكثر تحفظًا التي تم قياسها ، −log10 (ص) & GT 3.9 ، لجميع المجموعات.

حسابات القوة الإحصائية

من أجل تحديد القوة الإحصائية عند عتبة FDR المحددة ، تمت محاكاة QTL باستخدام الخريطة الجينية للسلالات المستخدمة لكل حالة (ن = 48 لكل حالة). لكل موقع من مواقع العلامات ، تمت محاكاة عشرة QTL والتي فسرت 20-80٪ من التباين (بزيادات قدرها 5٪). تم تقديم التباين العشوائي بناءً على التوزيع الطبيعي مع سيجما = 1 ومو = 0 وتم محاكاة ذروة الحجم المقابل (على سبيل المثال ، حجم الذروة 1 يتوافق مع 20 ٪ من التباين الموضح) في هذا التباين العشوائي. من المحاكاة ، تم حساب عدد QTL المكتشفة بشكل صحيح ، وعدد الإيجابيات الخاطئة وعدد QTL غير المكتشفة. كان هذا على أساس العتبات المحددة في التباديل ، log10 (ص) & GT 3.9. علاوة على ذلك ، تم تحديد دقة تقدير حجم التأثير ودقة موقع QTL (بناءً على انخفاض –log10 (p) بمقدار 1.5 مقارنة بالقمة). يمكن العثور على جدول يلخص النتائج في ملف إضافي 9.

تحليل eQTL

التمييز بين رابطة الدول المستقلة- و عبرتم إجراء eQTL على المسافة بين الموقع المادي للجين وموقع ذروة eQTL. ل رابطة الدول المستقلة-يقع الجين eQTL في حدود 1 ميغا بايت من الذروة أو ضمن فاصل الثقة لـ eQTL. استند فاصل الثقة إلى انخفاض –log10 (p) بمقدار 1.5 مقارنة بالقمة.

تم حساب مقدار التباين الموضح لكل بقعة ميكروأري باستخدام eQTL بواسطة ANOVA ، من خلال تحليل التعبير الجيني الموضح على علامة الذروة. بالنسبة للبقع ذات القمم المتعددة ، تم إجراء هذا التحليل لكل ذروة ، وليس باستخدام نموذج كامل ، حيث تم استخدام نموذج علامة واحدة في التحليل.

من أجل التعرف عبر- العصابات (إثراء عبر-eQTL) ، وهو توزيع بواسون للتعيين عبرتم افتراض -eQTL (كما في [28]). لذلك فإن عدد عبر- تم حساب eQTL لكل 0.5 ميغا بايت بن. حيث عبر- تم تعيين قمم eQTL إلى 107 و 106 و 103 صناديق (على التوالي في التحكم والإجهاد الحراري والاسترداد) ، وكان من المتوقع أن 9.16 و 20.64 و 9.01 نقطة مع عبرتم العثور على -eQTL في كل من هذه العلامات. بناءً على توزيع بواسون ، تم حساب العدد عبر- يلزم العثور على eQTL لتمثيل تمثيل مفرط. على سبيل المثال ، ل ص & lt 0.001 يجب أن يكون هناك 20 أو 36 أو 20 نقطة مع a عبر- eQTL عند علامة محددة (على التوالي في التحكم والإجهاد الحراري والاسترداد).

لاختبار تعدد الأشكال في الجينات باستخدام eQTL ، استخدمنا البيانات من الجينوم المرجعي CB4856 [22]. تم مطابقة الجينات مع eQTL مع تعدد الأشكال. ترددات تعدد الأشكال في كل مجموعة (الجينات ذات رابطة الدول المستقلة-EQTL ، الجينات ذات عبر-eQTL ، والجينات التي لا تحتوي على eQTL) تم حسابها ومقارنتها مقابل بعضها البعض عن طريق اختبار مربع كاي في "R" (الإصدار 3.3.1 ، × 64).

الكشف عن eQTL عبر العلاجات

تم استخدام معيارين لاكتشاف حدوث eQTL عبر علاجات متعددة.

في المعيار الأول ، تم اختبار ما إذا كان قد تم تعيين eQTL أم لا في المعاملة الأولى مقابل المعاملة الثانية ، عن طريق مقارنة الجداول التي تسرد eQTL أم لا. سمح ذلك بمقارنة القمم المعينة الفعلية ومقارنة تأثيرات eQTL لـ عبر-EQTL ينظم من مواقع مختلفة. من أجل تقدير معدل الاكتشاف الخاطئ المرتبط بهذه المقارنة ، تم تطبيق نفس التحليل على عشر مجموعات بيانات متبادلة لكل حالة ، باستخدام –log10 (p) & gt 3.9 لاكتشاف eQTL.

قارن المعيار الثاني حدوث eQTL في نفس موقع العلامة بالضبط. في هذه المقارنة ، تم أخذ eQTL المعين في علاج واحد كقائد لحدوث نفس eQTL في العلاجين الآخرين. سمحت هذه المقارنة بإجراء مقارنة مباشرة لتأثير eQTL في الموقع. بناءً على الملاحظات على توزيع التأثير ، تم استخدام هذا النهج لتقدير عدد عبر- لم يتم اكتشاف eQTL بسبب قوة إحصائية أو لم يتم اكتشافه بسبب عدم وجود eQTL في المعالجة (انظر أيضًا النص في الملف الإضافي 15).

تحليل الإثراء الوظيفي

تم إجراء تحليل إثراء المجموعة الجينية باستخدام اختبار فوق هندسي والعديد من قواعد البيانات مع الشروح. قواعد البيانات المستخدمة هي: التعليقات التوضيحية لفئة الجينات WS220 ، والتعليق التوضيحي لـ WS256 GO ، ومصطلحات التشريح ، والأنماط الظاهرية ، وأنماط RNAi ، والتعبير عن المرحلة التنموية ، والجينات المرتبطة بالأمراض (www.wormbase.org) [29] وإصدار MODENCODE 32 ارتباط عامل النسخ المواقع (www.modencode.org) [30 ، 31] ، التي تم تعيينها لمواقع بدء النسخ (وفقًا لـ [32]) وإصدار مسار KEGG 65.0 (موسوعة كيوتو للجينات والجينوم ، www.genome.jp/kegg/ ) [33].

تم اختيار التخصيب على أساس المعايير التالية: حجم الفئة ن & GT 3 ، حجم التداخل ن & gt 2. تم اختبار التداخل باستخدام اختبار هندسي مفرط ، من خلاله ص- تم تصحيح القيم للاختبار المتعدد باستخدام تصحيح Bonferroni (على النحو المنصوص عليه في p.adjust في R ، 3.3.1 ، × 64). تم حساب التخصيب على أساس أسماء الجينات ، وليس على أساس المواقع.


مناقشة

يجب أن يكون متغير التسلسل الذي يؤثر على تعبير الجين على نفس الكروموسوم (a cis eQTL) قابلاً للاكتشاف على أنه eQTL محلي وبواسطة ASE. ومع ذلك ، يمكن أن يكون كلا من eQTL المحلي و ASE ناتجًا عن أسباب أخرى إلى جانب cis eQTL ، على سبيل المثال يمكن أن يكون eQTL المحلي عبر eQTL [5]. يمكن أن يكون ASE ناتجًا عن تأثيرات الأصل (أي البصمة) أو الانحلال الوسيط اللامعقول [5 ، 11]. يحاول تحليلنا الإحصائي التمييز بين cis eQTL وأصل المنشأ كسبب لـ ASE من خلال تحديد ما إذا كان اتجاه ASE يتوافق مع أصل أصل الأليل المعبر عنه بشكل مفرط أو مع الأليل الموجود على نفس الكروموسوم في SNP القريب ( dSNP). وجد هذا التحليل أن PO-ASE أقل شيوعًا ولديها FDR أعلى من ASE بسبب تأثير رابطة الدول المستقلة لـ SNP القريب. تم أيضًا تأكيد تأثيرات PO-ASE بشكل أقل في مجموعات البيانات المتعددة. ومع ذلك ، وجد تحليلنا PO-ASE للعديد من الجينات حيث تم الإبلاغ عن البصمة. لتجنب التعرض للتضليل بسبب الأخطاء في تسلسل الجينوم لماشيتنا ، استبعدنا التعبير الأليلي الأحادي الكامل ، وبالتالي لن نجد حالات البصمة الكاملة حيث يتم التعبير عن أليل أبوي واحد فقط. لذلك ، فإن اختبارات PO-ASE الخاصة بنا تكتشف الطباعة "الجزئية". هناك أيضًا بعض التقارير التي تفيد بأن عملية الطباعة يمكن أن تكون خاصة بالأنسجة [13] ، مما قد يفسر سبب عدم تأكيد تأثيرات PO-ASE دائمًا في مجموعات بيانات متعددة. ومع ذلك ، فإن اتفاق PO-ASE الموجود في عينات كبد هولشتاين وأنجوس كان أيضًا منخفضًا ربما لأن لدينا قوة محدودة لاكتشاف البصمة الجزئية مع اختلال بسيط في الأليلات.

يتناسب تحليلنا لـ ASE مع تأثيرات الوالد الأصلي و SNP في رابطة الدول المستقلة مع الأليل المفرط التعبير بشكل مشترك ، وبالتالي يمكننا اختبار تأثير رابطة الدول المستقلة لـ SNPs على التعبير الجيني ، والذي يسمى هنا ببساطة ASE. هناك عدد كبير من SNPs المرتبطة بالتعبير عن الجين القريب (eQTL المحلي) ، أو مع ASE في ذلك الجين (الجدول 2). تتداخل SNPs المرتبطة بالتعبير الجيني بشكل كبير بين تحليلات ASE و eQTL المحلية وبين مجموعات البيانات على الحيوانات المختلفة والأنسجة المختلفة ، وبين SNPs التي تعتبر مهمة في تحليلين مختلفين ، يرتبط نفس الأليل بزيادة التعبير الجيني في معظم الأوقات ( الجدول 4). تدعم هذه النتائج الاستنتاج بأن العديد من SNPs المرتبطة بـ eQTL المحلي ومع ASE هي cis eQTL.

على الرغم من التداخل الكبير بين eQTL المحلي و ASE ، إلا أن نسبة صغيرة فقط من SNPs التي تعتبر مهمة في أحد التحليلات مهمة في التحليل الآخر. قد يكون هذا بسبب نقص القوة في أحد التحليلين أو كليهما أو الاختلافات المنهجية بين ASE و eQTL المحلي. عند مقارنة ASE في مجموعتي بيانات مختلفتين ، يوجد في المتوسط ​​14.33 مرة أكثر من تعدد أشكال النيوكلوتايد التي تعتبر مهمة في مجموعتي البيانات أكثر مما هو متوقع بالصدفة (الجدول 4). وبالمثل ، عند مقارنة eQTL المحلي في مجموعتي بيانات ، يكون هناك تعدد أشكال تعدد الأشكال أكبر بمقدار 12.87 مرة مما هو متوقع بالصدفة (الجدول 4). ومع ذلك ، عند مقارنة ASE في مجموعة بيانات واحدة بـ eQTL المحلي في مجموعة أخرى ، يكون إثراء الطية 5.72 فقط (الجدول 4). يشير هذا إلى أن ASE يكتشف ظاهرة تتداخل مع eQTL المحلي ، ولكن لها بعض الاختلافات المنهجية. أحد أسباب هذه الاختلافات هو أن تحليل eQTL المحلي يستخدم جميع قراءات الحمض النووي الريبي من الجين بينما يستخدم تحليل ASE فقط تلك التي تحتوي على tSNP. عندما تتم مقارنة ASE في مجموعات بيانات مختلفة باستخدام أي tSNP داخل الجين ، بدلاً من نفس tSNP في كلتا مجموعتي البيانات ، ينخفض ​​إثراء الطي إلى 4.81 (ملف إضافي 2: الجدول S4). وبالتالي ، فإن بعض عناصر cis eQTL التي تم اكتشافها بواسطة ASE خاصة بـ tSNP ربما لأنها من نوع exon ومتغير لصق خاص [14]. قد تشمل الأسباب الأخرى للاختلافات المنهجية بين ASE و eQTL المحلي eQTL المحلي الذي يمثل عبر eQTL ، والاضمحلال الوسيط اللامعقول ، وآليات التغذية الراجعة التي تحد من التعبير الجيني. إذا تم التعبير عن أحد الأليل بدرجة أكبر من الآخر ، فقد تحد التغذية المرتدة من التعبير عن كلا الأليلين بحيث يكون التعبير الجيني الكلي متماثلًا إلى حد كبير بغض النظر عن النمط الجيني SNP [8]. وهذا من شأنه أن يترك حالة مهمة من ASE ولكن لا يوجد eQTL محلي.

على الرغم من وجود بعض التداخل بين eQTL في مجموعات البيانات المختلفة ، إلا أن هناك أيضًا اختلافات منهجية بين مجموعات البيانات والسلالات والأنسجة. أظهرت المقارنات بين ASE ورسم خرائط eQTL المحلي ضمن مجموعة بيانات RNA-Seq (ملف إضافي 2: الجدول S7) ، كان من المرجح العثور على SNPs التي عثر عليها ASE في رسم خرائط eQTL المحلي أكثر من المتوقع بالصدفة. كان متوسط ​​إثراء أضعاف لـ ASE و eQTL المحلي في نفس مجموعة البيانات أكثر مما هو عليه عند مقارنة ASE في مجموعة بيانات واحدة مع eQTL المحلي في مجموعة بيانات أخرى ، مما يشير إلى أنه على الرغم من أن بعض eQTL يعمل في كلتا مجموعتي البيانات ، إلا أن هناك بعض مجموعة البيانات (خاصة بالأنسجة) eQTL. يمكن تفسير هذه النتائج على أنها تعني أن ما يقرب من نصف cis eQTL في نسيج واحد يعمل أيضًا في نسيج ثان وهو نفس النتيجة التي تم التوصل إليها في ورقة GTex بوسائل مختلفة [1]. تظهر نتائجنا أيضًا أنه عندما يعمل cis eQTL في أنسجة متعددة ، فإنه دائمًا ما يكون نفس الأليل هو الذي يزيد من التعبير.

ترجع الاختلافات المنهجية بين مجموعات البيانات جزئيًا إلى الاختلافات في الأنسجة المستخدمة ، كما يتضح من أوجه التشابه في رسم خرائط eQTL المحلي و ASE بين عينات الكبد هولشتاين وأنجوس (الجدول 4). كانت نتائج ASE و eQTL المحلية أكثر تشابهًا عند مقارنة مجموعتي بيانات هولشتاين أو مجموعتين من بيانات Angus مقارنةً بمقارنة مجموعة بيانات Angus وواحدة من مجموعة بيانات Holstein (الجدول 4). قد يكون تأثير السلالة ناتجًا عن الاختلافات بين السلالات في عدم توازن الارتباط ، ولكن يمكن أيضًا أن يكون بسبب الاختلافات في الجنس أو البيئة أو الحالة الفسيولوجية بين هولشتاين وماشية أنجوس التي أخذنا عينات منها.

يتم دعم هذه الاستنتاجات الخاصة بتأثير الأنسجة والسلالة من خلال مقارنة نتائجنا مع ASE في 18 أنسجة من بقرة هولشتاين. في هذه النتائج ، تكون نسبة SNPs التي تظهر نفس اتجاه التأثير أعلى عندما تكون الأنسجة متماثلة وعندما تكون السلالة هولشتاين في كلتا الحالتين. لذلك ، يبدو أن ASE و eQTL المحلي خاصان جزئيًا بالأنسجة وهو ما يتفق مع النتائج التي توصل إليها تشامبرلين وآخرون. (2015) [11]. ومع ذلك ، كان هناك تداخل بين جميع مجموعات البيانات الأربعة والعديد من الأنسجة الثمانية عشر مما يشير إلى أن بعض cis eQTL يؤثر على التعبير في العديد من الأنسجة. هذا يتوافق مع ورقة GTex [1] التي وجدت أن معظم cis eQTL يؤثر على جميع الأنسجة التسعة أو نسيج واحد فقط.

كانت هناك كبيرة (ص & lt 0.05) بين QTL التي تؤثر على بعض السمات المعقدة و ASE أو eQTL المحلي (الجدول 5). ارتبط حنان اللحم (MQLDPF) بالعديد من أشكال تعدد الأشكال التي ارتبطت أيضًا بشكل كبير بالتعبير الجيني في تحليلات ومجموعات بيانات متعددة. يعطي الشكل 2 مثالاً على الجين الذي يحتوي على SNPs التي تؤثر بشكل كبير على الحنان والتعبير عن الجين كالباستاتين (يقذف). الدور الفسيولوجي لـ يقذف والعلاقة بين النيوكلوتايد القريب يقذف والحنان معروفان جيدًا [15،16،17] ولكن هذه النتائج تشير إلى أن QTL المعروف هو في الواقع eQTL لـ كالباستاتين التعبير. تشمل الأمثلة الأخرى كالبين 1 الجين (CAPN1), مستقبلات اللبتين متداخلة مثل النسخ 1 الجين (ليبروتل 1) و ligand المعتمد على مستقبلات النواة النووية الشبيهة بالضغط (LCORL) (تين. 3). CAPN1 يؤثر على طراوة اللحم [16]. ليبروتل 1 يقال أنه يؤثر على نمو الجسم عن طريق التنظيم السلبي لمستقبلات اللبتين (LEPR) تعبير سطح الخلية ، وانخفاض الاستجابة للبتين وتقليل عمل هرمون النمو الكبدي في الفئران [18]. LCORL تم الإبلاغ عن تأثيره على تناول العلف ، وكسبه ، وخصائص اللحوم والذبيحة [19] وقد ارتبط تعبيره في الأنسجة العضلية بمتوسط ​​المدخول اليومي من الأعلاف في أبقار اللحم [20]. في البشر ، هناك QTL للارتفاع القريب NCAPG و LCORL ولم يكن من الممكن تحديد الجين السببي. النتيجة هنا تشير إلى أن LCORL، على الأقل ، من المحتمل أن تؤثر على النمو.

هناك العديد من QTL التي لم نعثر على eQTL مطابق لها. قد يكون هذا بسبب عمل QTL من خلال آلية مختلفة (على سبيل المثال ، طفرة في تشفير البروتين) أو بسبب نقص القدرة على العثور على eQTL ذي الصلة في تجربتنا. تم قياس التعبير الجيني في دراستنا في 3 أنسجة فقط (العضلات والكبد و WBC) ومرة ​​واحدة فقط. قد يكون الـ eQTL في الأنسجة الأخرى ونشاطها في الحالات الفسيولوجية أو التنموية الأخرى أساس QTL الأخرى. كان عدد الحيوانات ومتوسط ​​عمق قراءة النص في دراستنا أيضًا من العوامل المحددة في القدرة على اكتشاف eQTL. لذلك ، إذا أردنا العثور على QTL التي تؤثر على السمات المعقدة من خلال التحكم في التعبير عن الجينات ، فمن المهم أخذ عينة من الأنسجة الصحيحة في الوقت المناسب والحصول على حجم عينة كافٍ وعمق قراءة نسخة لتحليلات التعبير الجيني.


مناقشة

دراساتنا على مستوى الجينوم لمستويات التعبير للجينات الأساسية رابطة الدول المستقلة- و عبر- توفر eQTLs دعمًا قويًا للفرضيات القائلة بأن تصنيف eQTLs له أساس بيولوجي حقيقي يمكن اكتشافه في مستويات التعبير النصي ، وأن عبرتتكون مجموعات eQTL من النصوص ذات الصلة وظيفيًا والمنظمة بشكل منسق.

لاحظنا أن أنماط الارتباط لملفات تعريف التعبير و SDPs في الموقع الجيني للنسخة التي تم قياس تعبيرها تختلف بشكل لافت للنظر بين مجموعات رابطة الدول المستقلة- و عبر- eQTLs في جميع المناديل الأربعة (الأشكال 1 & # x02013 & # x200B 3). 3). ارتباط كبير بين أزواج رابطة الدول المستقلة- وجد أن eQTLs نادرة (& # x0003c1 & # x00025 ، الجدول 2). لقد تم سابقًا إظهار علاقة مهمة بين معامل الارتباط المطلق لأزواج eQTLs المشتقة من الجينات الموجودة على نفس الكروموسوم والمسافة التي تفصل بين تلك الجينات [10] ، [24]. ومن ثم تم افتراض أن الارتباط رابطة الدول المستقلةيمكن تفسير جينات eQTL من حيث اختلال التوازن في الارتباط. وجدنا أن معظم الارتباطات الملحوظة بين رابطة الدول المستقلةيمكن تفسير ملامح تعبير جينات eQTL للجينات المترجمة المشتركة من خلال تشابه الأنماط الجينية الأساسية. وجدنا أيضًا أن أهم الارتباطات بين رابطة الدول المستقلة-يمكن تفسير eQTLs الموجودة على كروموسومات مختلفة من خلال الارتباط الأليلي بعيد المدى. وقد لوحظت أنماط الارتباط هذه سابقًا في خريطة SNP للوحة إجهاد فطرية من الفئران [26] ، ويفترض أن يكون لها القدرة على إنتاج ارتباطات زائفة بين ملفات تعريف التعبير الخاصة بالنصوص. تشير النتائج التي توصلنا إليها إلى أن ارتباط ملفات تعريف التعبير ، بمعزل عن غيرها ، ليس أساسًا مناسبًا لتحليل العلاقات بينهما رابطة الدول المستقلة-EQTLs.

تمت ملاحظة مستويات أعلى بكثير من الارتباط المعنوي ، بما في ذلك 2.9 & # x0201314.9 & # x00025 من الأزواج ، بين عبرجينات eQTL. لم يتم العثور على تفسير لذلك من خلال ارتباط الأنماط الجينية في المناطق التي توجد بها خريطة النصوص. ومع ذلك ، عندما تكون الأنماط الجينية في عبر- eQTL متشابهة أو متشابهة ، كانت أزواج الجينات مرتبطة بشكل غير متناسب (47.5 إلى 63.7 & # x00025 من الأزواج المترابطة بشكل كبير). توفر هذه الملاحظة دعمًا قويًا للفرضية ، التي تمت صياغتها في دراسات التنظيم الجيني للتعبير الجيني في S. cerevisiae [19] ، أن عبرتدل مجموعات eQTL على التنظيم المشترك للنصوص. في مجموعة البيانات الخاصة بنا ، مستوى الارتباط الكبير داخل عبرتم العثور على مجموعات -eQTL أعلى بكثير من مجموعات عبر- مجموعة بيانات eQTL ككل ، بمتوسط ​​83.5 & # x00025 عبر 81 مجموعة (الجدول 4). بالإضافة إلى ذلك ، لاحظنا أن الكثير من التباين في مستويات عبريمكن تفسير ارتباط eQTL بين الأنسجة بالاختلافات في توزيع وحجم عبرمجموعات eQTL (البيانات غير معروضة).

تحقيق وظيفي كبير عبرأظهرت مجموعات eQTL تمثيلًا زائدًا كبيرًا لمصطلحات علم الوجود الجيني (GO) في 80 & # x00025 من هذه المجموعات. في حين أن تحليل GO قد يكون له قيود في النطاق والدقة ، نظرًا لتحديات التعليقات التوضيحية التي تفرضها الجينات التي غالبًا ما يكون لها أدوار ووظائف معقدة وغير محددة بدقة [29] ، فإن النتائج المقدمة هنا تتفق مع تلك الخاصة بغزالبور وآخرون [25] ، الذي لاحظ أن الجينات المرتبطة وظيفيًا & # x02018pathway مجموعات & # x02019 عادة ما تكون شديدة الترابط. تحليل مسار KEGG لـ عبرتم تنفيذ مجموعات eQTL من خلال واجهة DAVID ، وتم تحديد المسارات ذات الأهمية المحتملة في أقلية من المجموعات (الجدول S6). لقد تم إظهاره سابقًا في دراسة للتنظيم المشترك في تقاطع الفئران F2 [20] أنه يمكن تحديد مجموعات من النصوص شديدة الترابط والمرتبطة بنفس الموقع الجينومي في تحليل الارتباط على مستوى الجينوم المستنير وظيفيًا. نعرض هنا عبر أنسجة متعددة أن ملفات تعريف التعبير شديدة الترابط هي شكل ثابت لذلك عبرمجموعات eQTL. تشير هذه النتائج إلى درجة كبيرة من الترابط الوظيفي للجينات التي تشكل الكتلة (الجدول 5).

ارتباط التعبير بين عبر- نصوص الكتلة eQTL و رابطة الدول المستقلة- تم وصف جينات eQTL الموجودة في منطقة الربط سابقًا كطريقة لتحديد المنظمين المرشحين ويتم تطبيقها في الخميرة [30] و أرابيدوبسيس [7]. هنا نظهر علاقة قوية بين مسافة رابطة الدول المستقلة- eQTL من ذروة الكتلة للربط وقوة الارتباط (الشكل 5) ، والتي لم يتم ملاحظتها عند اختبار النصوص غير المرتبطة الموجودة في المنطقة بالمثل (الشكل S1). هذا ، جنبًا إلى جنب مع ملاحظة أنه لا يوجد ارتباط بين المسافة من ذروة الارتباط وإمكانية التوريث من رابطة الدول المستقلةتشير جينات eQTL (الشكل S2) إلى أن تشابه النمط الجيني في منطقة الارتباط ، وليس التأثير الجيني على التعبير الجيني ، هو أساس العلاقة. على هذا الأساس ، فإن الأساليب القائمة على الارتباط لتحديد أولويات المرشحين للتنظيم الجيني لـ عبرسيتم تحسين مجموعات eQTL من خلال مراعاة المسافة بين منطقة ربط الكتلة وموقع الخريطة لنسخة المرشح. لذلك نقترح أنه قد يكون من المفيد بدلاً من ذلك تحديد القيم المتطرفة رابطة الدول المستقلة-EQTL الجينات التي متوسط ​​ارتباطها مع عبرتنحرف الجينات العنقودية -eQTL بشكل إيجابي عن اتجاه الانحدار السلبي العام. تمكنا من إيجاد 54 رابطة الدول المستقلة-EQTLs ذات الدرجات Z الإيجابية الكبيرة (Z & # x0003e2) (الجدول S4) ، واعتبر أن هذه قد تكون جديرة بمزيد من التحقيق في احتمال أن يكون لارتباطها بالنصوص العنقودية أساس بيولوجي.

في هذه الدراسة ، نوضح قوة التحليل الحسابي لمجموعات بيانات eQTL عبر أنسجة متعددة لتقديم رؤى جديدة حول بنية الارتباط على مستوى الجينوم في بيانات التعبير الجيني. النتائج التي توصلنا إليها تظهر باستمرار أن الارتباط رابطة الدول المستقلةتشير ملفات تعريف جينات eQTL بشكل أساسي إلى تشابه الوراثة الجينية ، كما تم قياسه من خلال ارتباط SDPs في موقع النسخ. في حين أن الارتباط بين عبريمكن تفسير -eQTLs بشكل متكرر من حيث التنظيم المشترك من خلال منطقة ربط مشتركة على الرغم من تشكيل النصوص المرتبطة عبرتوجد مجموعات -eQTL في جميع أنحاء الجينوم. The observation of functional enrichment within clusters is suggestive of a relationship between co-expression and function. Finally, we inform investigations of candidate regulators of عبر-eQTL clusters by indicating that genetic linkage strongly influences co-expression of عبر-eQTL cluster genes and candidate regulatory genes.


مقدمة

The precise spatial and temporal control of gene transcription is critical for biological processes, as evidenced by the causal role of gene expression perturbation in many human diseases [1]–[3]. Gene expression is controlled by regulatory proteins, RNAs, and the cell type specific cis-regulatory elements with which they interact. Genetic variation within cis-regulatory elements (CREs, e.g., transcription promoters, enhancers, or insulators) can affect gene expression in a cell type specific manner. An extensive body of work, performed in a variety of cell types in both humans and model organisms, has demonstrated that genetic variants that impact gene expression, or expression quantitative trait loci (eQTLs), are common and exist in both رابطة الدول المستقلة (local) and عبر (over long genetic distances) [3]–[6]. Over of genotype-phenotype associations found in genome-wide association studies (GWAS) are with non-coding single nucleotide polymorphisms (SNPs), making their mechanistic interpretation more challenging. It is possible that these associated SNPs tag causal coding SNPs however, numerous compelling lines of evidence [2], [7]–[11] demonstrate that regulatory SNPs have causal roles in many complex human phenotypes. This is further supported by the finding that GWAS associations are enriched within DNase I hypersensitive (DHS) sites [12] and eQTL SNPs [13], [14], and by several elegant GWAS follow up studies that have mechanistically tied disease associations with SNPs that cause the misregulation of gene expression [15], [16].

Although eQTLs are increasingly used to provide mechanistic interpretations for human disease associations, the cell type specificity of eQTLs presents a problem. Because the cell type from which a given physiological phenotype arises may not be known, and because eQTL data exist for a limited number of cell types, it is critical to quantify and understand the mechanisms generating cell type specific eQTLs. For example, if a GWAS identifies a set of SNPs associated with risk of type II diabetes, the researcher must choose a target cell type to develop a mechanistic model of the molecular phenotype that causes the gross physiological change. One can imagine that the relevant cell type might be adipose tissue, liver, pancreas, or another hormone-regulating tissue. Furthermore, if the GWAS SNP produces a molecular phenotype (i.e., is an eQTL) in lymphoblastoid cell lines (LCLs), it is not necessarily the case that the SNP will generate a similar molecular phenotype in the cell type of interest. Furthermore, there are many examples of cell types with particular relevance to common diseases, for example dopaminergic neurons and Parkinson's disease, that lack comprehensive eQTL data or catalogs of CREs. The utility of eQTLs for complex trait interpretation will therefore be improved by a more thorough annotation of their cell type specificity.

While several studies have quantified the reproducibility of eQTLs within or between cell types derived from the same or different individuals [17]–[28] the determinants of eQTL cell specificity are still largely unknown. We address this need in this study by analyzing cell specific eQTLs collected from eleven studies performed in seven different cell types and by integrating these data with cell specific CRE data to mechanistically interpret cell specific eQTLs. We used Bayesian regression models to identify all cis-linked SNPs that are independently associated with each gene expression trait in each study. In an effort to identify the functional determinants of eQTL cell specificity, we quantified the associations between eQTL SNPs and CRE data sets, many of which were derived from the cell types used in eQTL discovery and are known to function in a cell type specific manner (e.g., transcription factor binding sites (TFBSs), DHS sites). We further considered the relationship between eQTL SNP-CRE overlap and the cell type specificity of eQTL replication. Lastly, we built a series of classifiers to predict the cell type specificity of eQTLs in the absence of additional gene expression data and to predict the function of GWAS SNPs with phenotypes relevant to cell types lacking eQTL data. We believe these predictive models will facilitate more substantial mechanistic analyses of individual SNPs by enabling the integration of disease genetics and regulatory SNPs with the thousands of genomic data sets that have been produced by projects like ENCODE [29], [30].


مناقشة

We have carried out a systematic analysis of eQTL networks constructed from رابطة الدول المستقلة- and عبر-eQTL in 13 different tissues, using data available from the GTEx project. We have found that the structural properties of these networks provide functional insight into the regulatory roles of genetic variants across and within tissues. Using a community detection algorithm (30) to search for communities of densely connected SNPs and genes, we found that the eQTL network in each of the 13 tissues was organized into highly modular communities. When we examine the genes represented in each community, we find an enrichment for genes, located on multiple chromosomes, that share similar functions or are associated with coherent biological processes. While the FDR may not be well controlled for the large number of GO terms tested, our resampling analysis for GO terms shared across tissues suggests that the observed enrichment is unlikely to be due to the large number of tests. However, the possibility of post hoc plausibility explanations cannot be completely ruled out. Contrary to what one might expect, these communities are not driven by coexpression (excepting communities with very few genes), suggesting that it is the genetic influence of multiple رابطة الدول المستقلة- and عبر-eQTL SNPs on functionally related groups of genes that drives the organization and structure of these communities.

When comparing communities between tissues, we find many communities with common patterns of functional enrichment across tissues, reinforcing the pleiotropic role of the SNPs in these communities. We do, however, also find TS communities that contain genes involved in TS functional processes such as cellular respiration in heart left ventricle or smooth muscle contraction in esophagus muscularis. There is a plausible mechanistic explanation for the tissue specificity of some of these communities: Using data in eight tissues from the Roadmap Epigenome Project we find that TS eQTL SNPs in these TS communities are enriched for active chromatin regions that are unique to that tissue. This suggests that the organization of these communities is driven by the epigenetic activation of chromatin regions surrounding specific SNPs and that these SNPs act in رابطة الدول المستقلة و عبر to exert genetic effects on the expression of functionally related genes, genes with important roles in their respective tissue-level processes. In addition, these communities are not only enriched for specific tissue-relevant gene function they are also enriched for tissue-specific edges (eQTL), SNPs, and genes. This is relevant to the ongoing discussion of the tissue specificity of eQTL. Although most eQTL appear to be shared, TS eQTL emerge in concert with TS epigenetic changes and not only influence single genes, but also help coalesce TS gene expression into regulatory communities.

We find these 13 eQTL networks possess two informative types of hubs: community hubs or “cores,” which are SNPs highly connected to genes in their community, and global hubs, which are connected to many genes throughout the network. These two types of hubs have different biological properties across tissues: Community hubs are enriched for active chromatin regions close to the transcriptional start site, but not enhancers, while global hubs are enriched for distal elements such as nongenic enhancers. Moreover, community hubs are enriched for GWAS-associated variants, while global hubs are not. The degree distribution for trait-associated variants from the GWAS is also highly consistent across the 13 tissues: GWAS SNPs are enriched for intermediate network degree, depleted for low degree, and absent from global hubs. The significant overrepresentation of GWAS SNPs among the community cores provides another important insight. Across tissues, disease SNPs are those most likely to perturb groups of genes and, in doing so, may disturb important biological processes.

While the observed relationships between eQTL network properties and SNP/gene function are consistent across tissue types, we cannot rule out the possibility that the large number of statistical tests performed in the رابطة الدول المستقلة- و عبر-eQTL analysis could lead to identification of some individual eQTL associations as significant when they are not. Although we cannot conclude, based on our analysis, that any individual SNP–gene association is correct, the consistency of our findings regarding the structure of the networks across multiple tissues and the consistent functional enrichment we observe for global and local hubs indicate that the higher-order structural organization of the networks likely provides a robust model of SNP regulatory effects. While one could imagine that the observed network patterns might be driven by unwanted systematic variations in the genotype and gene expression data, our identification of similar structural properties in an eQTL network derived using an independent chronic obstructive pulmonary disease (COPD) dataset (23) further supports the network structural associations we have described. Nevertheless, this possibility, along with more detailed analysis of specific network-prioritized SNPs, should be further investigated as additional TS gene expression and genotype data become available through the next release of GTEx and other large-cohort studies.

Our analysis of bipartite networks built from both رابطة الدول المستقلة- and عبر-eQTL in 13 tissues provides important evidence about the collective role of eQTL in TS function and disease. The network communities reveal biological processes under the shared genetic influence of many variants, including both processes shared across tissues and those that are TS. The TS genetic regulation we observe is driven in part by SNPs that lie in TS active chromatin regions. This suggests that epigenetic profile analysis, applied to both genic and nongenic elements, will be essential for understanding the processes responsible for TS function. The eQTL networks also group together functionally related sets of variants, including GWAS SNPs, and the structure of the network provides a model of how multiple رابطة الدول المستقلة- and عبر-acting variants can work together to influence function and phenotype. While the network models we describe do not fully resolve the question of how weak-effect variants determine complex traits and disease, this network approach provides a framework with distinct explanatory power that can serve as a basis for further exploration of the link between genotype and phenotype.


الكاتب الاشتراكات

FXM, SM, and JB designed the experiments. FXM generated the yeast library. SC and SM generated the sequencing libraries. SC performed the ChIP-seq analysis. MRL and FXM designed and performed the RT–qPCR experiments. MAP and CTW designed, performed, and analyzed the growth experiments. AS designed, carried out, and analyzed the proteomics experiments. MC-Z and AB designed the analyses MC-Z and SR carried out the analysis. The manuscript was written by all authors. CTW, JB, and AB envisioned and supervised the project.


Cis-acting expression quantitative trait loci in mice

We previously reported the analysis of genome-wide expression profiles and various diabetes-related traits in a segregating cross between inbred mouse strains C57BL/6J (B6) and DBA/2J (DBA). By considering transcript levels as quantitative traits, we identified several thousand expression quantitative trait loci (eQTL) with LOD score >4.3. We now experimentally address the problem of multiple comparisons by estimating the fraction of false-positive eQTL that are under cis-acting regulation. For this, we have utilized a classic cis-trans test with (B6 x DBA)F(1) mice to determine the relative levels of transcripts from the B6 and DBA alleles. The results suggest that at least 64% of cis-acting eQTL with LOD >4.3 are true positives, while the remaining 36% could not be confirmed as truly cis-acting. Moreover, we find that >96% of apparent cis-acting eQTL occur in regions that do not share SNP haplotypes. Cis-acting eQTL serve as an important new resource for the identification of positional candidates in QTL studies in mice. Also, we use the analysis of the correlation structures between genotypes, gene expression traits, and phenotypic traits to further characterize genes expressed in liver that are under cis-acting control, and highlight the advantages and disadvantages of integrating genetics and gene expression data in segregating populations.

الأرقام

Informative SNP frequency across chromosome…

Informative SNP frequency across chromosome 16 between B6 and DBA. The horizontal line…

نتائج رابطة الدول المستقلةtrans…

نتائج رابطة الدول المستقلةعبر test on a subset of رابطة الدول المستقلة -acting eQTLs.…

Significant differences in the distribution…

Significant differences in the distribution of Pearson correlation coefficients involving genes with strong…

Scatter plot of the mlratios…

Scatter plot of the mlratios for the jumping translocation point ( JTP )…

Diagram explaining the overall negative…

Diagram explaining the overall negative correlation observed in Figure 3.

Highlighting what may be the…

Highlighting what may be the biologically relevant component of the correlation between the…

Utilization of genetics of gene…

Utilization of genetics of gene expression data in order to prioritize candidate genes…

Genes with eQTL that are coincident with the physical location of the 1810073K19Rik…


معلومة اضافية

تضارب المصالح

الكتاب تعلن أنه ليس لديهم المصالح المتنافسة.

Authors’ contributions

YH participated in the study design, produced RNA, analyzed allele specific expression and wrote the manuscript. FH aligned the RNA-seq data, created allele specific counts and manually curated the alignments when needed. LM bred the mice and provided the adipose tissue. AVN performed the F2 cross محلي-eQTL mapping. EE participated in study design and analysis. AJL and TD conceived the study, participated in study design and coordination and wrote the manuscript. كل الكتاب قراءة وافقت على المخطوط النهائي.


شاهد الفيديو: STAT115 Chapter GWAS Studies and eQTL Analysis (شهر فبراير 2023).