معلومة

لماذا أعيدت تسمية Pan_troglodytes-2.1.3 التجميع إلى Pre in ENSEMBL؟

لماذا أعيدت تسمية Pan_troglodytes-2.1.3 التجميع إلى Pre in ENSEMBL؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

بدأت العمل مع تجميع panTro3 الخاص بـ UCSC. يتوافق هذا التجميع مع CGSC Build 2.1.3. انظر هنا: https://genome.ucsc.edu/FAQ/FAQreleases.html

الآن ، لا بد لي من عبور التعليقات التوضيحية مع ENSEMBL (في الواقع ، أحتاج إلى استخدام أداة Biomart: http://www.ensembl.org/biomart/martview/2e4aac505f5cf5e0ac255b4a215a056c). ولكن يبدو أنه بين الإصدار 64 و 65 انتقلوا مباشرة من Chimp 2.1 إلى Chimp 2.1.4. لقد بحثت في بعض المعلومات ووجدت أن Chimp 2.1.3 أعيدت تسميته إلى Pre! انظر هنا: http://pre.ensembl.org/Pan_troglodytes/Info/Index وهنا http://www.ensembl.info/blog/2011/06/10/new-pre-site-for-chimpanzee/

هل هي طريقة لحل هذه المشكلة؟ كيف يمكنني استخدام تجميع Chimp 2.1.3 في Biomart مع GrCh37 كجينوم مرجعي (كنت أستخدم إصدارات مؤرشفة من Ensembl.org/biomart/martview/cbe191dccbe8e5a314cfebeaa8862ca0) ، ولكن يبدو أنه من غير الممكن عبوره بين الإصدارات المختلفة من ENSEMBL.


البرنامج التعليمي MAKER لتجميع WGS والمدرسة الشتوية للتعليقات التوضيحية 2018

MAKER عبارة عن خط أنابيب لتعليق الجينوم سهل الاستخدام مصمم ليكون قابلاً للاستخدام من قبل مجموعات بحثية صغيرة ذات خبرة قليلة في المعلوماتية الحيوية. ومع ذلك ، تم تصميم MAKER أيضًا ليكون قابلاً للتطوير وبالتالي فهو مناسب للمشاريع من أي حجم بما في ذلك الاستخدام بواسطة مراكز التسلسل الكبيرة. يمكن استخدام MAKER لـ من جديد شرح توضيحي للجينومات المتسلسلة حديثًا ، لتحديث التعليقات التوضيحية الحالية لتعكس أدلة جديدة ، أو لمجرد دمج التعليقات التوضيحية والأدلة وإحصاءات مراقبة الجودة لاستخدامها مع برامج GMOD الأخرى مثل GBrowse و JBrowse و Chado و Apollo.

تم استخدام MAKER في العديد من مشاريع شرح الجينوم (هذه مجرد أمثلة قليلة):

  • صنوبر تايدا - لوبلولي باين - PubMed
  • صنوبر لامبرتيانا - سكر باين - PubMed
  • حلق الفيوزاريوم - قشرة الصنوبر - ResearchGate
  • Latimeria menadoensis - الكولاكانث الأفريقي - PubMed
  • عطا سيفالوتس - قطاعة أوراق النمل - PubMed
  • Linepithema متواضع - النمل الأرجنتيني - PubMed
  • Pogonomyrmex بارباتوس - Red Harvester Ant - PubMed
  • Solenopsis invicta - Fire Ant - PubMed
  • Pythium Ultimum oomycete - PubMed
  • بتروميزون مارينوس - شرح Sea Lamprey وإعادة الشرح - PubMed
  • زيا ميس - إعادة شرح الذرة - PubMed


هناك العديد من المشاريع التي تستخدم MAKER حول العالم.


خلفية

تُعتبر عائلة جينات الليزوزيم الفقاري تقليديًا مكونة من ثلاثة جينات: الليزوزيم ج، لاكتالبومين ، وليزوزيم رابط للكالسيوم [1-4]. ليسوزيم ج، الليزوزيم من نوع الدجاج (أو التقليدي) ، هو إنزيم محلل للجراثيم يفرز في العديد من سوائل الجسم للثدييات (على سبيل المثال ، الدم والدموع والحليب) وتوجد بتركيز عالٍ في بيض العديد من أنواع الطيور [1 ، 2 ، 5]. ليسوزيم ج منتشر في الطبيعة وقد تم تمييز تسلسل البروتين والجينات من العديد من الفقاريات والأنواع غير الفقارية [3 ، 5 ، 6]. يرتبط Lactalbumin بالليزوزيم ، مع حوالي 40 ٪ من هوية الأحماض الأمينية وبنية ثلاثية الأبعاد متطابقة تقريبًا ، ولكنها تفتقر إلى نشاطها الجراثيم [1 ، 2 ، 4 ، 7]. يتم التعبير عن اللاكتالبومين في الغدد الثديية المرضعة ، حيث يربط أيون الكالسيوم ويعدل نشاط β-galactosyltransferase-1 ، بحيث يحفز المركب تخليق اللاكتوز [2 ، 4 ، 7]. لقد ثبت مؤخرًا أن Lactalbumin له نشاط ثانٍ في القناة الهضمية ، حيث يفقد أيون الكالسيوم ويربط حمضًا دهنيًا يبدو أن هذا الشكل الجديد من lactalbumin يعزز موت الخلايا المبرمج للخلايا السرطانية ، وبالتالي تمت إعادة تسميته HAMLET (جعل الألبومين البشري مميتًا لـ الأورام) [8]. يبدو أن Lactalbumin موجود فقط في الثدييات ، ويتم توزيعه على نطاق واسع في هذه المجموعة. يحتوي الليزوزيم المرتبط بالكالسيوم على نشاط مضاد للجراثيم مثل الليزوزيم ج، ولكن أيضًا يشترك مع lactalbumin في القدرة على ربط أيون الكالسيوم. يبدو أن الليزوزيمات الملزمة للكالسيوم نادرة نسبيًا حيث تم العثور عليها في حليب عدد قليل من أنواع الثدييات (على سبيل المثال. ، حصان ، كلب ، قطة ، فقمة ، وإيكيدنا) وكذلك في البيض (على سبيل المثال ، حمامة) والمعدة (على سبيل المثال.، hoatzin) لبعض أنواع الطيور [3 ، 9]. في الواقع ، لم يتم الإبلاغ عن جينات الليزوزيم المرتبطة بالكالسيوم لجينومات الإنسان أو القوارض.

التحليلات السابقة للتطور الوراثي للليزوزيم جو lactalbumin و تسلسل الليزوزيم المرتبط بالكالسيوم قد اقترحت أن الاختلافات المبكرة داخل عائلة الجينات هذه حدثت بين الليزوزيم ج وسلف جينات الألبومين اللبني والليزوزيم المرتبط بالكالسيوم ، وأن هذا الازدواج الجيني الأولي ربما سبق تباعد السلالات المؤدية إلى الأسماك والثدييات [10 ، 11]. تم اقتراح أن يكون فصل جينات الليزوزيم اللاكتالبومين المرتبط بالكالسيوم أكثر حداثة ، مع بعض الدراسات [9 ، 12] التي تشير إلى وجود اختلاف في سلالة الثدييات المبكرة ، والذي سيكون متسقًا مع تقييد جين اللاكتالبومين للثدييات. في المقابل ، اقترحت دراسة أخرى [11] أن الازدواجية التي تولد جينات اللاكتالبومين والليزوزيم المرتبط بالكالسيوم قد سبقت الاختلاف بين الطيور والثدييات. علاوة على ذلك ، تم التشكيك في تقويم تقويم الليزوزيمات المرتبطة بالكالسيوم في الثدييات والطيور [3 ، 11]. وبالتالي ، فإن أصل هذه الجينات الشبيهة بالليزوزيم في الثدييات يظل سؤالًا مفتوحًا.

في الآونة الأخيرة ، تم التعرف على cDNAs للعديد من متواليات الليزوزيم الشبيه بالليزوزيم من مكتبات الخصية البشرية (كدنا) [13-15]. تم العثور على cDNAs هذه لتكون مشفرة بواسطة الجينات التي تم شرحها الآن بواسطة فرقة [16] كما LYZL (مثل الليزوزيم): LYZL2 ، LYZL4 ، LYZL6 و LYZL3 (مرادف SPACA3 سباكا، أكروسوم الحيوانات المنوية المرتبطة [15]. سباكا 3 يُعرف أيضًا باسم SPRSA [14] و SLLP1 [13]). تحتوي تسلسلات البروتين المتوقعة لبعض هذه المتواليات الشبيهة بالليزوزيم على بدائل للأحماض الأمينية في مواقع مهمة للنشاط التحفيزي لليزوزيم ، مما يشير إلى أن هذه البروتينات لن تكون قادرة على التحلل المائي للروابط الجليكوسيدية للببتيدوغليكان البكتيري [13 ، 15]. منذ هذه الجينات الأربعة الجديدة التي تشبه الليزوزيم (LYZL2 ، LYZL4 ، LYZL6، و سباكا 3) في الغالب في الخصيتين ، وقد اقترح أنهما قد يكون لهما دور في التكاثر [١٣-١٥ ، ١٧]. وقد تم عرض مثل هذا الدور ل لايزل 4 و سباكا 3 في الفئران [18 ، 19].

تحديد هؤلاء LYZL تشير الجينات في الجينوم البشري إلى أن عائلة الجينات الشبيهة بالليزوزيم في الثدييات أكبر مما كان متوقعًا في السابق ، وتثير احتمال أن يكون للبروتينات الشبيهة بالليزوزيم المشفرة بواسطة هذه الجينات وظائف بيولوجية جديدة. استخدمنا هنا عمليات بحث تشابه واسعة النطاق لجينومات الإنسان والفقاريات الأخرى. وبالتالي حددنا ثلاثة جينات إضافية سليمة تشبه الليزوزيم في الجينوم البشري تم شرحها في قواعد البيانات ، ولكن لم يتم الإبلاغ عنها في الأدبيات. لقد حددنا أيضًا جينات متعددة تشبه الليزوزيم في جينومات الفقاريات المتنوعة. باستخدام مزيج من تحليلات الجوار الجيني والتطور الجيني (أو التركيبي) ، حيث تم فحص علاقات الجينات التي تحيط بالجينات الشبيهة بالليزوزيم في الأنواع المتنوعة ، نوضح أن تقويم الجينات البشرية الشبيهة بالليزوزيم موجود في جينومات أنواع الثدييات المتنوعة. تشير تحليلاتنا إلى وجود ستة أنواع مختلفة (أو فصائل فرعية) على الأقل ، وربما تسعة أنواع (أو فصائل فرعية) من الجينات الشبيهة بالليزوزيم في جينوم السلف المشترك لجميع الثدييات الموجودة ، وأن هذه الجينات المتنوعة قد تم الحفاظ عليها في معظمها. أنساب الثدييات. يشير هذا إلى أن منتجات البروتين الخاصة بهم ربما يكون لها وظائف بيولوجية أساسية لم يتم تحديدها بعد.


أساليب

تحليل مناطق المنبع

تم فحص بنية المروج لجينات vtRNA والمرشحين باستخدام مجموعة meme (Bailey et al.2006). يقوم برنامج meme (Bailey and Elkan 1994) بتنفيذ خوارزمية توقع - تعظيم لاكتشاف أنماط التسلسل التقريبي التي تم تمثيلها بشكل كبير في مجموعة من تسلسلات الإدخال غير المحاذاة. ثم يتم استخدام برنامج الصاري لاكتشاف التكرارات على الأنماط المشتقة من الميمات في التسلسلات الجديدة.

لتحليلنا ، استخدمنا 500 نانومتر من 5 متتالية مرافقة ، وجين vtRNA نفسه ، و 50 nt من 3 تسلسل المرافقة. يتم اختيار هذا الفاصل الزمني للتسلسل لتغطية عناصر المروج المعروفة (عنصر التسلسل البعيد [DSE] وعنصر التسلسل القريب [PSE]) في المنبع ومنطقة النهاية النهائية لجين VTRNA. تم تعلم الأنماط من الحمض النووي المحيط بـ vtRNAs المعروفة تجريبياً ومثيلاتها المحفوظة صناعياً في Mammalia (المجموعة A). بشكل مستقل ، تم إجراء محاذاة meme أيضًا في الموقع المحفوظ تخليقيًا في teleosts (المجموعة B) وعلى جميع مرشحي vtRNA من amphioxus ، tunicates ، لامبري (بتروميزون مارينوس)، قرش (Callorhinchus ميلي), Latimeria menadoensisالضفدع (العاشر الاستوائية) ، سحلية (أنوليس كارولينينسيس) والدجاج (جالوس جالوس مجموعة ج). بالنسبة إلى eutheria ، تم استكشاف العديد من أطوال الفكرة والنماذج المختلفة بنتائج متسقة إلى حد كبير فيما يتعلق بأوجه التشابه بين المرشحين من مواقع vtRNA المحفوظة بشكل تركيبي. تم استخدام الإعدادات الافتراضية لجميع المعلمات الأخرى. تم توثيق مجموعات الإدخال الكاملة والمعلمات المرتبطة بها في المواد التكميلية على الإنترنت.

من أجل مقارنة أشكال meme مع السمات المعروفة لمروّجات polymerase III ، استخرجنا الزخارف المتسلسلة المقابلة من الأدبيات حول vtRNAs ونصوص polymerase III الأخرى (Geiduschek and Tocchini-Valentini 1988 Kickhoefer et al. 1993 Kickhoefer et al. 2003 Vilalta وآخرون 1994 فان زون وآخرون 2001 إنجليرت وآخرون 2004).

ثم استخدمت الزخارف التي تم تحديدها بواسطة meme كمدخلات لعمليات البحث على الصاري (Bailey and Gribskov 1998) ضد متماثلات الحمض النووي الريبي Vt ذات الموقع الجيني غير المعروف ، ولا سيما آثار البنادق و contigs من الجينومات منخفضة التغطية.

تعبير الإنسان vtRNA

زراعة الخلايا

نمت خلايا MCF-7 و HEK-293 و PC3 و Du-145 و HeLa (ATCC) في نسبة الجلوكوز المتوسطة / العالية من إنتاج Dulbecco مع 10 ٪ FCS (Biochrom) ، و 100 وحدة / مل من البنسلين ، و 100 ميكرومترجم / مل من الستربتومايسين (PAA). نمت خلايا LNCaP (ATCC) في RPMI1640 مكملًا بـ 10 ٪ FCS (Biochrom) ، و 100 وحدة / مل من البنسلين و 100 ميكروغرام / مل من الستربتومايسين (PAA) ، و 10 ملي مولار. ن-2-هيدروكسي إيثيلبيبرازين-نحمض -2-إيثان سلفونيك (بيوكروم). نمت خلايا RWPE-1 (ATTC) في وسط خالٍ من المصل الكيراتيني (Gibco-BRL) مع 5 نانوغرام / مل من EGF المؤتلف البشري (Gibco-BRL) و 0.05 مجم / مل من مستخلص الغدة النخامية البقري (Gibco-BRL). تمت زراعة جميع الخلايا عند 37 درجة مئوية في جو رطب بنسبة 5 ٪ من ثاني أكسيد الكربون2 في الهواء.

تفاعل البلمرة المتسلسل الكمي في الوقت الحقيقي

تم استخلاص إجمالي الحمض النووي الريبي من الأجزاء المختلفة باستخدام كاشف TRIzol وفقًا لتعليمات الشركة الصانعة (Invitrogen ، Carlsbad ، CA). يتم سرد تسلسل الاشعال التي تم استخدامها لتنفيذ تفاعل البلمرة المتسلسل الكمي في الوقت الحقيقي (qRT-PCR) في المواد التكميلية عبر الإنترنت. في الكل ، 5 ميكرومترتم نسخ إجمالي الحمض النووي الريبي لكل جزء عكسيًا باستخدام بادئات سداسية عشوائية ومجموعة النسخ العكسي عالية السعة (الأنظمة البيولوجية التطبيقية). تم تخفيف cDNA بنسبة 1: 12.5 وعمل كقالب لتحليل qRT-PCR باستخدام نظام TaqMan 9700 (النظم البيولوجية التطبيقية) مع FAST SYBR Green Mastermix (النظم البيولوجية التطبيقية). يتم سرد تسلسل البادئات في المواد التكميلية على الإنترنت. تم تأكيد جميع amplicons بالتسلسل. لكل مقايسة vtRNA ، تم حساب منحنى قياسي للتحقق من كفاءة تفاعل البلمرة المتسلسل (PCR). تم تطبيع التعبير عن vtRNA في خطوط الخلايا المختلفة إلى الحمض النووي الجيني.

VtRNAs في مكتبات تسلسل القراءة القصيرة

تم إنتاج مجموعات البيانات التي تم تحليلها هنا لأجزاء vtRNA في سياق مشاريع أخرى وكانت (بيانات HeLa [Friedländer et al. 2008]) أو سيتم نشرها في هذا السياق. باختصار ، تم عزل الحمض النووي الريبي الكلي من أنسجة قشرة الفص الجبهي المجمدة باستخدام بروتوكول TRIzol (Invitrogen) بدون تعديلات. تم عزل الحمض النووي الريبي منخفض الوزن الجزيئي ، وربطه بالمحولات ، وتضخيمه ، وتسلسله بعد بروتوكول تحضير الحمض النووي الريبي الصغير (Illumina) دون أي تعديلات.

تمثل مكتبات BGI cortex و rep1 و rep2 ثلاثة مكررات تقنية لنفس العينات الثلاثة المجمعة من قشرة الفص الجبهي للإنسان والشمبانزي وقرود المكاك الريسوسية. في كل حالة ، قبل عزل الحمض النووي الريبي منخفض الوزن الجزيئي ، تم الجمع بين مجموع الحمض النووي الريبي من 20 فردًا بشريًا تتراوح أعمارهم بين 14 و 58 عامًا ، و 5 قردة شمبانزي تتراوح أعمارهم بين 7 و 44 عامًا ، و 5 قرود مكاك ريسوس تتراوح أعمارهم بين 4 و 10 سنوات بكميات متساوية . تم إجراء النسخ المتماثل من خلال معالجة مستقلة للعينة المختلطة المكونة من 20 فردًا بدءًا من خطوة عزل الحمض النووي الريبي منخفض الوزن الجزيئي. مكتبة المخيخ: تم الجمع بين مجموع الحمض النووي الريبي من خمسة أفراد من البشر تتراوح أعمارهم بين 20 و 56 عامًا ، وخمسة شمبانزي تتراوح أعمارهم بين 7 و 44 عامًا ، وخمسة قرود مكاك ريسوس تتراوح أعمارهم بين 4 و 10 سنوات بكميات متساوية. مكتبة الشيخوخة: تم تحليل 14 مسار تسلسلي لعينة تحتوي على الحمض النووي الريبي من قشرة الفص الجبهي لـ 12 شخصًا تتراوح أعمارهم بين 0 و 98 عامًا.

قراءة الخرائط القصيرة

لا يمكن رسم خرائط المكتبات الكبيرة التي تحتوي على مئات الآلاف من التسلسلات القصيرة غير الدقيقة لجينومات الثدييات الكبيرة بشكل موثوق وفعال من خلال الاستدلال الشائع الاستخدام مثل Blat (Kent 2002) أو Blast (Altschul et al.1997). هذا بسبب القيود في كل من الموارد الحسابية والدقة. لذلك استخدمنا segemehl ، وهي أداة رسم خرائط جديدة تعتمد على مصفوفات لاحقة محسنة (أبو الهدى وآخرون 2004) ، والتي تم تطويرها بواسطة Hoffmann et al. (قادم، صريح، يظهر). يستخدم أسلوب الاستدلال البديل بناءً على الإحصائيات المطابقة (Chang and Lawler 1990) لدمج ليس فقط حالات عدم التطابق ولكن أيضًا عمليات الإدراج والحذف.

قمنا أيضًا بتعيين جميع مكتبات التسلسل العميق مباشرةً مقابل التسلسلات الأربعة المرشحة لدينا باستخدام برنامج Soap (Li et al. 2008) مما يسمح بحد أقصى لموقف عدم تطابق واحد وحجم بذرة 8.

التعبير عن Teleost vtRNAs

تم عزل الحمض النووي الجيني والحمض النووي الريبي الكلي من أنسجة كبد السمك باستخدام كواشف DNAzol و TRIzol (Invitrogen) ، على التوالي ، باتباع بروتوكولات الشركة المصنعة. تم تحديد تركيزات عينات الحمض النووي والحمض النووي الريبي بواسطة قياس A260 باستخدام Nanodrop ND-1000 Nanodrop (تقنيات Nanodrop). تم تضخيم vtRNAs المفترضة للأسماك عن بُعد من تفاعل البوليميراز المتسلسل من الحمض النووي الجيني (0.5 ميكرومترز / 50 ميكرومتررد فعل) مع طق بوليميريز الحمض النووي (نيو إنجلاند بيولابس) والبادئات الخاصة بالجينات عند 1 ميكرومترالتركيز النهائي م. تم تصميم كل مادة أولية (مدرجة في الملحق) لتصلب على وجه التحديد إلى جينات teleost vtRNA ذات الصلة.

تم إجراء PCR بدورة واحدة عند 95 درجة مئوية لمدة دقيقتين ، تليها 35 دورة من 94 درجة مئوية لمدة 20 ثانية ، و 58 درجة مئوية لمدة 20 ثانية ، و 72 درجة مئوية لمدة 15 ثانية ، وانتهى باستطالة نهائية عند 72 درجة مئوية لمدة دقيقتين. تم تنقية منتجات PCR في هلام واستنساخها pZero متجه (Invitrogen) لتأكيد التسلسل لتضخيم جينات vtRNA المحددة.

النسخ العكسي - تفاعل البوليميراز المتسلسل

تم التحقق من التعبير عن vtRNAs الفردية عن طريق تفاعل النسخ العكسي - البوليميراز المتسلسل (RT-PCR). من 2 ميكرومترغرام من إجمالي الحمض النووي الريبي ، الميداكا (لاتيبس اوريزيا) أو الزرد (د. ريريو) ، تم إعداد مكتبات (كدنا) باستخدام نسخة عكسية من Thermoscript (Invitrogen) وبادئ سداسي عشوائى عشوائي باتباع تعليمات الشركة الصانعة. تم استخدام البادئات الخاصة بالجينات لتضخيم متواليات vtRNA المفترضة من مكتبات cDNA في ظل ظروف مشابهة لحالة PCR لعينات الحمض النووي الجينومي ، باستثناء 3-5 دورات إضافية. تم استنساخ منتجات RT-PCR إلى pZero متجه ومتسلسل. كانت تفاعلات Mock RT مع إنزيم النسخ العكسي المحذوف بمثابة عنصر تحكم سلبي.

تحليل اللطخة الشمالية

تم إجراء النشاف الشمالي كما هو موضح سابقًا (Xie et al. 2008) مع تعديلات طفيفة. باختصار ، 20 ميكرومترتم حل g من إجمالي الحمض النووي الريبي و vtRNA المنسوخ في المختبر (0.1 و 1 نانوغرام) على 6 ٪ بولي أكريلاميد / 8 M هلام تغيير طبيعة اليوريا ونقل كهربائيًا إلى غشاء Hybond-XL (Amersham Biosciences) عند 0.5 أ لمدة ساعتين. تم تحضير الريبروبس لتحليل النشاف الشمالي وعلامات الحجم ، medaka (MEDAKA1_s3838_742) و zebrafish (ZFISH7_14_454804) vtRNAs ، بواسطة T7 في النسخ المختبر باستخدام PCR DNA كقالب (Xie et al. 2008). يتم سرد تسلسل تمهيدي PCR في المواد التكميلية عبر الإنترنت. تم تصنيف البروبروبس داخليًا بـ [α- 32 P] UTP في تفاعل نسخ T7 باستخدام مجموعة Maxiscript (Ambion). بعد النقل ، تم تهجين الغشاء باستخدام ريبوبروبس (1 × 10 6 cpm / ml) عند 65 درجة مئوية طوال الليل في محلول Ultrahyb (Ambion) وغسله مرتين عند 65 درجة مئوية في 1x سترات ملحية قياسية (SSC) / 0.2 ٪ كبريتات دوديسيل الصوديوم (SDS) لمدة 10 دقائق ومرتين في 0.2x SSC / 0.1٪ SDS لمدة 20 دقيقة. تم تحليل اللطخة وقياسها باستخدام الفوسفوريماجر ، Bio-Rad FX Pro.


بيانات الوصف

كان لدى الفرق المشاركة (الجدول 1) أربعة أشهر لتجميع تسلسل الجينوم من مجموعة متنوعة من بيانات تسلسل NGS (الجدول 2 والملف الإضافي 1) التي تم توفيرها عبر موقع Assemblathon الإلكتروني [29]. سُمح لكل فريق بتقديم مشاركة تنافسية واحدة لكل نوع من الأنواع الثلاثة (الطيور ، والأسماك ، والأفعى). بالإضافة إلى ذلك ، سُمح للفرق بتقديم عدد من مجموعات "التقييم" لكل نوع. سيتم تحليل هذه المشاركات بنفس طريقة تحليل المشاركات التنافسية ، ولكنها لن تكون مؤهلة للإعلان عن المشاركات "الفائزة". يتم استبعاد النتائج من العدد الصغير لإدخالات التقييم (3 و 4 و 0 للطيور والأسماك والأفعى على التوالي) من أقسام التحليلات أدناه ، ولكن تتم الإشارة إليها في المناقشة.

تم إنشاء التجميعات باستخدام مجموعة متنوعة من البرامج (الجدول 1) ، مع اختلاف كبير في متطلبات الأجهزة والوقت. تتوفر تفاصيل عن أرقام الإصدارات المحددة وتوافر البرامج وإرشادات الاستخدام لمعظم الإدخالات (ملف إضافي 2: الجدولين S2 و S3) ، وكذلك إرشادات التجميع الشاملة (ملف إضافي 3).

تم استبعاد التجمعات من التحليل التفصيلي إذا كان حجمها الإجمالي أقل من 25 ٪ من حجم الجينوم المتوقع للأنواع المعنية. الإدخالات من فريقي CoBig 2 و PRICE لم تستوف هذا المعيار وتم تضمين نتائجها في ملف إضافي 4 ، ولكنها غير واردة في هذه الورقة (مع ذلك ، انظر المناقشة للحصول على معلومات بخصوص المحتوى الجيني لتجميع PRICE). قدمت معظم الفرق ملفًا واحدًا من تسلسلات السقالات ، ليتم تقسيمها إلى contigs للتحليلات المستندة إلى contig. ومع ذلك ، قدم عدد صغير من الفرق (ABL و CSHL و CTD و PRICE) إدخالًا واحدًا أو أكثر يتكون فقط من متواليات contig التي لم تخضع للسقالات.

التجميعات المقدمة لـ Assemblathon 2 متاحة على موقع Assemblathon [29] وأيضًا من GigaDB [30]. تم إيداع جميع قراءات الإدخال في أرشيفات قراءة متسلسلة ضمن المدخلات ERP002324 (طائر) و SRA026860 (أسماك) و ERP002294 (ثعبان) انظر الملف الإضافي 5 للحصول على قائمة مفصلة بجميع مدخلات التسلسل المرتبطة. تم أيضًا وصف تفاصيل بيانات تسلسل الطيور ، بالإضافة إلى الشروح الجينية ، بشكل منفصل (المخطوطة قيد الإعداد ، والبيانات في GigaDB [31]). متواليات Fosmid المجمعة للطيور والأفعى التي تم استخدامها للمساعدة في التحقق من صحة التجميعات متوفرة أيضًا في GigaDB [32].

علاوة على ذلك ، يتوفر كود المصدر للنصوص المستخدمة في التحليل من مستودع جيثب [33]. تتوفر نتائج جميع إحصائيات التجميع المختلفة كجدول بيانات (ملف إضافي 4) أو كملف نصي بتنسيق CSV (ملف إضافي 6). للحصول على تفاصيل حول الملفات الإضافية ، راجع قسم "توفر البيانات الداعمة".


مقدمة

مثيلة الحمض النووي هي آلية جينية مهمة تتضمن الارتباط التساهمي لمجموعة الميثيل مع موضع الكربون الخامس للسيتوزين في ثنائي النوكليوتيدات CpG في الفقاريات 1. تعتبر هذه الآلية بشكل عام علامة فوق جينية قمعية تمنع التعبير الجيني 2. تلعب مثيلة الحمض النووي دورًا مهمًا في العديد من العمليات البيولوجية مثل التطور الجنيني وتكوين الأمشاج 1،3،4. تتم عملية مثيلة الحمض النووي بواسطة DNA methyltransferases (Dnmts): صيانة methyltransferase Dnmt1 5 و من جديد ميثيل ترانسفيراز Dnmt3 6. يمكن تحقيق محو علامات المثيلة إما بشكل سلبي من خلال تثبيط Dnmt1 أثناء تكاثر الحمض النووي وانقسام الخلايا 7 ، أو بشكل نشط من خلال عمل عائلة ديوكسيجيناز من عشرة إلى عشر (Tet) من خلال الأكسدة التكرارية لـ 5-ميثيل سيتوزين (5mC) والثايمين إصلاح استئصال القاعدة المعتمد على DNA glycosylase (Tdg) (BER) 8،9،10.

تم وصف آلية مثيلة الحمض النووي / نزع الميثيل جيدًا في الثدييات. في حين dnmt1 يُعرف عمومًا بأنه جين نسخة واحدة أثناء التطور 11 ، متعدد dnmt3 تم العثور على الجينات في الفقاريات مع مكاسب وخسائر مختلفة بين سلالات رباعيات الأرجل 12. الثدييات dnmt3 تتكون الأسرة من أربعة أفراد: dnmt3a, dnmt3b, dnmt3c و dnmt3l 13,14 . dnmt3l بمثابة عامل مساعد غير نشط تحفيزيًا لـ من جديد المثيلة ، وتوجد فقط في الثدييات eutherian وفي بعض الجرابيات 15 ، بينما dnmt3c، الذي تم شرحه مسبقًا على أنه جين زائف ، تم تحديده مؤخرًا في جينومات القوارض 14. في المقابل ، حدث اكتشاف الجينات النشطة المرتبطة بنزع الميثيل متأخرًا إلى حد ما ، مع ثلاثة تيت Paralogs (tet1, tet2 و tet3) وحيدة tdg الجين الموجود في جينومات الثدييات 9،10،16. يشير تحديد جينات مثيلة الحمض النووي المحفوظة جيدًا في الفقاريات ، بما في ذلك teleosts ، إلى أنه يمكن حفظ هذه المسارات التنظيمية عبر الفقاريات 17 ، 18. ومع ذلك ، نظرًا للجولة الإضافية لحدث تكرار الجينوم الكامل (WGD) الذي حدث قبل إشعاع السلالة البعيدة [TGD ، ازدواج الجينوم المحدد عن بُعد ، 320 ميا (منذ مليون سنة)] ، زيادة في عدد نسخ من تم العثور على هذه الجينات في الأنواع teleost 19. على سبيل المثال ، ملف من جديد ميثيل ترانسفيراز dnmt3 تبين أنه أكثر تباينًا في teleosts مقارنة بالثدييات: على الرغم من عدم وجود dnmt3l في الزرد (دانيو ريريو) الجينوم ، حتى 6 dnmt تم تحديد الجينات على أنها متعامدة مع الثدييات dnmt3a و dnmt3b الجينات 20،21،22. وبالمثل ، 4 إلى 9 مختلفة dnmt3 تم الإبلاغ عن وجود paralogs في جينوم الأنواع الأخرى عن بعد 23،24،25،26،27،28.

من المقبول عمومًا أن حدث WGD يمكن أن يوفر مادة وراثية إضافية للاختيار ، وبالتالي يرتبط بتنوع النمط الظاهري والابتكارات التطورية 29. بدلاً من ذلك ، يمكن أن تنشأ الجينات المضاعفة أيضًا من عمليات التكرار الصغيرة (SSD) والتي يمكن أن تنتج أنواعًا مختلفة من التكيفات مقارنةً بـ WGD 30. بعد أحداث WGD أو SSD ، يمكن إما فقد الجينات المضاعفة أو الاحتفاظ بها بثلاث نتائج متميزة: الحفاظ على وظائف جينات الأجداد ، أو الوظيفة الفرعية ، أو الوظيفة الجديدة 31. من خلال هذه العمليات ، قد يساهم تثبيت نسخ إضافية من جينات مثيلة الحمض النووي في جينومات teleost في التنويع والتكيف البلاستيكي في teleosts. ومع ذلك ، لتوصيف هذه التكيفات ، من الضروري أولاً فهم الأصل التطوري لهذه النسخ الإضافية.

إن التوافر المتزايد للجينومات المتسلسلة للأنواع البعيدة يسهل إنشاء دراسة مقارنة شاملة لجينات مثيلة الحمض النووي بين الأصناف المختلفة. ومع ذلك ، تم إجراء القليل من الدراسات لتوضيح التاريخ التطوري لـ dnmt, تيت و tdg الجينات في الفقاريات 22،23،24،32. ومن ثم ، فإن التاريخ التطوري والعلاقة التقويمية لجينات مثيلة الحمض النووي تظل غير مكتملة وغير واضحة ، خاصة عند النظر في الجينومات ذات التعقيد العالي ، أنا.ه. أنواع السلمونيد ، التي شهدت جولة رابعة من WGD (ازدواج جينوم معين للسلمونيد ، SaGD ، 100 ميا).

تهدف الدراسة الحالية إلى صقل المعرفة الحالية المتعلقة بالتاريخ التطوري لـ dnmt الجينات في الفقاريات ، وتحديث القصة الحالية بجميع جينات مثيلة الحمض النووي (dnmt, تيت و tdg) لتصنيفات ممتدة داخل شعبة الحبليات. لإجراء الدراسة الحالية ، اخترنا الأنواع التمثيلية ذات الجينوم المتسلسل لأصناف مختلفة من وجهة نظر WGD. تراوت قوس قزح (Oncorhynchus mykiss) ، وهي سمكة سلمونية ، كنوع نموذجي ، من المفترض أن تحتوي على الحد الأقصى من نسخ جينات مثيلة الحمض النووي بين الحبليات بسبب SaGD. لاستكشاف ما إذا كانت أحداث WGD تؤدي إلى وظيفية فرعية أو جديدة لجينات مثيلة الحمض النووي ، تم إجراء تقديرات لأنماط التعبير عن جينات مثيلة الحمض النووي أثناء التولد الجيني والتطور المبكر في سمك السلمون المرقط.


أساليب

مجموعة من المتواليات

يتم تحديد الإجراءات الرئيسية بشكل تخطيطي في الملحق. الشكل 18. تم جمع المتواليات بعدة طرق. أولاً ، تم فحص التسلسلات التي تم جمعها مسبقًا [23 ، 24 ، 29] مقابل الإصدارات الحالية والمحدثة من الجينومات لتشمل المراجعات المحتملة للتسلسلات الجينية. تم إجراء ذلك من خلال البحث في GenBank (مجموعة النيوكليوتيدات ، ومحاذاة الجينوم الكاملة ، وتجميعات بندقية النسخ ، وتجميعات الجينوم المحددة) ، باستخدام nucleotide BLAST [66 ، 67] ، و Ensembl ، باستخدام خيار BLAST / BLAT المقابل المدمج في Ensembl ، في كلتا الحالتين الحصول على محاذاة زوجية بين تسلسلاتنا القديمة والتسلسلات الحالية في قواعد البيانات. ثانيًا ، تم العثور على التسلسلات المشروحة والمسمية باستخدام "connexin" و "gap junction protein" و "gja" و "gjb" و "gjc" و "gjd" و "gje" وأسماء الأنواع ذات الصلة كمصطلحات بحث في GenBank و فرقة. إذا كان هناك نقص في بعض التسلسلات المتوقعة في نوع معين ، فقد تم البحث في مجموعات الجينوم للأنواع المعنية باستخدام تقويم العظام (المفترض) من الأنواع الأخرى. عند الحاجة ، تم إجراء محاذاة متعددة بواسطة MUSCLE [68] ، على سبيل المثال ، لتسوية الحدود المحتملة بين الإنترونات والإكسونات ولتحديد النسب المئوية للهويات بين التسلسلات المختلفة (على سبيل المثال ، في الملحق 13 أ و 13 ب). من خلال مزيج من الأساليب الموضحة أعلاه ، وجدنا العديد من تسلسلات connexin غير متوقعة حاليًا في قواعد البيانات ، وتم تضمينها في تحليلاتنا (تم تمييزها بواسطة NP كما هو موضح أدناه تحت مصطلحات التسمية).

إذا كانت التسلسلات المؤكدة أو المتوقعة تجريبياً متاحة في GenBank ، فقد تم أيضًا جمع أرقام الانضمام الخاصة بهم (لضمان التسمية الفريدة للتسلسلات). اعتمادًا على الأنواع والجينات المعنية ، استخدمنا التسلسل المرجعي NCBI كلما أمكن ذلك. خلاف ذلك ، تم جمع أسماء أو أرقام الجينات / RNA من Ensembl. يتم توفير جميع التسلسلات ، مع أرقام دخول GenBank أو أرقام جينات Ensembl إذا كانت ذات صلة ، في التين التكميلي. 1-12.

من بين teleosts ، قمنا بجمع متواليات من أسماك الزرد (دانيو ريريو، مختصر دكتور) ، أبو شوكة (Gasterosteus aculeatus ، Ga) [69] ، السمكة المنتفخة اليابانية (Takifugu rubripes ، غالبا ما تسمى فوغو روبريبس، تسمى Fugu في النص ، وتختصر الأب) [50 ، 70] ، السمكة المنتفخة الخضراء المرقطة (تتراودون نيجروفيريديس ، Tn) [71] ، الرنجة الأطلسية (كلوبيا هارينغوس الفصل) [17 ، 62] ، سمك القد الأطلسي (جادوس مورهوا، جم) [48، 72] والأنقليس الأوروبي أو الأمريكي أو الياباني (أنغيلا أنغيلا، أأ أنغيلا روستراتا، Ar أو أنغيلا جابونيكا، Aj). بالنسبة إلى ثعبان البحر ، اخترنا الإشارة إلى تحسين أنغيلا جابونيكا التجميع [73 ، 74] لأنه يحتوي إلى حد بعيد على أطول سقالات ، بمساعدة مجموعات بندقية الجينوم الأخرى أ. جابونيكا [75], A. anguilla [44] و أ. rostrata [46] ، وكذلك مجموعات بندقية النسخ من A. anguilla [76 ، 77 ، 78] و أ. جابونيكا [79].

كمقارنة لتسلسل الأسماك ، واتباع اصطلاحات تسمية الزرد [52] ، قمنا بجمع متواليات من البشر (الإنسان العاقل ملحق Hs. الشكل 1) ، فأر (موس العضلات مم ملحق. الشكل 2) و الأبوسوم (Monodelphis domestica ، ملحق Md. الشكل 3) ، واستكملها بتتابعات مفردة معينة من خلد الماء (Ornithorhynchus anatinus، Oa) ، كوالا (Phascolarctos cinereus)، الشيطان التيسماني (Sarcophilus harrisii، ش) ، والابي (Notamacropus eugenii) ، ثعلب طائر كبير (Pteropus vampyrus ، Pv) ، الثعلب الطائر الأسود (Pteropus alecto، بنسلفانيا) ، الروسيت المصري (Rousettus aegyptiacus، رع) ، خنزير الأرض (Orycteropus afer afer ، عفر) ، خروف البحر (تريشيه ماناتوس، TM) ، الفيل الأفريقي (Loxodonta africana، لا) و أرماديلو (Dasypus novemcinctus، Dn) (ملحق الشكلين 4 و 12). يتم تقديم جميع التسلسلات في المعلومات التكميلية ، حيث يمكن أيضًا استنتاج قاعدة البيانات ذات الصلة وفقًا للاسم / الهوية التي قدمناها للتسلسل.

يشار إلى الانحرافات المقترحة عن التسلسلات المتوقعة في المعلومات التكميلية. إذا لم تحتوي التسلسلات المتوقعة على أكواد بدء وإيقاف محتملة ، فقد قمنا بتحليل الجينوم لتوسيع التسلسلات إلى تلك الأكواد ، باتباع النمط الذي وضعه خبراء تقويم العظام في الأنواع الأخرى. إذا احتوت التسلسلات المتوقعة على introns ، فقد بحثنا فيما إذا كان تحريك حدود exon-intron قد أدى إلى تحسين التشابه بين التسلسلات وأنماط التسلسل المحددة ، حتى من خلال تضمين intron بالكامل كجزء من exon. في حالات قليلة ، اقترحنا أيضًا أنواعًا أخرى من التعديلات ، باتباع الأنماط المحددة لهذه التسلسلات في الأنواع الأخرى. علاوة على ذلك ، تم تضمين أي تسلسلات غير متوقعة (أي تلك التي لم يتم توقعها في Ensembl أو GenBank) التي وجدناها أثناء عمليات البحث الحالية.

توجد العديد من الجينات الكاذبة في عائلة جينات الوصلة الفراغية ، أيضًا في البشر [29]. مع استثناء واحد ، لا يتم تضمين الجينات الزائفة الواضحة في التحليلات الموضحة. الاستثناء الوحيد هو الجين البشري الزائف الجديد (يُدعى GenBank NG_026166 باسم GJA4 الجين الكاذب) لم نكتشفه في تحليلاتنا السابقة [23 ، 24 ، 29]. بالإضافة إلى ذلك ، تم استخراج تقويم العظام لـ NG_026166 من جينومات العديد من أنواع الثدييات (ملحق. الشكل 12).

مصطلحات التسمية

للتمييز بين الجينات البشرية والأنواع الأخرى ، يوصى عمومًا بكتابة الاختصارات الخاصة بأسماء الجينات البشرية بأحرف كبيرة ، مع استخدام الأحرف الصغيرة للأنواع الأخرى. لغرض هذه الورقة ، سيكون هذا غير مريح لأننا غالبًا ما نشير إلى مجموعات الجينات ، ونحن هنا نستخدم الحالة الكبيرة عند الإشارة إلى الجينات البشرية ومجموعات الجينات المتعامدة في الثدييات ، بينما يشار إلى جينات teleost بشكل عام بالحالة الصغيرة حروف. نستخدم أيضًا الأحرف الكبيرة عندما نشير إلى مجموعة متعامدة كاملة (على سبيل المثال ، جينات الثدييات بالإضافة إلى جينات teleost). هناك بعض الاستثناءات من تهجئة الأحرف الكبيرة والصغيرة ، لأنه عندما نشير إلى جينات مفردة معينة ، فإننا نستخدم (قدر الإمكان) أسماء الجينات الواردة في GenBank أو Ensembl.

لضمان تفرد كل اسم مستخدم في العمل الحالي ، أضفنا رقم انضمام GenBank أو شكلًا مختصرًا لرقم جين Ensembl إلى الأسماء التي كانت التنبؤات متاحة في قواعد البيانات الحالية. تم اختصار أسماء الجينات المحددة بشكل عام كما هو موضح في قاعدة البيانات ، أو يمكن استنتاج الاختصارات من اسم قاعدة البيانات. على سبيل المثال ، بالنسبة إلى XM_003965660 ، الاسم الكامل ("التعريف") هو "Takifugu rubripes بروتين مفرق الفجوة ، ألفا 9 ، 59 كيلو دالتون (gja9) ، مرنا ". في هذه الحالة ، يتم إعطاء الاسم مع كل من التسمية اليونانية والحجم ، ويتم اختصار الاسم بأحرف صغيرة بين قوسين. وهكذا ، استخدمنا هنا اسم الجين Fr-gja9-cx59-XM_003965660. بالنسبة إلى XM_021466745 ، الاسم الكامل هو "دانيو ريريو connexin 55.5 (cx55.5) ، متغير النص X1 ، مرنا ". اختصرنا هنا الاسم إلى د.سي اكس 55.5-XM_021466745. بالنسبة إلى XM_011619942 ، الاسم الكامل هو "Takifugu rubripes فجوة تقاطع alpha-10 تشبه البروتين (LOC1010664818) ، mRNA "، وتم اختصارها Fr-gja10like-XM_011619942. عندما يتم عرض أو توقع العديد من متغيرات النص بشكل تجريبي ، استخدمنا فقط متغير النص X1.

إذا تم توقع الجين في قاعدة بيانات Ensembl ، ولكن لم يكن هناك اسم متاح ، فقد استخدمنا اسم الجين ذي الصلة للإشارة إلى المجموعة الصحيحة من التسلسلات. على سبيل المثال ، Tetraodon gjb2 / 6-like sequence ENSTNIG00000010340 (with the corresponding transcript prediction ENSTNIT00000013438) had no name or description. We abbreviated the gene Tn-NN-cx30.3-G10340 (where NN = No Name). This is an example of a gene for which our transcript prediction differed from the database, as indicated in the Supplemental Information.

If the gene was not predicted in a species, but found in our Blast searches, it was suitably named but with the prefix NP (Not Predicted). One example is Tn-NP-cx30.3. Thus, Tetraodon has a total of four genes in the Cx30.3 group, two that have been predicted and are named in Ensembl, one that has been predicted but not named, and one that has not been predicted by the database (but by us).

To be able to follow certain very closely related groups of sequences in an easy manner, previously un-named (or unpredicted) sequences in the cx30.3 و gjd2 groups were named with the postfixes *1/*2/*3 for the purposes of the present manuscript.

تحليلات النشوء والتطور

The phylogenetic analyses were performed in MEGA7 [80] or MEGA-X [81] using the conserved domains essentially as described in Cruciani and Mikalsen [24] because of the distant evolutionary relationship between mammals and fish. Here, we extended the previously defined conserved domains by 15 nucleotides in 3′-direction for the first conserved domain (i.e., into the sequence corresponding the intracellular loop), and by 15 nucleotides in both 5′- and 3′-direction for the second conserved domain. All sequences and the limits of the sequences used in the phylogenetic analyses are presented in the Suppl. Fig. 1–12, where previously defined conserved sequences [24] are marked in yellow, and the 15 nucleotide extensions are marked in grey.

The main questions for the phylogenetic analyses were related and also partly overlapping, and were as follows: (i) The connection between the naming of the teleost sequences (naming taken from the main databases GenBank and Ensembl) and their position in a specific orthologous group, i.e., do teleost orthologs have the same name? (ii) The (orthologous) relationships between the teleost sequences and the corresponding mammalian sequences. Is there a (reasonably) stable structure in the connexin gene family across the teleosts, i.e., do teleost connexins distribute into orthologous groups in a manner more or less similar to the mammalian sequences? (iii) The ohnologies among the teleost sequences. Note that our present questions do not concern the relatedness within the whole tree (i.e., the complete evolutionary history of the connexin gene family). The present knowledge of evolutionary history of the connexin gene family is graphically summarized in Fig. 4 in ref. [24]. The needed translation between the nomenclature systems is found in Table 3. This translation also includes the recently suggested “alphabetical” nomenclature in mammals [26].

Model selection was run in MEGA X using amino acid models. Settings were automatic tree building using Neighbor-Joining model and partial deletion using a site coverage cutoff of 95%. Minimal differences were found between the models estimated with similar Bayesian Information Criterion, but in general simpler models were preferred (Jones-Taylor-Thornton, Le-Gascuel and Dayhoff substitution matrices). We therefore ran the phylogenetic analyses with different construction methods (Maximum Likelihood, Maximum Parsimony and the two distance methods Neighbor-Joining and Minimum Evolution) using different substitution models as indicated in Suppl. Table 2. Several construction methods were used as they have different strengths and weaknesses with regard to the degree of relatedness of the sequences, the differences in evolutionary rates in different branches, how highly divergent sequences are behaving, etc. Settings for each particular analysis are available in Suppl. Table 2. Each method was used at both amino acid and nucleotide levels (the latter using only positions 1 and 2 in the codon), and in many cases with both bootstrap and interior branch statistics. In total, 21 statistical analyses were performed, and they are summarized in Suppl. Table 1, with the corresponding parameter settings in Suppl. Table 2. All these methods are included in the MEGA phylogenetic software. If all, or most, of the statistical comparisons supported a specific dichotomous relationship, we deemed the results more robust.


المواد والأساليب

Strains, media and plant infections

م. oryzae was routinely incubated in a controlled temperature room at 25°C with a 12h light/dark cycle. Media composition of complete medium (CM), minimal medium (MM), minimal medium without carbon (MM-C) or nitrogen (MM-N), and DNA extraction and hybridisation were all as previously described[76]. Growth tests were carried out with 7 mm plugs of mycelium from Guy11 and the M1422 mutant strains as initial inoculum. البرية من النوع نيوروسبورا كراسا strain and isogenic deletion mutant NCU05996 were obtained from the Fungal Genetics Stock Centre (FGSC, Kansas City, Missouri, USA). Vogel’s minimal medium was used for cultivation of ن. كراسا strains at 25°C with a 12h light/ dark cycle and for stock-keeping at 4°C (http://www.fgsc.net/Neurospora/NeurosporaProtocolGuide.htm). Growth tests were carried out on Vogel plates with 5 mm plugs of mycelium from ن. كراسا wild-type (wt) and NcTPC1 KO strains. Plates were incubated at 25°C for 2 days. م. oryzae leaf and root infection assays were carried out, as previously described [30,77].

Conidiation, onion/leaf sheath penetration assays, cytorrhysis assay and glycogen/Nile red staining

Conidia were harvested using 2 ml of sterile water per plate after fungal cultures were incubated at 25°C for a period of 10 days on CM. Calculations were then carried out to determine the number of conidia generated لكل cm 2 of mycelium using a Neubauer counting chamber. Values are the mean ± SD from >300 conidia of each strain, which were measured using the ImageJ software [78]. Photographs were taken using the Zeiss Axioskop 2 microscope camera using differential interference contrast (DIC) microscopy or epifluorescence. Conidia were stained with 5μl calcofluor white (CFW) solution (Fluka) and incubated at 25°C for 30 minutes. Cell number لكل conidium was determined by visualizing septa with CFW. Appressorium-mediated penetration of onion epidermal strips was assessed using a procedure based on Chida and Sisler[79]. A conidial suspension at a concentration of 1 x 10 5 conidia mL -1 was prepared and dropped onto the adaxial surface of epidermal layers taken from onion. The strips were incubated in a moist chamber at 25°C and penetration events scored 24h to 48h later by recording images with an Olympus IX81 inverted microscope system. Leaf sheath assays were carried out as previously described [10]. Glycogen staining solution contained 60 mg of KI and 10 mg of I2 per milliliter of distilled water. Glycogen deposits are visible immediately. For cytorrhysis assays, 10 5 spores were allowed to form appressoria for 18h on coverslips prior the addition of external glycerol (1M or 3M). After 10 minutes in glycerol

500 appressoria were analyzed in each biological replica experiment was carried out by triplicate. To visualize lipid droplets, conidia were allowed to germinate in water on coverslips. After 0h, 2h, 9h and 12h water was removed and conidia directly stained with Nile red (Nile Red Oxazone (9-diethylamino-5Hbenzo[alpha]phenoxazine-5-one Sigma). Nile red was used to 2.5 mg/ml diluted in 50mM Tris/Maleate, pH 7.5 and polyvinylpyrrolidone (PVP) (2–3% w/v). Lipid droplets begin to fluoresce within seconds. Samples were visualized under a confocal laser scanning microscope using a 561 nm excitation wave length and a long pass emission filter (592–700 nm). All images were taken using the same parameters.

Generation of mutant strains by gene replacement

Gene deletion constructs were generated using multisite gateway technology (Invitrogen) as previously described[77,80]. TPC1, CON6, GH18, PEBP2 و NOXD coding sequences were replaced by the hygromycin resistance cassette and PEBP1 by the sulfonylurea resistance cassette in the gene replacement constructs. Primers for constructing entry plasmids are described in S4 Table. Fungal transformants generated by الأجرعية-mediated transformation [81] were selected growing in DCM solid media supplied with 5-fluoro-2’-deoxyuridine (50μM) and 200μg/ml Hygromycin or 150μg/ml Chlorymuronethyl in the case of Δpebp1. DCM is 1.7 g yeast N-base without amino acids, 1.0 g NH4لا3, 2.0 g of L-asparagine and 10 g of D-glucose. Knockout strains were confirmed by PCR or Southern blotting using radioactive probes ( 32 P primers listed in S4 Table). Sequence data and gene numbers used in this study were taken from EnsemblFungi (Magnaporthe oryzae MG8 http://fungi.ensembl.org/index.html).

Generation and cellular localisation of fluorescently tagged proteins

To determine the localisation of Tpc1, live-cell imaging was performed using a م. oryzae Guy11 strain containing two constructs, histone H1 tagged with red fluorescent protein (H1:طلب تقديم العروض tdTomato) to visualize nuclei [82], and TPC1:GFP. For the construction of a functional TPC1:GFP gene fusion, primers were designed in order to amplify the TPC1 (MGG_01285) promoter region and ORF from genomic DNA of م. oryzae Guy11 (S4 Table). ال TPC1_GFP_F forward primer was designed approximately 1.3 kb upstream from the TPC1 start codon to include a substantial component of the promoter sequence. ال TPC1_GFP_R reverse primer spanned the stop codon and contained a complementary region to the GFP تسلسل. GFP primers were designed to amplify the 1.4 kb sGFP:TrpC construct cloned in pGEMT. Both fragments were joined together by fusion nested PCR. The amplicons were cloned into pGEMT-easy digested with سابقة بمعنى البيئةRI. The 4.3 kb TPC1:GFP fragment was gel purified and cloned into pCB1532 that had previously been digested with سابقة بمعنى البيئةRI. The pCB1532 vector contains the 2.8 kb ILV1 gene, which encodes the acetolactate synthase-encoding allele bestowing resistance to sulfonylurea[83]. The resulting plasmid pCB1532-TPC1:GFP was used to transform protoplasts of M1422 mutant. For all rounds of PCR amplification, Phusion High-Fidelity DNA polymerase (Finnzymes, Thermo Fischer Scientific Inc.) was used, following the manufacturers’ guidelines for PCR conditions.

ال GFP:MoATG8[34] and the FIM:GFP constructs were used to transform protoplasts of M1422 mutant. Protoplast generation and transformation were carried out as previously described[76]. ال GFP:MoATG8 و ال FIM:GFP protein fusion vectors were generated using the native م. oryzae MoATG8 gene (MGG_01062) and the native م. oryzae fimbrin-encoding gene (MGG_04478), respectively. Both fragments were cloned into pCB1532 vector that contains the 2.8 kb ILV1 gene, which encodes the acetolactate synthase allele conferring sulfonylurea resistance. Transformants showing identical growth and colony morphology to the background strain were selected for further examination using epifluorescence or confocal microscopy. At least three different transformants of each were independently analysed.

ال TPC1:GFP gene fusion was cloned into pCB1532 vector (SUR R ) and used to transform protoplasts of Guy11 expressing Histone H1 fused with red fluorescent protein (H1:طلب تقديم العروض)[33], and also introduced into isogenic Δpmk1، Δatg1 و Δatg8 المسوخ. Transformants were selected for further examination using confocal microscopy and verified as containing a single copy of the gene fusion construct by Southern blot hybridisation. At least three different transformants of each were used in all experiments.

RNA isolation and global gene expression profile using microarrays

Using a modified protocol of LiCl method[77], RNA was extracted from 8-day old fungal mycelia grown on cellophane placed on top of CM agar plates (S2E Fig). Two to three additional washes with phenol:chloroform were implemented to avoid RNA degradation from cellophane samples. RNA quality control was carried out with Agilent RNA 6000 Nano kit (ref. 5067–1504). Four biological replicates were independently hybridized for each transcriptomic comparison. Each of these replicates derived from three technical repetitions. Slides were Agilent Magnaporthe II Oligo Microarrays 4x44K (ref. 015060). Background correction and normalization of expression data were performed as previously described[77]. Hybridizations and statistical analysis were conducted by the Genomics Facility at the National Biotechnology Centre (Madrid, Spain). The GO term analysis was carried out with gProfiler[84]. Enriched motifs were not found when using the promoter regions of the 185 up-regulated genes. Microarray data are available in the ArrayExpress database (EMBL_EBI) under accession number E-MTAB-4127.

Yeast-two hybrid screen

In-Fusion Cloning based on في المختبر homologous recombination was performed to generate vectors including NoxD and Tpc1 into the pGADT7 prey vector, and Nox1, Nox2 NoxR, Pmk1 and Mst12 into the pGBKT7 bait vector. Genes were amplified from م. oryzae cDNA derived from mycelia grown on liquid CM using primers with a 15bp overhang and restriction site complementary to the target vector (S4 Table). For NoxD, a 435bp fragment was amplified, for Nox1, a 1662bp fragment was amplified, for Nox2, a 1749bp fragment was amplified, and for NoxR, a 1578bp fragment was amplified. Respective fragments were cloned into pGBKT7 and pGADT7 plasmids linearized by digestion with سابقة بمعنى البيئةRI and SmaI. Yeast two-hybrid assays using pGADT7 or pGBKT7 (Clontech) based constructs were performed according to the manufacturer’s instructions (MATCHMAKER Gold Yeast Two-Hybrid System).

Imaging of fluorescent fusion proteins

For the construction of NoxD:GFP, primers were designed to amplify the ORF including 2kb upstream of the start codon, GFP and TrpC terminator with 15bp overhangs complementary to adjacent fragments (S4 Table). Fragments were ligated into pCB1532[83], which carries the sulphonyl urea resistance cassette and had been digested with BamHانا و هندIII and this construct transformed into of the wild-type strain Guy11 using protoplasts[6]. The NoxD:mRFP construct was generated using multi-site gateway technology (Life Technologies) with the entry mCherry-withSTOP and destination SULPH-R3R4 vectors[77], and PCR fragments amplified from م. oryzae genomic DNA using Phusion DNA polymerase (NEB) and primers detailed in S4 Table. Appressorium development assays were performed on hydrophobic borosilicate glass coverslips (Fisher Scientific), as described previously[6]. For epifluorescence microscopy, conidia were incubated on coverslips and observed at each time point using an IX-81 inverted microscope (Olympus) and a UPlanSApo X100/1.40 oil objective. All microscopic images were analyzed using MetaMorph (Molecular Devices). Confocal imaging was performed with a Leica SP8 microscope.

QPCR and ROS detection

To confirm microarray results, the relative abundance of gene transcripts were analysed by qPCR (S4 Table). One μg of total RNA from 8-day old fungal mycelia grown on cellophane placed on CM agar was reverse transcribed using PrimeScript RT reagent Kit (Takara). The average threshold cycle (Ct) was normalized against actin transcript and relative quantification of gene expression was calculated by the 2 ΔΔCt method[85]. Primer efficiency was tested using dilutions of cDNA samples. qPCR reactions were carried out with 1 μl of reverse transcribed products and fast-start DNA master SYBR green I kit (Roche Diagnostics) in a final reaction of 20 μl using the following program: one cycle of 95°C for 4 min and 40 cycles of 94°C for 30 s and 60°C for 30 s. The Ct (threshold cycle) provided a measure for the starting copy numbers of the target genes. Three technical repetitions from three independent biological experiments were used for each gene. For ROS detection in م. oryzae fungal structures, NBT staining[65] and quantification method of pixel intensities in hyphal tips[86] were carried out as previously described.

Chromatin immunoprecipitation (ChIP) and quantitative PCR (qPCR) analysis

Two strains, the Δtpc1 mutant expressing TPC1:GFP و م. oryzae wild-type Guy11 strain as negative control were used for this experiment. Mycelia were grown in liquid CM at 25°C for 48 h in a shaker (120 rpm), and collected using two layers of Miracloth. Harvested mycelia were washed extensively with sterile water. To crosslink DNA and proteins, one gram of each washed mycelium was treated with 1% formaldehyde in 20 mM HEPES pH 7.4 buffer for 20 min with continuous shaking at 100 rpm. Then, 0.125 M glycine was added and incubated at room temperature for an additional 10 min to stop crosslinking. Mycelia were harvested with Miracloth, rinsed with water removing excessive water by squeezing and immediately frozen in liquid nitrogen, grinded into a fine powder and stored at -80°C until used. ChIP was conducted according to published procedures with some modifications [87]. 600 mg of each mycelium powder was used for chromatin extraction and sonication. The powder was added into 10 ml of Extraction buffer 1 (0.4 M sucrose, 10 mM Tris-HCl pH 8, 10 mM MgCl2, 5 mM β-mercaptoethanol/β-ME and Protease Inhibitors Complete-PIC/Roche) and mixed by vortexing. The solution was filtered through a double layer of Miracloth and centrifuged at 5000 g for 10 min at 4°C. The pellet was resuspended in 1 ml of Extraction buffer 2 (0.25 M sucrose, 10 mM Tris-HCl pH 8, 10 mM MgCl2, 1% Triton X-100, 5 mM β-ME and PIC) and centrifuged at 5000 g for 10 min at 4°C. The pellet was resuspended in 300 μl of Extraction buffer 3 (1.7 M sucrose, 10 mM Tris-HCl pH 8, 0.15% Triton X-100, 2 mM MgCl2, 5 mM β-ME and PIC) and, carefully layered on the top of additional 600 μl of extraction buffer 3. Then, samples were centrifuged at 16000 g for 60 min at 4°C. The chromatin pellet was resuspended in 300 μl of Nuclei Lysis Buffer (50 mM Tris-HCl ph 8, 10 mM EDTA, 1% SDS and PIC) and sonicated for 25 min at 4°C, operating a pattern of 30 sec ON and 30 sec OFF, at high power level in the Bioruptor Plus (Diagenode, Liege, Belgium) to obtain DNA fragments ranging from 500 to 1,000 bp. The chromatin solution was centrifuged at maximum speed for 5 min at 4°C to pellet cell debris. The supernatant was kept as chromatin solution and a small aliquot (10%) was stored as input DNA control. For each immunoprecipitation, 15 μl of Dynabeads Protein A magnetic beads (ref. 10001D, Life Technologies) was washed twice with 500 μl ChIP dilution buffer (1.1% Triton X-100, 1.2 mM EDTA, 16.7 mM Tris-HCl pH 8, 167 mM NaCl and PIC). Then, anti-GFP antibody (ref. A6455, Life Technologies) was added and incubated with gentle rotation for 1h at 4°C in 50 μl ChIP dilution buffer. Prepared anti-GFP coated beads were washed twice with 500 μl ChIP dilution buffer and resuspended in 100 μl of ChIP dilution buffer. For each immunoprecipitation, the latter and 100 μl of chromatin solution were gathered together and diluted up to 1 ml of ChIP dilution buffer. All immunoprecipitations were incubated overnight at 4°C with gentle rotation, then washed with a serie of wash buffers (2 washes with Low Salt Wash Buffer: 150 mM NaCl, 0.1% SDS, 1% Triton X-100, 2 mM EDTA, 20 mM Tris-HCl pH 8 one wash with High Salt Wash Buffer: 500 mM NaCl, 0.1% SDS, 1% Triton X-100, 2 mM EDTA, 20 mM Tris-HCl pH 8 one wash with LiCl Wash Buffer: 0.25 M LiCl, 1% NP-40, 1% sodium deoxycholate, 1 mM EDTA, 10 mM Tris-HCl pH 8, 2 washes with TE Buffer: 10 mM Tris-HCl pH 8, 1 mM EDTA). Immunoprecipitated DNAs and Input DNA control were reverse-crosslinked at 95°C for 10 min with 200 μl of 10% chelex 100 resin to remove any trace of metals. DNA samples were treated with proteinase K that was inactivated afterwards. After centrifugation, supernatants of DNA samples were stored at -20°C until used. Immunoprecipitated chromatin was diluted 10 times for qPCR analysis (primers listed in S4 Table). This was performed using a Roche LightCycler 480 machine. qPCR reactions were carried out using either 2 μl of input DNA or 2 μl of immunoprecipitated chromatin in a final reaction of 12 μl with the following program: one cycle of 95°C for 5 min and 58 cycles of 94°C for 10 s, 60°C for 10 s and 72°C for 10 s. The Ct (threshold cycle) provided a measure for the starting copy numbers of DNA. Three technical repetitions from 4 independent biological experiments were used. Ct values were used to calculate ratios evaluating the fold difference between experimental samples (GFP-tagged or untagged wild-type strains) and normalized the input. We normalized with “Fold Enrichment Method” using the untagged strain. The Wilcoxon Mann Whitney test was applied to analyze the difference between two independent groups. Statgraphics software was used to make pairwise comparisons between GFP-tagged strain and untagged wild-type strain.

Protein purification and EMSA

م. oryzae MST12 و TPC1 cDNAs derived from mycelial RNA were cloned by PCR using a high fidelity Q5 DNA polymerase (NEB), primers (S4 Table) and the restriction enzymes BamHI-NotI and EcoRI- NotI for MST12 و TPC1 respectively, into a modified pET28 vector (5,667bp Novagen). MST12- و TPC1-containing plasmids were transformed in ه. القولونية Rosetta DE3 (Novagen) and colonies grown in LB medium containing chloramphenicol (34 μg/L) and kanamycin (50 μg/L) until reaching OD600nm = 0.8. Protein expression was induced 4 hours at 28°C with 1 mM IPTG (Sigma-Aldrich). Centrifuged cell pellets (30 min at 7000g) were resuspended in lysis buffer (20 mM sodium phosphate pH 8, 300 mM NaCl and one tablet of PIC/50 ml, 1 mM PMSF and 50 μg/ml Dnase I), lysed by sonication and pelleted at 4°C and high speed (20 min at 20,000g). Recombinant proteins were purified from clear lysate by metal affinity chromatography (HisTrap HP 1 ml, #17-5247-01 GE Healthcare) in denaturing conditions using 6 M Urea and eluted with 250 mM imidazole containing buffer. Samples were desalted on PD10 column (#17085101 GE Healthcare) to remove urea and imidazole using buffer (20 mM sodium phosphate pH 8, 10% glycerol and PIC). Protein samples purity was evaluated by SDS-PAGE.

EMSA probes were generated as follows. Amplified by PCR fragments using primers listed in S4 Table were prepared using modified Biotin 3’end DNA labeling procedure (#89818 Thermo-Scientific). Briefly, each

500pb purified PCR products was KpnI-digested, purified and labelled (5 pmol of each probe) with Biotin-11-UTP and Terminal Deoxinucleotidyl Transferase at 37°C for 1 hour. Biotinylated probes were purified by Chloroform:IAA (24:1) extraction and stored at -20°C until use. EMSA reactions (20 μl) contained 10 mM Tris HCl pH 7.5, 50 mM KCl, 16 mM DTT, 1 mM ZnCl2, 1 mM MgCl2, 1% Glycerol, 50 ng/μl Poly dI-dC (#20148E Thermo-Scientific), 10 μg BSA, Protease inhibitor complete (Roche), and 80 fmol of biotinylated probe. Before probe addition proteins (0–12 μM) were incubated in binding buffer for 10 min, then probe was added and incubated during 30 min at room temperature before loading. The EMSA gel (0.2% agarose, 5% polyacrylamide, 1% glycerol in TBE 0.5x) was run for 2h 100V in TBE 0.5x and then transferred to a Hybond-XL nylon membrane (#RPN203S GE Healthcare) at 400 mA for 1 hour. The membrane was UV crosslinked at 120mJ/cm 2 . Detection was performed with stabilized streptavidin-horseradish peroxidase conjugate (#21134 Thermo-Scientific) and enhanced chemiluminescent substrates (#32106 Thermo-Scientific) following LightShift Chemiluminescent EMSA procedure (#20148 Thermo-Scientific).

Phylogenetic analysis of Tpc1

First, 141 م. oryzae protein sequences containing a fungal Zn(II)2السيستئين6 binuclear cluster domain (PF00172) were identified from the Magnaporthe sequence database at the Broad Institute (http://www.broadinstitute.org/annotation/fungi/magnaporthe) and the Fungal Transcription Factor Database (http://ftfd.snu.ac.kr/intro.php). HMMsearch from HMMER3[88] was used to screen the genome assembly of م. oryzae proteins with the fungal Zn2السيستئين6 profile hidden Markov model pHMM zn_clus_ls.hmm (PF00172.13) from Pfam database[89] (http://pfam.xfam.org/). Subsequently, gene numbers were updated using the MG8 genome version of EnsemblFungi database (http://fungi.ensembl.org/index.html). Out of these 141 sequences, only 113 had a full length zinc cluster domain, and extra six closest sequences were included to build S5 Fig. Additional Zn(II)2السيستئين6 proteins found in Lu et colleagues[28] were included in S2 Table. Basic Local Alignment Search Tool (BLAST) was used to find orthologous proteins of TPC1/MGG_01285 (http://blast.ncbi.nlm.nih.gov/Blast.cgi). Protein sequences were pre-aligned using HMMalign and the pHMM zn_clus_ls.hmm (S4 Fig) from Pfam. The Zn(II)2السيستئين6 binuclear cluster domain region was extensively manually aligned in BioEdit (http://www.mbio.ncsu.edu/BioEdit/BioEdit.html). Unambiguous aligned positions were used for the subsequent phylogenetic analyses. The maximum likelihood (ML) analyses were performed with the program PhyML version 3.0.1[90]. All trees were visualised using the program Figtree (http://tree.bio.ed.ac.uk/software/figtree/).

Accession numbers

م. oryzae sequence data from this article can be found in the GenBank/EMBL-EBI (EnsemblFungi) databases under the following accession numbers: TPC1 (MGG_01285), PMK1 (MGG_09565), MST12 (MGG_12958), ATG1 (MGG_06393), ATG8 (MGG_01062), CON6 (MGG_02246), GH18 MGG_04732, NOXD (MGG_09956), PEBP1 (MGG_06800), PEBP2 (MGG_14045), NOXR (MGG_05280), NOX1 (MGG_00750), NOX2 (MGG_06559), FIMBRIN (MGG_04478) GELSOLIN (MGG_10059), ACTIN (MGG_03982), YDIU (MGG_03159) and SEP5 (MGG_03087).


PRD-class Clusters: Remains of a PRD-class Mega-cluster?

Mazza et al. (2010) identified the HRO cluster of PRD-class genes in Cnidaria and protostomes, including insects and molluscs. This cluster is composed of the genes Homeobrain (Hbn), Rax/آر إكس، و Orthopedia (Otp). At least part of the cluster is even more ancient than the cnidarian-bilaterian ancestor as Hbn و Otp are also clustered in the placozoan T. adhaerens (Mazza et al., 2010). Also, elements of the HRO cluster are now known to be more widespread in protostomes than initially described. For example, more recent whole genome sequencing projects like that of the myriapod S. maritima have revealed that this arthropod has also retained the HRO cluster (Chipman et al., 2014).

Intriguingly, this HRO cluster exhibits temporal collinearity in the cnidarian Nematostella vectensis (Mazza et al., 2010). That is, the order of the genes along the chromosome corresponds to the order in which they are activated during development. Temporal collinearity has also been hypothesized to be the main underlying reason for the maintenance of intact, ordered Hox and ParaHox clusters (Ferrier and Holland, 2002 Ferrier and Minguillón, 2003 Monteiro and Ferrier, 2006). Thus, there is the potential that deeper mechanistic understanding of temporal collinearity can be obtained by comparisons across all three homeobox clusters: Hox, ParaHox, and HRO.

Clustering of PRD-class genes is not confined to the HRO cluster. The clustering of Goosecoid (Gsc) و Otx was noted in amphioxus (Putnam et al., 2008 Takatori et al., 2008) and the hemichordate genome sequences analyzed recently, reveal that in one species (Ptychodera flava) Gsc also clusters with Otx, but in another species (Saccoglossus kowalevskii) Gsc instead clusters with Otp, Rx, Hbn، و Islet (Isl) (all of which are PRD-class genes except Isl, which is LIM-class Simakov et al., 2015). Two things are noteworthy here. First, it will be important to independently check the Saccoglossus gene arrangement, particularly the location of Gsc. Second, the gene nomenclature risks causing confusion and in extended Figure 4 of Simakov et al. (2015), the authors have depicted the cluster containing an Arx gene, when in fact the gene should be named Hbn أو Arx-like on the basis of its sequence. Arx is a distinct family from Hbn/Arx-like, as seen in the cnidarian Nematostella vectensis (Ryan et al., 2006 Table 1).

Table 1. Homeobox families present in the protostome�uterostome ancestor (PDA).

Looking deeper in animal evolution, Schierwater et al. (2008) noted two instances of PRD-class clustering in T. adhaerens: PaxB مع Pitx و Ebx/Arx-like مع Otp (this second cluster also containing the LIM-class gene Isl). ال Ebx/Arx-like gene of Schierwater et al. (2008) is equivalent to the Hbn gene of Mazza et al. (2010). This then, in combination with the new hemichordate data, establishes the clustering of Otp with both Hbn/Arx-like و Isl as an ancient cluster that has been conserved from before the start of the Cambrian, over 541 million years ago. Furthermore, in combination with the data on the HRO PRD-class cluster of cnidarians and selected bilaterians, it is possible to deduce an ancestral extended PRD-LIM class cluster including Hbn, Rx, Otp, Gsc, Otx، و Isl (الشكل 3). By comparison to the large ancestral array hypothesized for the ANTP-class (see above), we perhaps should now also view the PRD-class as having evolved via a Mega-cluster array as well (which in turn was also a sub-component of the Giga-cluster outlined above).

Figure 3. Composition of the PRD/LIM-class Mega-cluster. Specific instances of gene clustering are listed against specific taxa, which when considered together allow the deduction of the PRD/LIM-class Mega-cluster. These animals include non-bilaterians (T. adhaerens و N. vectensis), protostomes, and deuterostomes (hemichordates and amphioxus). Most members of the array are PRD-class genes (black boxes), but there is also a single member of the LIM-class (white box). The Pitx and Pax (PaxB) clustering is found in T. adhaerens, but is not reported for another animal as yet, hence the question mark to denote the ambiguity as to whether these PRD-class genes can be included in the PRD/LIM-class Mega-cluster. The HRO cluster is the PRD-class cluster originally described by Mazza et al. (2010). The figure only shows established instances of clustering arrangements described in the literature (see text for details). Lack of a gene alongside a taxon does not necessarily represent absence of the gene from the genome of that species, except in the case of Rax/Rx ل T. adhaerens, which was not found in the placozoan genome by Mazza et al. (2010) (denoted by “X”).


Shaping an Improved Roadmap toward Precision Medicine

Because changes in mitochondrial function can alter global alternative splicing events, it is not surprising that both phenomenon are linked to the induction of cellular heterogeneity and human disease pathology progression (Raj and van Oudenaarden, 2008 Hanahan and Weinberg, 2011 Pagliarini et al., 2015). Despite a growing appreciation for the role that alternative splicing plays in promoting phenotypic variability, the identification of genetic polymorphisms linked to disease, which may or may not alter gene-splicing events, remains a core focus of pharmacogenomics. Mutations in single genes have now been identified for over 4000 human diseases, of which 5–15% are the result of SNPs resulting in nonsense mutations (Mort et al., 2008). However, SNPs occur in coding regions of genes with a frequency of approximately 1.5%, and of those, only one-third are expected to result in nonsynonymous mutations and a much smaller number alter pre-mRNA processing, leading to a frequency in change of phenotype of only ∼0.5%. When one considers that humans express almost 50,000 SNPs across the 57 human P450 genes, fewer than 250 may be capable of significantly altering a patient’s metabolic phenotype, an insight we contend may help streamline PGx approaches to personalized medicine (Zhou et al., 2009 Zanger and Schwab, 2013). For example, although CYP2D6 genotyping is no longer recommended in the clinical setting for tamoxifen treatments (Abraham et al., 2010 Wu, 2011 Lum et al., 2013), the FDA still considers CYP2D6 clinically actionable from a PGx perspective for codeine and other drugs (Crews et al., 2014). Unfortunately, over 74 allelic variants of CYP2D6 have already been described, which greatly complicates genetic testing and the clinician’s ability to select the appropriate pharmacotherapy and dose (Zhou, 2009). Fortunately, organizations such as the Clinical Pharmacogenetics Implementation Consortium (CPIC) and the Pharmacogenomics Knowledgebase (PharmGKB) are working to standardize methodologies for PGx data analysis and clinical guidance for specific gene-drug pairings (Caudle et al., 2016). However, CPIC concedes that some rare P450 variants may not be included in genetic tests, and that patients may be assigned “wild-type” genetics by default (Crews et al., 2014). When paired with additional uncertainties regarding P450-specific genotype/phenotype associations and the untold numbers of unclassified SNPs, it becomes clear why accurate genetic screening remains challenging, and only one aspect of the therapeutic decision-making process.

Ultimately, the falling cost and broader availability of pyrosequencing technologies support our call for improved RNA sequence strategies for personalized medicine, as accurate identification of the patient’s functional genome is a crucial component of precision medicine. Although transcriptomic analysis offers superior guidance in the design of personalized therapeutic options, its broad implementation will require technical improvements to sample collection and processing that are also problematic for genomic testing. In this regard, complementary metabolomics approaches directed at variant-specific metabolism may provide more feasible, short-term improvements to PGx screening and precision-based approaches to medicine (Beger et al., 2016). Innovative, gene-directed therapeutic technologies such as splice-altering antisense oligonucleotides and CRISPR/Cas9 genome-editing systems may also become feasible tools for manipulating a patient’s transcriptome to optimize therapeutic outcomes. Key examples of splice-switching technology already being investigated to treat human disease are listed in Supplemental Table 2. In this regard, our group has participated in the development of eteplirsen, the new antisense oligonucleotide drug that received accelerated approval from the FDA for the treatment of Duchenne muscular dystrophy (DMD Syed, 2016 Niks and Aartsma-Rus, 2017). Eteplirsen’s development evolved from early studies of exon skipping in the murine dystrophin model (Fall et al., 2006 Fletcher et al., 2007 Adams et al., 2007 Mitrpant et al., 2009), a canine model of DMD (McClorey et al., 2006b), and in human muscle explants (McClorey et al., 2006a). Our group has also employed exon-skipping oligomers to refine the immune response–mediated gene expression of CD45 protein-tyrosine phosphatase in a murine anthrax model (Panchal et al., 2009 Mourich and Iversen, 2009), of interleukin-10 in an Ebola virus lethal-challenge mouse model (Panchal et al., 2014) and of CTLA-4 in a murine model of autoimmune diabetes (Mourich et al., 2014). We hypothesize that similar splice-altering technology may be useful in redirecting the function of drug metabolizing P450s like CYP3A4 (Arora and Iversen, 2001), whose metabolism of drugs like tamoxifen is linked to genotoxicity (Mahadevan et al., 2006). As our appreciation for transcriptome expansion and the mechanisms of alternative P450 gene-splicing evolve, new therapeutic gene-editing options will probably emerge that could scarcely be predicted using genetic testing alone.

In summary, the human cytochrome P450 family transcriptome contains over 965 different variant forms (Table 2), many with common structural features sensitive to alternative splicing events that expand P450 protein diversity. The transcription and processing of P450 gene transcripts is complex and coordinately regulated within the nucleus by multiple factors, including NR signaling via environmental sensors like the peroxisome proliferator–activated receptors (PPARs) PPARγ و PPARα, which interact with the PGC-1α transcriptional coactivator to regulate oxidative metabolism and mitochondrial biogenesis (Wu et al., 1999 Monsalve et al., 2000). Multiple steroids, including products of CYPs 1A, 1B, 2A, 2B, 2C, 2D, 3A, 7A, 17A, 19A, 24A1, and 51A metabolism, bind NRs and lead to interactions with NR coregulators through LxxLL or FxxLF motifs that modulate the assembly of the spliceosome complex and pre-mRNA splicing (Auboeuf et al., 2005). The androgen receptor (AR), which binds multiple metabolites of CYPs 2A, 2C, 2D, 3A, 17A, 19A, and 21A, can also directly interact with nucleolar splicing factors (e.g., U5 small nucleolar ribonuclear protein), indicating a receptor-mediated role in transcription that is coupled to pre-mRNA splicing mechanisms (Zhao et al., 2002). Vitamin D receptor activation mediated by metabolites of CYPs 2R, 2J, 3A, 11A, 27A, 24A, and 27B can also alter P450 gene expression and splicing through NR-mediated crosstalk (e.g., PPARs) transduced via interactions with the retinoid X receptor (Matsuda and Kitagishi, 2013), recruitment of the NCoA62/SKIP coactivator complex (Zhang et al., 2003), and discrete interactions with the heterogeneous nuclear ribonucleoprotein C-splicing factor (Zhou et al., 2015). Traditional VDR signaling in the nucleus is further refined by several nontraditional NR functions operating near the plasma membrane that alter gene expression via modulation of key membrane-based paracrine signaling pathways, mediated by agents like Wnt and epidermal growth factor (Larriba et al., 2014). Vitamin A metabolites (or retinoids) of CYPs 1A, 2B, 2C, and 26, signaling through the retinoic acid receptor and retinoid X receptor, are also known to guide the recruitment of SC35 coactivators to regulate the alternate splicing of protein kinase delta (PKCδ) among other pre-mRNAs (Apostolatos et al., 2010). Collectively, these data reveal a novel P450-based mechanism for adaptive transcriptome remodeling, whereby xenobiotics and endogenous substrates, monitored by one of several tissue- or disease-specific “P450 clouds,” are metabolized in a coordinated fashion that harmonize NR signaling cascades with alternative gene expression and splicing events that promote adaptive responses to cell stress or stimuli (Fig. 4).

Endoxenobiotic crosstalk among cytochrome P450 and nuclear receptor genes coordinate alternative splicing and resemble a primitive immune system. Human tissues are subject to exposure from over 400 FDA-approved drugs, >10,000 xenobiotics, and untold numbers of endogenous substrates and their metabolites (x > 100,000). Cytochrome P450 genes participate in phase I detoxification of many of these compounds, including model substrates benzo[a]pyrene (via CYP3A4) and calcifediol (via CYP24A1). P450 genes are classically induced to silence endoxenobiotic signaling through cognate nuclear receptors, which modulate global gene expression and splicing events by “coloring” or modulating the composition of coregulatory factors that comprise both the transcription complex and the spliceosome complex, which ultimately alter the nature of both ribosome assembly and gene expression (Auboeuf et al., 2005). Model substrates are subject to metabolism by a finite population of P450s in a given tissue, however, and because each gene is sensitive to an infinite number of environmentally sensitive, alternative splicing events, each individual may express a unique, tissue-specific “P450 gene cloud” comprising both wild-type (WT) and splice-altered variant forms (e.g., SV1, SV2, etc.). P450 splice variants can: 1) display reduced ability to metabolize model substrates, 2) function as dominant negatives to sequester compounds from metabolism or potentiate basal NR-mediated signaling, or 3) function as a conformationally distinct protein with alternative metabolic function or cellular role. When coupled with existing paradigms of alternate P450 trafficking and membrane-associated cooperativity, an integrated network of crosstalk among 57 P450 and 48 NR genes begins to emerge, as novel P450 metabolites may engage NR signaling pathways in unique ways that reprogram gene splicing and expression to promote cellular homeostasis in the face of endocrine disruption. NR signaling cascades can alter both the transcriptome and epigenome of an individual, providing an elegant feedback mechanisms for adaptation to cellular stress created by unique personal history and disease status.

In conclusion, the human metabolome adapts to substrate burden through the induction of gene transcription, which helps to maintain homeostasis in a well documented pathway guided by NR binding and signaling events. In this respect, the metabolic response to xenobiotics (via P450 induction) is adaptive in a manner reminiscent of the immune response to viral antigen there is a recognition phase of the chemical by the P450 active site, an activation phase when the chemical (or P450 metabolite) interacts with the NR, and an effector phase in which the coordinated transcription and splicing of P450 transcripts occurs to feedback-modulate NR signaling. التشابه مع الاستجابة المناعية مناسب هنا حيث يتم إنتاج متغيرات النسخ المحددة استجابةً لمحفز كيميائي معين. إن القدرة على التحكم بإحكام في التوازن الخلوي عن طريق التعبير الجيني بوساطة NR والربط البديل ينطوي على درجة عالية من التطور تعمل فيما يمكن اعتباره استجابة مناعية كيميائية بدائية. الجزيئات التي تشغل هذا الجهاز المناعي البدائي القائم على P450 تقوم بتحويل الاستجابات البيولوجية على مستوى الترنسكربيتوم القادرة على إعادة تشكيل كل من النمط الظاهري و "النمط اللاجيني" للخلية (عن طريق تنظيم كل من الحمض النووي الريبي المشفر وغير المشفر) ، مما يسمح بالتكيف البيئي القابل للعكس ، وكذلك البصمة ، والتي في حالات نادرة قد تستمر عبر الأجيال (Hochberg et al. ، 2011). قد تساعد المعرفة المحسنة لكل من عمليات إعادة تشكيل الإيبيجينوم التكيفية وغير القادرة على التكيف التي تسببها الكائنات الحيوية الغريبة في التوفيق بين التباين بين الأفراد في الفعالية والسمية التي ابتليت بها العديد من الأدوية المعتمدة من قِبل إدارة الأغذية والعقاقير (FDA). ستوفر هذه الأفكار إرشادات جديدة لتطوير استراتيجيات علاجية "فردية" أكثر حساسية للنسخة التكيفية أو الجينوم الوظيفي للمريض ، والذي يتجلى في P450 فائق من الجينات هو التعبير النهائي للنمط اللاجيني الموروث ويبدو أنه يظل مستجيبًا للبيئة في جميع مراحل دورة حياة الإنسان.


شاهد الفيديو: Шимпанзе Pan troglodytes 2 (شهر نوفمبر 2022).