معلومة

إيجاد مسافة النشوء والتطور بين المتواليات؟

إيجاد مسافة النشوء والتطور بين المتواليات؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا أعمل على برنامج يقوم بتحليل جينومي مقارن. واكتشفت في طرق التماثل للتعليق التوضيحي الوظيفي ، أنه من الأفضل اختيار متماثل عالي الدرجات من تسلسل بعيد (أي لا يرتبط ارتباطًا وثيقًا بتسلسل الاستعلام في شجرة النشوء والتطور).
سؤالي هو: لماذا؟ وأيضًا هل يمكن استخدام NCBI taxid لكل تصنيف لتقريب هذه المسافة؟ إذا لم يكن الأمر كذلك ، فهل هناك طريقة بسيطة لاتخاذ هذا القرار الثنائي (الإغلاق ، وليس الإغلاق) عند إعطاء تسلسلين.


لا ، لأنه في الحقيقة ليس قرارًا ثنائيًا. هناك محاولات لربط النسبة المئوية للاختلاف الثنائي مع الرتب التصنيفية (خاصة الأنواع) ، ولكن هذا يمثل مشكلة لأن كل سلالة مستقلة يمكن أن تختلف وفقًا لمعدلها الخاص. يمكنك استخدام متواليات من عائلات مختلفة ، أو أوامر ، أو حتى شُعَب ، لكن هذين يمكن أن يعتمدوا على ما إذا كان المتخصصون في هذا المجال هم مقطوعون ، أو مقسمون. على سبيل المثال ، جميع النمل من نفس العائلة ، و Formicidae عمره أكثر من 100 مليون سنة ، في حين أن الطيور التي ربما تباعدت عن سلف مشترك خلال آخر 10 ملايين سنة هي في عائلة مختلفة. يمكنك استخدام المسافة الزوجية أو تصنيف المستوى الأعلى كوكيل. لكنها ستكون فجّة. لماذا لا تبرمج برنامجك لاتخاذ قرارات صعبة بشأن التنادد ، ثم تجد أقرب متماثل بعيدًا من حيث الاختلافات الزوجية؟


المقارنة المعيارية لطرق مقارنة التسلسل الخالية من المحاذاة

تجذب مقارنة التسلسل الخالي من المحاذاة (AF) اهتمامًا مستمرًا مدفوعًا بالتطبيقات كثيفة البيانات. ومن ثم ، فقد تم اقتراح العديد من إجراءات التمويل الإضافي في السنوات الأخيرة ، ولكن الافتقار إلى إجماع معياري محدد بوضوح يعيق تقييم أدائهم.

نتائج

هنا ، نقدم موردًا مجتمعيًا (http://afproject.org) لوضع معايير لمقارنة الأساليب الخالية من المحاذاة عبر مجالات مختلفة من البحث القائم على التسلسل. نحن نميز 74 طريقة AF متوفرة في 24 أداة برمجية لخمسة تطبيقات بحثية ، وهي تصنيف تسلسل البروتين ، واستدلال شجرة الجينات ، واكتشاف العناصر التنظيمية ، والاستدلال الوراثي القائم على الجينوم ، وإعادة بناء أشجار الأنواع في ظل أحداث نقل الجينات الأفقية وإعادة التركيب.

استنتاج

تتيح خدمة الويب التفاعلية للباحثين استكشاف أداء الأدوات الخالية من المحاذاة ذات الصلة بأنواع بياناتهم وأهدافهم التحليلية. كما يسمح لمطوري الأساليب بتقييم الخوارزميات الخاصة بهم ومقارنتها بأحدث الأدوات الحالية ، مما يسرع من تطوير حلول AF جديدة وأكثر دقة.


أساليب

لإنشاء δ قطعة أرض لمجموعة من الأصناف X ، δف يحسب لكل رباعي ف في X وعرضها في الرسم البياني. عدد الرباعيات في مجموعة البيانات ذات ن التصنيف هو (n 4) ، وبالتالي فإن التكلفة الحسابية لإنشاء مخطط δ هي ا(ن 4). لكبير ن (قل ن & gt 100 taxa) ، قد يكون من الأفضل إنشاء مخطط δ لعينة فرعية عشوائية من الرباعية. لاحظ أننا نشير إلى δ̄ متوسط ​​قيمة δف استحوذت على جميع الرباعيات في X. (على سبيل المثال المؤامرات انظر التين .9أ و 10أ. المؤامرة δ في التين. 9أ، كونه أكثر ميلًا نحو الصفر ، فإنه يظهر توزيعًا أشبه بالشجرة أكثر من ذلك في الشكل. 10أ. )

كما هو مذكور في مقدمة، القياس δف معروف جيدًا في مجال الهندسة الإحصائية ، ونحن الآن نصف بإيجاز العلاقة التي تربط δ المؤامرات بهذه الطريقة. في حالة وجود مسافة د يفي أيضًا بعدم مساواة المثلث ، أي د هو مقياس ، يمكن تمثيل تقييده على أي رباعي في رسم تخطيطي أو رسم بياني مرجح مثل الرسم البياني في الشكل 1.

يتم تنفيذ ذلك عن طريق وضع العلامات المناسبة على رؤوس القلادة (في هذا الشكل مُسمى بـ x ، y ، u ، v) وتعيين قيم غير سلبية (فريدة بالضرورة) لأوزان الحافة أ ، ب ، ج ، د ، ق ، ل بحيث يكون مجموع الأوزان على طول أقصر مسار بين كل زوج من الأصناف يساوي المسافة بين تلك الأصناف (Zaretsky 1965). إذا كانت المسافة مضافة ، فإن القيمة المخصصة لواحد على الأقل من س أو ل سيكون صفراً وهكذا ، كما هو متوقع ، يصبح الرسم البياني شجرة مرجحة.

الهندسة الإحصائية (Dress 1988 Eigen و Winkler-Oswatitsch و Dress 1988 Eigen و Winkler-Oswatitsch 1990) تحاول تقييم خصائص البيانات ، مثل الشجرة ، من خلال حساب المخططات أو الأشكال الهندسية مثل المخطط أعلاه لمجموعات فرعية من مجموعة من المحاذاة التسلسلات. يمكن إجراؤها إما في مساحة التسلسل أو مسافة المسافة ، وهذا الأخير يهمنا هنا. على وجه الخصوص ، في هذه الطريقة ، يتم اشتقاق متوسط ​​على جميع المخططات الرباعية ويتم تمثيله في مخطط مميز يمثل الاختلاف التطوري الأساسي للتسلسلات. بدلاً من ضغط جميع المعلومات في رسم تخطيطي واحد ، تمثل δ المخططات توزيع الأشكال الهندسية للمسافة الرباعية. تكمن فلسفة مماثلة في الأساس للطريقة التي تم تطويرها مؤخرًا لرسم الخرائط الرباعية (Nieselt-Struwe and von Haeseler 2001) والتي تهدف إلى تصور المحتوى التطوري لمجموعة من التسلسلات المتوافقة.


نتائج ومناقشة

عزل متواليات bHLH من قواعد بيانات البروتين والجينوم

لعزل جينات bHLH البشرية ، أجرينا عمليات بحث TBLASTN [13] على تسلسل مسودة الجينوم البشري [11] ، كما هو موضح في المواد والطرق. أكملنا قائمة bHLH المستردة باستخدام قاعدة بيانات SMART [14 ، 15]. حصلنا في النهاية على 125 تسلسلًا مختلفًا لـ bHLH البشري ، والتي تم سردها في الجدول 2. تم استخدام جميع التسلسلات المسترجعة لإجراء عمليات بحث BLASTP مقابل قواعد بيانات البروتين من أجل اكتشاف تلك التسلسلات التي تم تحديدها بالفعل. وجدنا أن 80 تسلسلًا كان موجودًا بالفعل في قواعد بيانات البروتين ، 45 من التسلسلات المسترجعة من الجينوم البشري تتوافق مع جينات غير معترف بها سابقًا. استرجعنا بالمثل ، بواسطة TBLASTN ، 84 و 18 تسلسلًا مختلفًا من bHLH من الجينومات غير المتسلسلة بشكل كامل لسمكة المنتفخ T. rubripes وبخ البحر C. المعوية ، على التوالي (انظر ملفات البيانات الإضافية). بالإضافة إلى ذلك ، استرجعنا المجموعة الكاملة من جينات bHLH الموجودة في الذبابة (إجمالي 58) ، وجينوم الدودة (39) ، والخميرة (8) ، بالإضافة إلى جميع جينات الفأر المستنسخة bHLH حتى الآن (102) ، كما هو موضح في المواد والأساليب. يتم سرد هذه التسلسلات مع أرقام الانضمام وبعض المعلومات (التوطين الجيني وعلاقات تقويم العظام) في الجداول 3،4،5،6.

تحديد العلاقات التقويمية

لإجراء التحليلات التطورية للعائلات متعددة الجينات ، يتطلب الأمر تمييز أخصائيي تقويم العظام ، الذين تطوروا عن طريق النسب العمودي من سلف مشترك ، من نظائر مماثلة ، والتي تنشأ عن طريق الازدواجية وخلط المجال داخل الجينوم [17]. يمكن أن يؤدي الفشل في القيام بذلك إلى سوء تصنيف وظيفي وإعادة بناء تطورية جزيئية غير دقيقة [18 ، 19]. التشابه العام (كما هو محدد بواسطة BLAST ه-value) كمعيار لتحديد العلاقات التقويمية ضمن مجموعات البيانات الكبيرة مثل الجينومات الكاملة [20،21،22،23] ، ولكن هناك دليل على أن عمليات إعادة البناء الأكثر صرامة لتطور النشوء والتطور مطلوبة لتحديد علم تقويم العظام بثقة [22 ، 24 ]. لذلك قمنا ببناء أشجار النشوء والتطور لتحديد مجموعات من المتواليات المتعامدة ، كما فعلنا سابقًا [8] (انظر المواد والطرق).

حددنا 44 عائلة تقويمية تحتوي على معظم عائلات metazoan bHLH (الجدول 1 وبيانات إضافية). تحتوي اثنتان من هذه العائلات أيضًا على جينات الخميرة. كان المعيار الذي استخدمناه لتعريف العائلات المتعامدة كما في [8،25] أي أن العائلات المتعامدة هي مجموعات أحادية النمط توجد في أشجار الجينات التي تم إنشاؤها بواسطة طرق مختلفة للتطور الوراثي والتي يتم دعمها الأحادي بقيم التمهيد أكبر من 50٪. قمنا بتسمية كل عائلة وفقًا لأول عضو تم اكتشافه أو ، في حالات قليلة ، أفضل أفرادها تميزًا. أعطى هذا التحليل نتائج مماثلة لتلك الموصوفة في [8] ، باستثناء أن التسلسلات الإضافية المضمنة في التحليلات الحالية لتطور النشوء والتطور دفعتنا إلى تحديد ست عائلات إضافية من bHLHs من metazoans ، مقارنة بتقريرنا السابق. يجب أن نذكر أيضًا وجود ثلاث عائلات خاصة بالخميرة.

مقارنة بين ذخيرة bHLH للإنسان والفأر

وجدنا ما مجموعه 125 و 102 تسلسل bHLH مختلف في الإنسان والفأر ، على التوالي (الجدولان 2 و 5). تم استخدام هذه التسلسلات لإجراء عمليات إعادة بناء النشوء والتطور كما هو موضح أعلاه وفي المواد والطرق. هذا يسمح لنا باستنتاج العلاقات التقويمية بين الفأر والتسلسل البشري. تم اعتبار تسلسلين كأخصائيي تقويم العظام إذا كانا أقرب إلى بعضهما البعض من أي فأر أو تسلسل بشري آخر. يمكن اكتشاف ذلك بسهولة في أشجار النشوء والتطور ، حيث سيشكل التسلسلان مجموعة أحادية النواة حصرية (الشكل 2 أ). من بين 125 تسلسلًا بشريًا ، يمكن ربط 94 ارتباطًا دقيقًا بـ 1 (أو في حالات قليلة 2 ، انظر أدناه) جينات الماوس (الجدول 2) ، وعلى العكس من ذلك ، يمكن تعيين أخصائي تقويم العظام البشري بثقة إلى 93 من 102 جينًا من الفئران (الجدول 5) ). من بين 31 جينًا بشريًا و 9 جينات فئران لا تُظهر علاقات تقويم واضحة مع أي جينات بشرية أو فأرة ، على التوالي ، 8 جينات بشرية و 6 جينات ماوس هي أعضاء في عائلات تكون فيها علاقات النشوء والتطور غير مؤكدة - عائلات Mesp و E12 و Coe (الشكل 2 ب وبيانات إضافية). تحتوي عائلة Mesp على أربعة جينات بشرية وثلاثة جينات من الفئران ، وعائلة E12 وسبعة جينات بشرية وأربعة جينات فأر ، وعائلة Coe أربعة جينات بشرية وأربعة جينات فئران. لا يمكن ربط بعض هذه الجينات ببعضها البعض بشكل واضح (انظر الشكل 2 ب للحصول على مثال). ومع ذلك ، فمن المتصور وجود مثل هذه العلاقات ولكن أساليب إعادة بناء النشوء والتطور تفشل في اكتشافها. لذلك نعتبر أنه في عائلة Mesp على سبيل المثال (الشكل 2 ب) ، تتوافق ثلاثة من الجينات البشرية الأربعة مع جينات الفئران الثلاثة ، وبالتالي ، حتى الآن ، يفتقر جين بشري واحد إلى أخصائي تقويم بين جينات الفأر المستنسخة.

يؤدي تطبيق نفس المنطق على عائلات E12 و Coe إلى استنتاج أن ما لا يقل عن 26 جينًا بشريًا (20٪ من الإجمالي) لا تحتوي على أخصائي تقويم بين جينات bHLH للفأر المستنسخة حتى الآن ، وأن 3 الفئران فقط bHLHs (3٪) ليس لديهم أخصائيو تقويم العظام في مجموعة bHLH التي اشتقناها من مسودة تسلسل الجينوم البشري. يوضح الشكل 2 ج شجرة نسج نموذجية لعائلة تحتوي على جينات بشرية تفتقر إلى أخصائيي تقويم العظام. إن حقيقة أن ثلاثة جينات فقط من الفئران تفتقر إلى أخصائيي تقويم العظام تشير بقوة إلى أنه على الرغم من أن تحليلنا تم إجراؤه على نسخة مسودة من تسلسل الجينوم البشري ، فمن المرجح أن تكون مجموعة bHLH التي استرجعناها تقريبًا مكتملة ، وبالتالي تعطي نظرة دقيقة للغاية عن ذخيرة BHLH للإنسان. لم تنجح عمليات البحث الإضافية لأخصائيي تقويم العظام البشريين في الفئران الثلاثة التي تفتقر إلى أخصائيي تقويم العظام (Scleraxis و Dermo-1 و S-Myc) ، مما يشير إلى أن أخصائيي تقويم العظام هؤلاء إما غير موجودين في البشر أو ليسوا في تسلسل المسودة. لقد علمنا مؤخرًا أن هناك بعض عدم التوافق بين الإصدار الحالي من BLAST وتسلسل الجينوم البشري (ربما يرجع ذلك إلى العدد الكبير من Ns (النيوكليوتيدات غير المعينة) في التسلسل) ، مما يجعل BLAST غير قادر على تحديد موقع بعض من أفضل أو حتى المطابقات التامة لتسلسلات استعلام صغيرة (JAM Leunissen ، اتصال شخصي). قد يفسر هذا سبب فقدنا للجينات الأربعة المذكورة أعلاه ، وكذلك لماذا ، في حالات قليلة ، لم نتمكن من العثور على جينات بشرية مستنسخة معروفة في تسلسل الجينوم (انظر الجدول 2).

وجدنا أيضًا ثماني حالات تجمع فيها جينان بشريان معًا (بدعم إحصائي عالٍ) لاستبعاد أي جينات أخرى وغالبًا ما يكونان أخصائيو تقويم لجين فأر واحد (الشكل 2 ب وبيانات إضافية). على العكس من ذلك ، وجدنا حالتين يكون فيهما جينان من الفئران ، بشكل جماعي ، أخصائي تقويم لجين بشري واحد (الشكل 2 د). قد يكشف هذا عن ازدواجية حديثة نسبيًا خاصة بنسب الإنسان أو الماوس. بالاتفاق مع هذا ، في جميع الحالات ، تكون هوية الأحماض الأمينية بين النسختين عالية ولا تقتصر على bHLH. بالإضافة إلى ذلك ، وجدنا أنه في حالتين (التسلسل البشري Q9UH92 / N005106 و Q02363 / N005999) ، تفتقر إحدى النسختين المكررة إلى الإنترونات. علاوة على ذلك ، توجد النسختان على كروموسومات مختلفة. يشير هذا بقوة إلى أن الازدواجية حدثت عن طريق التحويل الرجعي ، وهو نوع من الأحداث يبدو متكررًا إلى حد ما لدى البشر [26]. في كلتا الحالتين ، النسخة التي تفتقر إلى الإنترونات تحتوي على كودونات توقف في bHLH ، مما يوحي بأنها جين زائف.

بروتينات تحتوي على اثنين من bHLHs

من بين 39 bHLH من الدودة ، 6 لا يمكن تخصيصها لأي عائلة (الجينات اليتيمة انظر الجدولين 1 و 4). خمسة من هذه لها بنية غير عادية لأنها تحتوي على مجالين bHLH (انظر أيضًا [27 ، 28]). يشير التحليل الوراثي لهذه البروتينات إلى أنها ناتجة عن ازدواجية جين أسلاف يحتوي بالفعل على اثنين من bHLHs (الشكل 3). كلا نطاقي bHLH مرتبطان بشكل فضفاض (على أساس التشابه العام) ببروتينات HER (المجموعة E الشكل 1) ، لكن إدراجها في المجموعة E لا يدعمه إعادة بناء النشوء والتطور (الشكل 3). بالإضافة إلى ذلك ، فإنها تفتقر إلى المجال البرتقالي ، الذي يميز معظم بروتينات HER ويزودها بخصوصية وظيفية [29]. كما أنها تفتقر إلى نموذج WRPW الموجود في المنطقة الطرفية الكربوكسية لجميع بروتينات HER تقريبًا والتي تسمح بالتفاعل مع بروتين مثبط Groucho [30،31،32]. علاوة على ذلك ، فإنها تفتقر إلى البرولين المحفوظ في المجال الأساسي الذي يمنح خصوصية ربط الحمض النووي على بروتينات HER [30].

بروتينات دودة مع نطاقي bHLH. تظهر شجرة نيوجيرسي متجذرة تصور العلاقات التطورية لبروتينات الديدان الخمسة مع نطاقي bHLH. تم تضمين جينات الفئران الممثلة لبعض العائلات الحيوانية في هذا التحليل. التجذير هو كما في الشكل 1. تشير الأرقام أعلاه الفروع إلى نسبة الدعم في تحليلات التمهيد (1000 مكررات). كما في الشكل 1 ، يجب اعتبار التجذير تعسفيًا. أطوال الفروع تتناسب مع المسافة بين التسلسلات. مم، موس العضلات م ، أنواع معينة انيقة. يتم عرض تسلسل bHLH الأول من كل بروتينات دودة باللون الأزرق ، والثاني باللون الأحمر. كلاهما يشكلان مجموعتين أحاديتين مع قيم تمهيد عالية ، مما يشير إلى أن هذه البروتينات تنشأ من بروتين أسلاف يحتوي بالفعل على مجالين من bHLH. علاوة على ذلك ، هناك دعم أضعف (40٪ bootstraps) لربط نطاقي bHLH في مجموعة monophyletic (غير مبين في الشكل ، حيث تظهر فقط العقد ذات الدعم بنسبة 50٪ أو أكثر) ، مما يشير إلى أن بروتين الأسلاف ربما اكتسبت نطاقي bHLH الخاصين به من خلال الازدواج الترادفي بدلاً من الارتباط بنطاقات bHLH غير ذات الصلة.

لم يتم الإبلاغ عن أي بروتين آخر يحتوي على اثنين من bHLHs في metazoans الأخرى ولم نتمكن من العثور على مثل هذه البروتينات في الجينوم البشري والذباب. تم العثور على بروتين مع مجالين bHLH في الأرز (أرز أسيوي البروتين P0498B01.20 رقم المدخل BAB61947) لكن تسلسله لا علاقة له تمامًا بتسلسل بروتين الدودة. تحتوي العديد من بروتينات bHLH على مجالات أخرى مرتبطة بالحمض النووي و / أو dimerization بالإضافة إلى bHLH ، مثل مجال PAS أو سحابات leucine أو مجال Coe [6،33،34]. من المتصور أن هذه المجالات قد تتعاون وبالتالي تمنح وظائف معينة للبروتينات التي تحتوي عليها. وبالمثل ، قد يؤدي وجود اثنين من bHLHs إلى تعديل خصوصية البروتينات المحتوية عليهما.

تأسيس عائلة جين bHLH

تم العثور على جينات bHLH في جميع التقسيمات الفرعية الرئيسية لحقيقيات النوى: metazoans والفطريات والنباتات. في المقابل ، لا يمكن العثور على تسلسل bHLH في بدائيات النوى. لذلك يبدو أن شكل bHLH قد تأسس في بداية تطور حقيقيات النوى. لقد وجدنا ثمانية جينات مختلفة من bHLH في حقيقيات النوى أحادية الخلية ، الخميرة S. cerevisiae. تم بالفعل استنساخ معظم هذه الجينات وتم تمييزها وظيفيًا (تمت مراجعتها في [7]). غالبًا ما تنظم هذه الجينات المسارات الكيميائية الحيوية (مثل استخدام الفوسفات والتخليق الحيوي للأحماض الأمينية وتحلل السكر) من خلال التنشيط النسخي لمجموعات كبيرة أو أقل من الجينات المشاركة في هذه المسارات [7]. تم العثور على تقويم لهذه الجينات في الخمائر الأخرى ذات الصلة البعيدة مثل شيزوساكارومايس بومب و Kluyveromyces lactis (ملاحظاتنا غير المنشورة) ، تشير إلى الأصل القديم لجينات bHLH المختلفة بين الخمائر.

يتناقض العدد الصغير نسبيًا من جينات bHLH الموجودة في الخميرة أحادية الخلية مع العدد الكبير الموجود في حقيقيات النوى متعددة الخلايا مثل الحيوانات والنباتات. نبلغ هنا عن وجود 39 جينًا مختلفًا من bHLH في ايليجانس ، 58 بوصة D. melanogaster ، و 125 في البشر. التحليل الأولي لجينومات النبات ، ولا سيما نبات الأرابيدوبسيس thaliana و يا ساتيفا ، بالمثل يشير إلى عدد كبير من جينات bHLH (أكثر من 100 في جينوم التسلسل الكامل لـ A. thaliana ، ملاحظاتنا غير المنشورة). حدث هذا التنوع المهم في ذخيرة bHLH في الحيوانات والنباتات بشكل مستقل ، حيث لم يتم العثور على جينات bHLH النباتية والحيوانية في نفس العائلة. تشير النظرة الحالية لنسالة حقيقيات النوى إلى أن الفطريات والحيوانات أكثر ارتباطًا ببعضها البعض من ارتباطها بالنباتات [35]. ومع ذلك ، وجدنا أن عائلتين فقط تحتويان على جينات الخميرة والحيوان (انظر الجدول 1) ، مما يشير إلى أن السلف المشترك للفطريات والحيوانات ربما يمتلك جينات bHLH أقل من الخمائر الحالية. في المستقبل القريب ، قد تقدم مشاريع الجينوم الجارية حاليًا على مختلف حقيقيات النوى "القاعدية" (انظر [36 ، 37]) رؤى مهمة حول التاريخ التطوري المبكر جدًا لعائلة bHLH.

نقترح أن تنويع جينات bHLH مرتبط ارتباطًا مباشرًا باكتساب تعددية الخلايا ، وبالتالي بتوظيف الجينات المشاركة في وظائف الخلية مثل التمثيل الغذائي في العمليات التنموية المطلوبة لبناء تعددية الخلايا. في الواقع ، في الحيوانات ، تشارك جينات bHLH بشكل عام في التنمية وفي تنظيم الجينات الخاصة بالأنسجة (تمت مراجعتها في [1،2،3،4،5]). قد توجد حالة مماثلة في النباتات ، على الرغم من وجود عدد قليل جدًا من جينات bHLH التي تم توصيفها وظيفيًا. بالإضافة إلى ذلك ، في كل من الحيوانات والنباتات ، يبدو أن تنوع جينات bHLH قد حدث مبكرًا في تطور هذه السلالات.

في الواقع ، يُظهر تحليلنا للتطور الجيني لجينات bHLH الحيوانية أن معظمها ينتمي إلى 44 عائلة متعامدة مختلفة. من بين هذه العائلات ، تحتوي 43 عائلة على ممثلين من كل من البروتستومات و deuterostomes ، وبالتالي يجب تمثيلها في سلفهم المشترك (غالبًا ما يسمى Urbilateria) [38] ، الذي عاش في عصور ما قبل الكمبري (منذ 600 مليون سنة).بالإضافة إلى ذلك ، تم تضمين عدد قليل من جينات bHLH التي تم استنساخها من الكائنات المجوفة ، والتي ليست ثنائية ، بشكل واضح في العائلات (انظر عائلات Twist و MyoD و ASC في بيانات إضافية) ، مما يشير إلى أن إنشاء بعض العائلات على الأقل يسبق الاختلاف من الثنائيين وغير الثنائيين. ستساعد التحليلات الإضافية لجينات bHLH في الكائنات المجوفة والإسفنج وقوالب الوحل في حل مشكلة التطور المبكر لجينات bHLH في الحيوانات.

تتوافق تحليلاتنا الأولية لجينات bHLH النباتية مع التنويع المبكر للنباتات ، كما هو الحال في الحيوانات. في الواقع ، كثير A. thaliana جينات bHLH لها أطباء تقويم واضحون في نبات قريب الصلة ، يا ساتيفا ، الذي تم تسلسل جينومه جزئيًا (ملاحظاتنا غير المنشورة). أرابيدوبسيس هو eudicotyledon و اوريزا عضو في Liliopsida (وحيدة الفلقة) ، وبالنظر إلى العلاقات التطورية لهذه الكتل [39] ، فإن هذا يشير إلى أن امتلاك العديد من جينات bHLH قد يكون أسلافًا إلى كاسيات البذور. سيتطلب المزيد من التحليل لتطور bHLH في النباتات إكمال مشاريع الجينوم الجارية حاليًا على الأرز والطماطم (فلقة eudicotyledon من سلالة مختلفة من أرابيدوبسيس) ، وكذلك عزل bHLH في طيف أوسع من الأنواع النباتية ، ولا سيما في كاسيات البذور القاعدية وغير كاسيات البذور.

تطور جينات bHLH في metazoans

تعطي مقارنة ذخيرة bHLH الموجودة في البروتستومات و deuterostomes رؤى مهمة في تطور عائلة bHLH في metazoans. تتوافق الاستنتاجات التي يمكن استخلاصها تمامًا مع تلك المقدمة في عملنا السابق [8] ولكن تضمين المجموعة الكاملة المحتملة من bHLH من الفقاريات يعزز هذه الاستنتاجات.

تحتوي معظم العائلات (43/44) على جينات من البروتستومات (ذبابة و / أو نيماتودا) و deuterostomes ، مما يشير إلى أن هذه العائلات كانت موجودة بالفعل في آخر سلف مشترك لكل من البروتستومات و deuterostomes ، أي من جميع الثنائيات. حقيقة أن معظم العائلات تحتوي على كل من جينات البروتستوم و deuterostome تشير أيضًا إلى عدم وجود إضافة أنواع جديدة من bHLH في السلالات المقابلة ، وبالتالي لا يوجد تنوع مهم في ذخيرة الأسلاف. عائلة واحدة تحتوي على أعضاء من الفقاريات ولا تحتوي على جينات ذبابة أو دودة. قد يمثل هذا ظهور أنواع جديدة من bHLH في سلالة الفقاريات ، أو بدلاً من ذلك فقدان أنواع الأسلاف في كل من الذبابة والديدان الخيطية. قد يساعد تحليل جينات bHLH من الرخويات أو الحلقات في حل هذا السؤال. يُعتقد الآن على نطاق واسع أن Bilateria (metazoans الثلاثية) تتكون من ثلاثة سلالات رئيسية: deuterostomes (التي تشمل الفقاريات وشوكيات الجلد) والبروتستومات ، والتي تشمل مجموعتين كبيرتين ، ecdysozoans (على سبيل المثال ، المفصليات والديدان الخيطية) و lophotrochozoans (على سبيل المثال ، الحلقيات والرخويات والديدان المفلطحة) (تمت مراجعته في [16]). لذلك ، فإن العثور على الجينات التقويمية في الفقاريات و lophotrochozoans ولكن ليس في الذباب والديدان الخيطية يشير بقوة إلى أن فقدان الجينات (es) قد حدث (قد) في سلالة ecdysozoan.

وبالمثل ، فإن حالة العائلات التي تحتوي على الفقاريات وإما جينات الدودة أو الذباب يمكن تفسيرها بشكل أفضل من خلال الخسائر الجينية التي حدثت ، داخل كليد ecdysozoan ، في أي من النسب بعد تباعد المفصليات / الديدان الخيطية. حدث هذا في سلالة الذبابة لعدد قليل جدًا من العائلات (4/44) ، مما يشير إلى وجود ضغط قوي للحفاظ على ذخيرة bHLH بأكملها. يشير العدد الأكبر بكثير من العائلات (13/44) التي تحتوي على أعضاء من الفقاريات والذباب ولكن لا يوجد ممثل للديدان الخيطية إلى حدوث خسائر جينية كبيرة في جين bHLH في سلالة الدودة. اللافت للنظر أن الدودة تفتقر إلى المنظم الخلوي والتنموي المهم Myc. كما تم الإبلاغ عن غياب مماثل للمنظمين التنمويين المهمين ، مثل عناصر مسار Hedgehog و Toll / IL-1 و JAK / STAT في الديدان الخيطية [27]. بالإضافة إلى ذلك ، لا يمكن تعيين عدد كبير من جينات الديدان الخيطية (6/39) بوضوح لعائلات معينة (الجينات اليتيمة). ربما يرجع هذا إلى معدل الاختلاف المرتفع المبلغ عنه بالنسبة لجينات الديدان الخيطية بشكل عام [40،41] والذي وجدناه ضمن مجموعة البيانات المحددة لدينا ([8] والبيانات غير معروضة).

من المثير للاهتمام ، مع ذلك ، أن بعض تسلسلات الديدان الخيطية قد تباعدت قليلاً جدًا عن نظيراتها من الذبابة أو الفئران. وتشمل هذه القليل من الخصائص الوظيفية C. ايليجانس جينات bHLH التي تظهر الحفظ الوظيفي العام مع الفقاريات و / أو أطباء تقويم العظام على سبيل المثال ، C. ايليجانس أخصائيو تقويم إلتواء و myoD يشاركون في تكوين العضلات [42،43] ، وتقويم العظام كفري و NeuroD (لين 32 و cnd-1) لها دور في تطوير الجهاز العصبي [44 ، 45]. يعتمد التحكم الجيني في العمليات التنموية مثل تكوين الخلايا العصبية وتكوين العضل على مجموعات صغيرة من الجينات المتفاعلة (التركيبات) [46]. تعتمد وظيفة التركيبات بشكل أساسي على تفاعلات جزيئية محددة بين أعضائها ، وبالتالي تفرض قيودًا هيكلية قوية عليها وتمنع التنويع الهيكلي (للمناقشة حول التركيبات والتطور ، انظر [47]). قد يفسر هذا سبب حفظ هذه الشبكات بشدة خلال تطور الميتازوان [48 ، 49] ولماذا تخضع جينات الديدان الخيطية المشاركة في مثل هذه الشبكات لقيود خاصة.

ازدواجية جينات bHLH في الفقاريات

حدثت زيادة كبيرة في تعقيد عائلة bHLH في الفقاريات: العدد الأكثر شيوعًا لجينات bHLH المختلفة لكل عائلة هو واحد في الذبابة (30/44) والديدان (27/44) ، واثنان في الإنسان (14/44 ولكن 20 / 44 عائلة بشرية تحتوي في الواقع على أكثر من جينين). تحتوي معظم عائلات bHLH (32/44) ، كما هو الحال مع عائلات الجينات الأخرى ، على عدد أكبر من أعضاء الفقاريات مقارنة بالشعب الأخرى (الجدول 1). من بين هذه العائلات ، تحتوي 14 (32٪) على أربعة أو أكثر من جينات الفقاريات (الجدول 1) ، وبالتالي قد تكشف عن حدوث ازدواجين في الجينوم الكامل (فرضية 2R) في التطور المبكر للفقاريات. في النسخة الأكثر شيوعًا ، يُعتقد أن هذا حدث من خلال تكرار واحد في جذر الفقاريات والثانية في سلالة Gnathostomata ، بعد اختلافها عن Agnatha (تمت مراجعته في [50]).

تميل العديد من التحليلات الحديثة ، مع ذلك ، إلى دحض (على الأقل ، لا تدعم) هذه الفرضية (تمت مراجعتها في [51]). على سبيل المثال ، تقديرات عدد الجينات الحالية للثدييات بناءً على تسلسل مسودة الإنسان ، وتقترح ESTs والمقارنات مع الفقاريات الأخرى أن الجينوم البشري لن يحتوي على أكثر من 35000 جين ، أي ضعف عدد الذباب والديدان [12]. تمشيا مع هذا ، فإن العديد من العائلات الجينية في الفقاريات لديها أقل من أربعة جينات. ومع ذلك ، قد ينتج هذا عن فقدان الجينات أثناء أو بعد جولات الازدواج [50]. بالإضافة إلى ذلك ، فإن التحليلات الوراثية لعائلات الجينات التي تتألف من أربعة أعضاء تلقي بظلال من الشك على فرضية 2R.

كما أشار هيوز [52] ، فإن وجود أربعة أعضاء في عائلة جينية للفقاريات في حد ذاته لا يدعم فرضية تكرار الجينوم. قد يأتي الدعم فقط من العائلات التي تُظهر شجرة النشوء والتطور طوبولوجيا الشكل (AB) (CD) ، أي زوجان من نظارين متشابهين ارتباطًا وثيقًا [52]. ناقش هيوز [52] سلالات 13 عائلة بروتينية مهمة في التنمية ، ووجد أن واحدة منهم فقط تظهر طوبولوجيا (AB) (CD). تم الحصول على نتائج مماثلة مؤخرًا بواسطة Martin [53] و Hughes وآخرون. [54] في العديد من العائلات الأخرى التي خضعت لاختبارات جينية أكثر صرامة. أدت هذه النتائج إلى فرضية بديلة مفادها أن وفرة الجينات المضاعفة في الفقاريات مقارنة باللافقاريات قد تكون ناتجة عن ارتفاع معدل التكرار المحلي ، بدلاً من تكرار الجينوم بالكامل (تمت مراجعته في [51]). قد يساعد تحليل عائلات الجينات الإضافية في التمييز بين هذه الفرضيات. لا تُظهر الأشجار التطورية لعائلات 14 bHLH التي تحتوي على أربعة أعضاء أو أكثر بوضوح طبولوجيا (AB) (CD) (انظر البيانات الإضافية). ومع ذلك ، يجب أن نلاحظ أن الأنساب داخل العائلات غالبًا ما تكون ضعيفة الدقة ، وبالتالي يصعب استخلاص استنتاجات قاطعة منها. ومع ذلك ، من الواضح أن بياناتنا لا تدعم فرضية 2R.


المؤلفون)

Barry، D. and Hartigan، J.A (1987) المسافة غير المتزامنة بين متواليات الحمض النووي المتماثل. القياسات الحيوية, 43, 261–276.

Felsenstein، J. (1981) الأشجار التطورية من تسلسل الحمض النووي: نهج الاحتمالية القصوى. مجلة التطور الجزيئي, 17, 368–376.

Felsenstein، J. and Churchill، G.A (1996) A Hidden Markov model نهج للاختلاف بين المواقع في معدل التطور. علم الأحياء الجزيئي والتطور, 13, 93–104.

Galtier، N. and Gouy، M. (1995) استنتاج الأنساب من تسلسل الحمض النووي للتركيبات القاعدية غير المتكافئة. وقائع الأكاديمية الوطنية للعلوم بالولايات المتحدة الأمريكية, 92, 11317–11321.

Gu، X. and Li، W.-H. (1996) مسافات Paralinear و LogDet المصححة بالانحياز واختبارات الساعات الجزيئية وتطور النسب تحت ترددات النوكليوتيدات غير الثابتة. علم الأحياء الجزيئي والتطور, 13, 1375–1383.

جوكس ، تي إتش ، وكانتور ، سي آر (1969) تطور جزيئات البروتين. في التمثيل الغذائي لبروتين الثدييات، محرر. مونرو ، إتش إن ، ص 21 - 132 ، نيويورك: مطبعة أكاديمية.

Kimura، M. (1980) طريقة بسيطة لتقدير المعدلات التطورية للبدائل القاعدية من خلال الدراسات المقارنة لتسلسلات النيوكليوتيدات. مجلة التطور الجزيئي, 16, 111–120.

Kimura، M. (1981) تقدير المسافات التطورية بين متواليات النوكليوتيدات المتجانسة. وقائع الأكاديمية الوطنية للعلوم بالولايات المتحدة الأمريكية, 78, 454–458.

(1990) قيود طريقة البخل التطوري لتحليل النشوء والتطور. علم الأحياء الجزيئي والتطور, 7, 82–102.

Lake، J.A (1994) إعادة بناء الأشجار التطورية من تسلسل الحمض النووي والبروتين: مسافات متوازية. وقائع الأكاديمية الوطنية للعلوم بالولايات المتحدة الأمريكية, 91, 1455–1459.

لوكهارت ، بي جيه ، ستيل ، إم إيه ، هندى ، إم دي وبيني ، دي (1994) استعادة الأشجار التطورية تحت نموذج أكثر واقعية لتطور التسلسل. علم الأحياء الجزيئي والتطور, 11, 605–602.

McGuire ، G. ، Prentice ، M.J and Wright ، F. (1999). تحسين حدود الخطأ للمسافات الجينية من تسلسل الحمض النووي. القياسات الحيوية, 55, 1064–1070.

تامورا ، ك. (1992) تقدير عدد بدائل النوكليوتيدات عندما يكون هناك تحيزات انتقالية وتحولات قوية وانحرافات محتوى G + C. علم الأحياء الجزيئي والتطور, 9, 678–687.

Tamura، K. and Nei، M. (1993) تقدير عدد بدائل النوكليوتيدات في منطقة التحكم في الحمض النووي للميتوكوندريا في البشر والشمبانزي. علم الأحياء الجزيئي والتطور, 10, 512–526.


استنتاج

بالنظر إلى أن الغالبية العظمى من بيانات التسلسل المتاحة للجمهور من الجينومات المعقدة مستمدة من مشاريع التسلسل الجيني الجزئي واسعة النطاق ، سيكون من العوائق الخطيرة تقييد تحليلات التطور الوراثي إلى المحاذاة المشتقة فقط من التسلسلات كاملة الطول. ومع ذلك ، فقد أظهرنا أن النمط المعين للجاذبية الموجود في محاذاة تسلسل الجينات الجزئي يحتاج إلى التعامل معه بحذر من أجل الحصول على سلالات دقيقة. تُظهر كل من أساليب التقنيع والقائمة على النموذج للبيانات المفقودة إمكانية تحسين دقة الأشجار التي تم الحصول عليها من محاذاة gappy. يجب مقارنة أدائهم مع المناهج الأخرى للتعامل مع المحاذاة غير الكاملة [14 ، 23]. ستكون مثل هذه الأساليب حاسمة لتطبيق التقنيات التي تعتمد على أعداد كبيرة من أشجار الجينات الدقيقة ، كما هو شائع في علم الوراثة العرقي [4 ، 6].


مقدمة

يمكن للتسلسل الجزيئي المتماثل عبر الأنواع المختلفة أو حتى داخل نفس الجينوم أن يُظهر تشابهًا ملحوظًا بسبب تاريخها التطوري المشترك. حفزت أوجه التشابه هذه العديد من التطبيقات لتجميع عناصر مجموعة متنوعة من التسلسلات في عناقيد المجموعات مجموعة متتاليات ذات تشابه كبير لاستخدامها في الخطوات اللاحقة. المعنى الدقيق للمجموعات يعتمد على التطبيق. على سبيل المثال ، عند تحليل بيانات ميكروبيوم 16S ، فإن خط الأنابيب القياسي هو استخدام وحدات التصنيف التشغيلي (OTUs) ، والتي هي في الأساس مجموعات من التسلسلات وثيقة الصلة والتي لا تتباعد أكثر من عتبة معينة [1-3]. مثال آخر هو استدلال انتقال فيروس نقص المناعة البشرية ، وهو مجال يتمثل النهج السائد فيه في تجميع تسلسلات فيروس نقص المناعة البشرية من أفراد مختلفين بناءً على تشابههم (مرة أخرى باستخدام عتبة) واستخدام هذه المجموعات كوكلاء لتحديد مجموعات انتقال المرض [4 ، 5] .

يمكن عرض التواريخ التطورية المشتركة ، والتي هي أصل التشابه بين التسلسلات المتماثلة ، باستخدام أشجار النشوء والتطور. يمكن الاستدلال على شجرة النشوء والتطور من بيانات التسلسل ، [6 ، 7] ويمكن للطرق المطورة حديثًا أن تستنتج تقريبًا أشجار النشوء والتطور ذات الاحتمالية القصوى (ML) في وقت دون تربيعي ، مما يمكنها من التوسع إلى مجموعات بيانات حتى ملايين التسلسلات [8] . علاوة على ذلك ، أصبح التوافق الدقيق لمجموعات البيانات مع مئات الآلاف من الأنواع (شرط أساسي لمعظم طرق إعادة بناء النشوء والتطور) ممكنًا الآن باستخدام طرق فرق تسد [٩ ، ١٠].

تستخدم معظم طرق تجميع التسلسل الحالية المسافات الزوجية بين التسلسلات كمدخلات ولكنها لا تستفيد من أشجار النشوء والتطور. على سبيل المثال ، يبحث UCLUST [2] المستخدم على نطاق واسع عن مجموعة تقلل من مسافة هامينج للتسلسلات إلى النقطه الوسطى للعنقود مع زيادة مسافة هامنج بين النقطه الوسطى. تم تطوير العديد من طرق التجميع الأخرى لسياقات مختلفة ، مثل تقييد عائلة الجينات [11 ، 12] وقواعد بيانات تسلسل البروتين الكبيرة [13].

استخدام الأنساب للتكتل له ميزتان محتملتان. أنا) نظرًا لأن السلالات تسعى صراحةً إلى استنتاج التاريخ التطوري ، فإن المجموعات القائمة على نسالة قد لا تعكس فقط المسافات التطورية (أي أطوال الفروع) ولكن أيضًا العلاقات (أي طوبولوجيا الشجرة). تذكر أيضًا أن أطوال الفروع في السلالة هي "تصحيحات" قائمة على النموذج لمسافات التسلسل بطريقة دقيقة إحصائيًا [7 ، 14] ، وبالتالي ، قد تعكس بشكل أفضل الاختلاف بين الكائنات الحية. ثانيا) عند الاستدلال باستخدام خوارزميات تربيعية ، يمكن للشجرة أن تلغي الحاجة إلى حساب جميع المسافات الزوجية ، والتي يمكن أن تحسن السرعة وقابلية التوسع. علاوة على ذلك ، غالبًا ما يتعين استنتاج السلالة لأغراض أخرى غير التجميع ، وبالتالي فهي متاحة بسهولة في العادة. ومع ذلك ، على الرغم من هذه الإمكانات ، على حد علمنا ، لا توجد طريقة منهجية للتجمع الموجه للتطور. تم تصميم مجموعات ClusterPicker [15] لتحليل عمليات انتقال فيروس نقص المناعة البشرية ، بناءً على مسافاتها أثناء استخدام شجرة النشوء والتطور كقيد ، ومع ذلك ، فإنها لا تزال تستخدم مسافات متسلسلة (وليس شجرة) ومقاييس تكعيبية فيما يتعلق بعدد التسلسلات في أسوأ الحالات.

بالنظر إلى شجرة النشوء والتطور الجذور ، إذا كانت الشجرة متناهية الصغر (أي مسافات جميع الأوراق إلى الجذر متطابقة) ، يمكن أن يستمر التجميع المتسلسل المستند إلى الشجرة بطريقة واضحة: يمكن قطع الشجرة على مسافة ما من الجذر ، وبالتالي تقسيم الشجرة إلى مجموعات (الشكل 1 أ). يمتد هذا النهج بطرق طبيعية للأشجار غير المأهولة من خلال تجذير الشجرة أولاً عند نقطة المنتصف الفريدة والمضي قدمًا كما كان من قبل. ومع ذلك ، نادرًا ما تكون أشجار النشوء والتطور المستنتجة فوق مستوى القياس. يمكن أن تتطور الكائنات الحية المختلفة بمعدلات مختلفة من التطور ، وحتى عندما تكون المعدلات متطابقة (مما يؤدي إلى شجرة حقيقية فائقة القياس) ، فليس هناك ما يضمن أن الأشجار المستنبطة ستكون متناهية الصغر. بالنظر إلى شجرة غير متناهية الصغر (وربما غير متجذرة) ، فإن أفضل طريقة لتسلسل الكتلة ليست واضحة (الشكل 1 ب).

لعتبة αقطع الشجرة على ارتفاع (أ). عندما لا تكون الشجرة متناهية الصغر ، فليس من الواضح كيفية تجميع الأوراق (ب). في كلتا الحالتين ، تحدد مجموعة من الحواف المقطوعة مجموعة.

تتمثل إحدى طرق التعامل مع التجميع المستند إلى الأشجار في التعامل معه على أنه مشكلة تحسين. يمكننا تحديد المشكلات بالشكل التالي: "ابحث عن الحد الأدنى لعدد المجموعات بحيث تقيد بعض المعايير كل مجموعة." ومن المثير للاهتمام ، أنه تم تناول شكلين على الأقل من مشاكل التحسين هذه في وقت مبكر من السبعينيات من قبل مجتمع علوم الكمبيوتر النظري ، في سياق إثبات نظريات أكثر تحديًا. ال تقسيم الشجرة تتمثل المشكلة في قطع الشجرة إلى الحد الأدنى لعدد الأشجار الفرعية بحيث يكون الحد الأقصى لطول المسار بين عقدتين في نفس الشجرة الفرعية [17] أو مجموع كل أوزان الحواف في كل شجرة فرعية [18] مقيدًا بعتبة معينة. يمكن حل كلتا المشكلتين بالضبط باستخدام خوارزميات الوقت الخطي المباشرة ، ومع ذلك ، على حد علمنا ، يتم تجاهل هذه الخوارزميات في الغالب من قبل علماء المعلومات الحيوية.

هنا ، نجادل بأن نهج التجميع المستند إلى الأشجار سريع وفعال يمكن أن يكون مفيدًا للعديد من الأسئلة في المعلوماتية الحيوية. في هذا البحث ، نقدم مجموعة من مشاكل تقسيم الأشجار ووصف الحلول الزمنية الخطية لثلاث حالات من المشكلة (اثنان منها يتوافقان مع مسائل الحد الأقصى والجمع المذكورة أعلاه مع الخوارزميات المعروفة). نوضح بعد ذلك أن التجميع المستند إلى الأشجار يمكن أن يؤدي إلى تحليلات بيولوجية محسنة في المصب في ثلاثة سياقات مختلفة: تحديد OTUs الميكروبية ، وتجميع انتقال فيروس نقص المناعة البشرية ، ومحاذاة التسلسل المتعدد بفصل وقهر.


مقدمة في علم الوراثة.

منذ عهد تشارلز داروين ، كان يحلم العديد من علماء الأحياء بإعادة بناء التاريخ التطوري لجميع الكائنات الحية على الأرض والتعبير عنها في شكل شجرة النشوء والتطور. يستخدم علم التطور النسبي المسافة التطورية ، أو العلاقة التطورية ، كطريقة لتصنيف الكائنات الحية (التصنيف).

تُعطى العلاقة التطورية بين الكائنات الحية من خلال درجة ونوع المسافة التطورية. لفهم هذا المفهوم بشكل أفضل ، دعونا نحدد التصنيف. التصنيف هو علم تسمية الكائنات الحية وتصنيفها ووصفها. يرتب علماء التصنيف الكائنات الحية المختلفة في تصنيفات (مجموعات). ثم يتم تجميعها معًا اعتمادًا على أوجه التشابه البيولوجي. تعكس هذه المجموعة من الأصناف درجة التشابه البيولوجي.

تأخذ علم اللاهوت النظامي التصنيف خطوة إلى الأمام من خلال توضيح الأساليب والنظريات الجديدة التي يمكن استخدامها لتصنيف الأنواع. يعتمد هذا التصنيف على سمات التشابه والآليات الممكنة للتطور. في الخمسينيات من القرن الماضي ، اقترح عالم الأحياء الألماني ويليام هينيغ أن النظاميات يجب أن تعكس التاريخ التطوري المعروف للأنساب ، وهو نهج أطلق عليه اسم علم الوراثة النظامي. لذلك ، علم النظم النشوء والتطور هو المجال الذي يتعامل مع تحديد وفهم العلاقات التطورية بين العديد من أنواع الكائنات الحية المختلفة.

تمت دراسة العلاقات التطورية تقليديًا بناءً على البيانات المورفولوجية. اعتاد العلماء على فحص السمات أو الخصائص المختلفة وحاولوا تحديد درجة الارتباط بين الكائنات الحية. ثم أدرك العلماء أنه ليست كل الخصائص المشتركة مفيدة في دراسة العلاقات بين الكائنات الحية. أدى هذا الاكتشاف إلى دراسة علم اللاهوت النظامي يسمى cladistics. Cladistics هي دراسة العلاقات النشوء والتطور على أساس الخصائص المشتقة المشتركة. هناك نوعان من الخصائص ، السمات البدائية والسمات المشتقة ، والتي تم وصفها أدناه.

الصفات البدائية هي خصائص الكائنات الحية التي كانت موجودة في سلف المجموعة قيد الدراسة.لا يشيرون إلى أي شيء عن علاقات الأنواع داخل المجموعة لأنها موروثة من السلف إلى جميع أعضاء المجموعة. الصفات المشتقة هي خصائص الكائنات الحية التي تطورت داخل المجموعة قيد الدراسة. هذه الخصائص لم تكن موجودة في الجد. إنها مفيدة لأنها يمكن أن تساعد في تفسير سبب وجود سمات مشتركة لبعض الأنواع. التفسير الأكثر ترجيحًا لوجود سمة لم تكن موجودة في سلف المجموعة بأكملها هو أنها تطورت من سلف أحدث.

توجد مجموعتان مكثفتان من التحليلات لفحص علاقات النشوء والتطور: الطرق الوراثية والطرق التكيفية. تستخدم الطرق الوراثية ، أو التصنيف العددي ، مقاييس مختلفة للتشابه العام لترتيب الأنواع. يمكنهم استخدام أي عدد أو نوع من الأحرف ، ولكن يجب تحويل البيانات إلى قيمة عددية. تتم مقارنة الكائنات مع بعضها البعض لجميع الشخصيات ثم يتم حساب أوجه التشابه. بعد ذلك ، يتم تجميع الكائنات الحية بناءً على أوجه التشابه. تسمى هذه المجموعات الفينوجرامات. لا تعكس بالضرورة الارتباط التطوري. تعتمد الطريقة cladistic على فكرة أن أعضاء المجموعة يشتركون في تاريخ تطوري مشترك ويرتبطون ارتباطًا وثيقًا بأعضاء نفس المجموعة أكثر من ارتباطهم بأي كائنات أخرى. تسمى الخصائص المشتقة المشتركة التشابك العصبي.

أدى إدخال أداتين مهمتين إلى تحسين دراسة علم الوراثة بشكل كبير. الأداة الأولى هي تطوير خوارزميات حاسوبية قادرة على بناء أشجار النشوء والتطور. الأداة الثانية هي استخدام بيانات التسلسل الجزيئي لدراسات النشوء والتطور.

يمكن لعلم الوراثة الوراثي استخدام كل من البيانات الجزيئية والصرفية من أجل تصنيف الكائنات الحية. تعتمد الطرق الجزيئية على دراسات التسلسل الجيني. افتراض هذه المنهجية هو أن أوجه التشابه بين جينومات الكائنات الحية ستساعد على تطوير فهم العلاقة التصنيفية بين هذه الأنواع. تستخدم الطرق المورفولوجية النمط الظاهري كأساس للتطور. ترتبط هاتان الطريقتان لأن الجينوم يساهم بقوة في النمط الظاهري للكائنات الحية. بشكل عام ، الكائنات الحية ذات الجينات الأكثر تشابهًا هي أكثر ارتباطًا. تتمثل ميزة الطرق الجزيئية في أنها تتيح دراسة الجينات بدون تعبير مورفولوجي.

كما ذكرنا سابقًا ، تشترك الأنواع ذات الصلة الوثيقة في سلف مشترك أكثر حداثة من الأنواع ذات الصلة البعيدة. يمكن تمثيل العلاقات بين الأنواع من خلال شجرة النشوء والتطور. هذا تمثيل رسومي له عقد وفروع. تمثل العقد وحدات تصنيفية. تعكس الفروع علاقات هذه العقد من حيث الأحفاد. يشير طول الفرع عادة إلى شكل من أشكال المسافة التطورية. الأنواع الحالية الفعلية تسمى وحدات التصنيف التشغيلية (OTUs) موجودة في طرف الفروع على العقد الخارجية.

طرق بناء الشجرة
تم اقتراح بعض الطرق لبناء أشجار النشوء والتطور. يمكن تصنيفها إلى مجموعتين ، الطرق cladistic (الحد الأقصى من البخل والاحتمالية القصوى) والطريقة الظاهرية (طريقة مصفوفة المسافة).

أقصى شح تشير الأشجار إلى أن الفرضيات البسيطة أفضل من الفرضيات المعقدة. هذا يعني أن بناء الشجرة باستخدام هذه الطريقة يتطلب أقل عدد من التغييرات التطورية من أجل شرح نسالة الأنواع قيد الدراسة. في هذا الإجراء ، تقارن هذه الطريقة الأشجار البخلّة المختلفة وتختار الشجرة التي تحتوي على أقل عدد من الخطوات التطورية (بدائل النيوكليوتيدات في سياق تسلسل الحمض النووي).

احتمالية قصوى تقوم هذه الطريقة بتقييم طبولوجيا الأشجار المختلفة واختيار الأفضل بناءً على نموذج محدد. يعتمد هذا النموذج على العملية التطورية التي يمكن أن تفسر تحويل تسلسل إلى آخر. المعلمة المدروسة في الهيكل هي طول الفرع.

مصفوفة المسافة هو نهج ظاهري مفضل من قبل العديد من علماء الأحياء الجزيئية لعمل الحمض النووي والبروتين. تقدر هذه الطريقة متوسط ​​عدد التغييرات (لكل موقع بالتسلسل) في تصنيفين ينحدران من سلف مشترك. هناك الكثير من المعلومات في التسلسل الجيني التي يجب تبسيطها لمقارنة نوعين فقط في وقت واحد. المقياس ذو الصلة هو عدد الاختلافات في هذين التسلسلين ، وهو مقياس يمكن تفسيره على أنه المسافة بين الأنواع من حيث الارتباط.

تم اقتراح السلالة الجزيئية لأول مرة في عام 1962 من قبل باولينج وزوكيركاندل. لاحظوا أن معدلات استبدال الأحماض الأمينية في الهيموجلوبين الحيواني كانت ثابتة تقريبًا بمرور الوقت. وصفوا الجزيئات بأنها وثائق من التاريخ التطوري. الطريقة الجزيئية لها مزايا عديدة. يمكن قراءة الأنماط الجينية مباشرة ، ويمكن مقارنة الكائنات الحية حتى لو كانت مختلفة جدًا من الناحية الشكلية وهذه الطريقة لا تعتمد على النمط الظاهري.

يُستخدم علم التطور حاليًا في العديد من المجالات مثل البيولوجيا الجزيئية ، وعلم الوراثة ، والتطور ، والتنمية ، والسلوك ، وعلم الأوبئة ، وعلم البيئة ، والنظاميات ، وبيولوجيا الحفظ ، والطب الشرعي. يمكن لعلماء الأحياء استنتاج الفرضيات من بنية أشجار النشوء والتطور وإنشاء نماذج لأحداث مختلفة في التاريخ التطوري. علم التطور هو طريقة استثنائية لتنظيم المعلومات التطورية. من خلال هذه الأساليب ، يمكن للعلماء تحليل وتوضيح العمليات المختلفة للحياة على الأرض.

اليوم ، يحسب علماء الأحياء أن هناك ما يقرب من 5 إلى 10 ملايين نوع من الكائنات الحية. تشير سطور مختلفة من الأدلة ، بما في ذلك التسلسل الجيني ، إلى أن جميع الكائنات الحية مرتبطة وراثيًا ويمكن أن تنحدر من سلف مشترك. يمكن تمثيل هذه العلاقة من خلال شجرة تطورية ، مثل شجرة الحياة. The Tree of Life هو مشروع يركز على فهم أصل التنوع بين الأنواع التي تستخدم نسالة.

مراجع:
1) ويلان س. ، ليو ب. ، جولدمان إن. (2001) علم الوراثة الجزيئي: أحدث الأساليب للبحث في الاتجاهات السابقة في علم الوراثة ، المجلد 17 ، العدد 5 ، 1 ، الصفحات 262-272

2) بيرجر ج. مقدمة في تكوين السلالات الجزيئية. 334 مشروع زراعة الاسنان.

3) Wen-Hsiung Li. التطور الجزيئي. سيناوير أسوشيتس ، 1997.

4) باجل إم (1999) استنتاج الأنماط التاريخية للتطور البيولوجي. طبيعة 401 ، 877-884

5) Zuckerlandl، E. and Pauling، L. (1962) المرض الجزيئي والتطور وعدم التجانس الجيني. في آفاق في الكيمياء الحيوية (كاشا ، إم. وبولمان ، ب. ، محرران) ، ص 189-225 ، مطبعة أكاديمية 1921-1930

6) فيلسنشتاين ، ج. (1981) ، الأشجار التطورية من تسلسل الحمض النووي: نهج الاحتمال الأقصى ، مجلة التطور الجزيئي 17: 368-376

7) Endo T.، Ogishima S.، Tanaka H. (2003) شجرة النشوء والتطور المعيارية: مرجع لاكتشاف التطور الوظيفي J Mol Evol 57 Suppl 1: S174-81. بيولوجيا الأنواع النباتية

8) Murren C. (2002) التكامل المظهري في النباتات. بيولوجيا الأنواع النباتية. المجلد 17 العدد 2-3 الصفحة 89


نتائج

Cassiopeia: إطار قابل للتطوير من أجل تتبع النسب أحادية الخلية لاستدلال نسالة

عادة ، يتم إنشاء أشجار النشوء والتطور من خلال محاولة تحسين هدف محدد مسبقًا على الشخصيات (أي المواقع المستهدفة) وحالاتها (أي ، indels) [13]. تهدف الطرق القائمة على المسافة (مثل انضمام الجار [11 ، 14 ، 15] أو المربعات الصغرى للتطور [16 ، 17]) إلى استنتاج الشجرة الموزونة التي تقترب بشكل أفضل من الاختلاف بين العقد (أي عدد الأحرف التي تميز خليتين يجب أن تكون مشابهة لبعدهم في الشجرة). بدلاً من ذلك ، تهدف الطرق القائمة على الشخصية إلى استنتاج شجرة ذات أقصى شح [18 ، 19]. بشكل تقليدي ، في هذا النهج ، يكون الكائن المرتجع عبارة عن شجرة متجذرة (تتكون من "أوراق" ملحوظة وعقد داخلية "أسلافية" غير ملحوظة) حيث ترتبط جميع العقد بمجموعة من حالات الأحرف بحيث يكون العدد الإجمالي للتغييرات في حالات الأحرف (بين عقد السلف والعقد الفرعية) يتم تصغيره. أخيرًا ، هناك فئة ثالثة من الأساليب التي ترتبط ارتباطًا وثيقًا بالأساليب القائمة على الشخصية تتخذ نهجًا احتماليًا على الشخصيات باستخدام الاحتمال الأقصى [20 ، 21] أو الاحتمال اللاحق [22] كهدف.

لقد اخترنا تركيز انتباهنا على الأساليب المعتمدة على الحد الأقصى من البخل نظرًا للنجاح المبكر في تطبيق هذه الأساليب على بيانات تتبع النسب [5 ، 6] بالإضافة إلى ثروة النظرية والتطبيقات لهذه الأساليب في المجالات خارج تتبع النسب [23] ]. يتكون إطارنا ، Cassiopeia ، من ثلاث خوارزميات لحل الأنساب. في مجموعات البيانات الأصغر ، نقترح استخدام نهج شجرة شتاينر (Cassiopeia-ILP) [24] للعثور على الحد الأقصى لشجرة البخل على الخلايا المرصودة. تم استخدام أشجار شتاينر على نطاق واسع كطريقة لاستخلاص مشاكل الاتصال بالشبكة في إعدادات مختلفة ، مثل التوجيه في تصميم الدوائر [25] ، وقد تم اقتراحها سابقًا كنهج عام لإيجاد أقصى سلالات من البخل [26 ، 27]. لتكييف أشجار شتاينر مع تتبع السلالة أحادية الخلية ، ابتكرنا طريقة لاستنتاج "رسم بياني محتمل" كبير أساسي حيث تمثل الرؤوس خلايا فريدة (على حد سواء أسلاف ملحوظة ومعقولة) وتمثل الحواف مسارات تطورية محتملة بين الخلايا. الأهم من ذلك ، نحن نصمم هذا الاستنتاج خصيصًا لمقايسات تتبع النسب أحادية الخلية: نحن نمذجة عدم رجوع طفرات Cas9 ونحسب البيانات المفقودة باستخدام نهج شامل ، مع الأخذ في الاعتبار جميع indels الممكنة في المواقع المستهدفة المعنية (انظر قسم "الطرق"). بعد صياغة الرسم البياني المحتمل ، نستخدم البرمجة الخطية الصحيحة (ILP) كأسلوب لإيجاد حلول شبه مثالية لمشكلة شجرة شتاينر. نظرًا لتعقيد NP-Hard لأشجار Steiner والتقريب الصعب للرسم البياني المحتمل (الذي يتم تقييم تأثيره على استقرار الحل في الملف الإضافي 1: الشكل S2) ، فإن القيد الرئيسي لهذا النهج هو أنه لا يمكن عمليًا القياس إلى حد كبير أعداد كبيرة من الخلايا.

لتمكين Cassiopeia من التوسع إلى عشرات الآلاف من الخلايا ، قمنا بتطبيق خوارزمية جشع قائمة على الكشف عن مجريات الأمور (Cassiopeia-Greedy) لتجميع الخلايا باستخدام الطفرات التي من المحتمل أن تكون حدثت مبكرًا في تجربة النسب. تم استلهام استدلالنا من فكرة "السلالة الكاملة" [28 ، 29] - نظام نسبي حيث تكون كل طفرة (هنا ، indels المشتقة من Cas9) فريدة من نوعها وتحدث مرة واحدة على الأكثر. في حالة الأحرف الثنائية (على سبيل المثال ، نعم / لا المتحولة دون احتساب indel المحدد) ، توجد خوارزمية فعالة [30] لتقرير ما إذا كان السلالة الكاملة موجودة أم لا ، وإذا كان الأمر كذلك ، لإعادة بناء هذه السلالة أيضًا. ومع ذلك ، هناك وجهان لمشكلة تتبع السلالة يعقدان استنتاج ما إذا كان هناك سلالة كاملة أم لا: أولاً ، طبيعة الأحرف "متعددة الحالات" (أي أن كل حرف ليس ثنائيًا ، بل يمكن أن يتخذ عدة حالات مختلفة ، الأمر الذي يجعل المشكلة NP-Hard) [31 ، 32] وثانيًا ، وجود بيانات مفقودة [33]. لمعالجة هذه المشكلات ، نتبع أولاً نهجًا نظريًا ونثبت أنه نظرًا لأن الخلية المؤسسة (جذر السلالة) غير معدلة (على سبيل المثال ، تتضمن فقط المواقع المستهدفة غير المصقولة) وأن عملية الطفرات لا رجعة فيها (أي المواقع المحررة لا يمكن إعادة صياغتها بواسطة Cas9) ، نحن قادرون على تقليل مثيل متعدد الحالات إلى مثيل ثنائي بحيث يمكن حله باستخدام خوارزمية جشع مثالية قائمة على التطور. على الرغم من أن Cassiopeia-Greedy لا تتطلب سلالة كاملة ، إلا أننا نثبت أيضًا أنه إذا كان أحدهم موجودًا في مجموعة البيانات ، فإن الخوارزمية المقترحة لدينا مضمونة للعثور عليه (النظرية 1). ثانيًا ، تتخذ Cassiopeia-Greedy نهجًا يعتمد على البيانات للتعامل مع الخلايا ذات البيانات المفقودة (انظر قسم "الطرق"). على عكس Cassiopeia-ILP ، فإن Cassiopeia-Greedy ليست بطبيعتها قوية للتطور الموازي (أي "homoplasy" ، حيث تنشأ حالة معينة بشكل مستقل أكثر من مرة في نسالة في أجزاء مختلفة من الشجرة). ومع ذلك ، فإننا نوضح نظريًا أنه في حالة التوقع ، من المرجح أن تحدث الطفرات التي لوحظت في عدد أكبر من الخلايا مرات أقل في التجربة لنطاقات صغيرة بما فيه الكفاية ، ولكنها واقعية ، لمعدلات الطفرات (انظر قسم "الطرق" ، ملف إضافي 1: الشكل S3) ، وبالتالي دعم الكشف عن مجريات الأمور. علاوة على ذلك ، باستخدام المحاكاة ، نحدد دقة هذا الاستدلال الجشع لأعداد متفاوتة من الحالات ومعدلات الطفرات ، ونجد بشكل عام أن هذه الانقسامات دقيقة (خاصة في أنظمة المعلمات الواقعية هذه ، انظر قسم "الطرق" والملف الإضافي 1: الشكل S4 ). أدناه ، نناقش أيضًا التحليلات المستندة إلى المحاكاة التي توضح فعالية Cassiopeia-Greedy بكميات متفاوتة من التطور المتوازي (ملف إضافي 1: الشكل S5).

بينما تعد Cassiopeia-ILP و Cassiopeia-Greedy استراتيجيات مناسبة اعتمادًا على مجموعة البيانات ، يمكننا دمج هاتين الطريقتين في نهج هجين (Cassiopeia-Hybrid) يغطي نطاقًا أوسع بكثير من أحجام مجموعة البيانات (الشكل 1 ج). في حالة الاستخدام هذه ، يوازن Cassiopeia-Hybrid بين البساطة وقابلية التوسع لخوارزمية الجشع متعددة الحالات مع دقة وعمومية نهج شجرة شتاينر. تبدأ الطريقة بتقسيم الخلايا إلى عدة مجموعات رئيسية باستخدام Cassiopeia-Greedy ثم إعادة بناء سلالات منفصلة لكل كليد باستخدام Cassiopeia-ILP. يضمن هذا النهج الموازي للمشكلات الفرعية ذات الحجم المعقول (300 خلية في كل كليد) أوقات تشغيل عملية على أعداد كبيرة من الخلايا (ملف إضافي 1: الشكل S1). بعد حل جميع المشكلات الفرعية باستخدام نهج شجرة شتاينر ، نقوم بدمج كل الكتل معًا لتشكيل نسالة كاملة (الشكل 1 ج).

يتيح محرك المحاكاة معيارًا شاملاً لخوارزميات إعادة بناء النسب

لتوفير معيار شامل لإعادة بناء السلالات ، قمنا بتطوير إطار عمل لمحاكاة تجارب تتبع النسب عبر مجموعة من المعلمات التجريبية. على وجه الخصوص ، يمكن أن تختلف السلالات المحاكاة في عدد الأحرف (على سبيل المثال ، المواقع المستهدفة Cas9) ، وعدد الحالات (على سبيل المثال ، المستحثات المحتملة التي يسببها Cas9) ، وتوزيع الاحتمالات على هذه الحالات ، ومعدل الطفرة لكل حرف ، وعدد من أجيال الخلايا ومقدار البيانات المفقودة. بدأنا بتقدير القيم "الافتراضية" المعقولة لكل معلمة محاكاة باستخدام البيانات التجريبية (التي تمت مناقشتها أدناه والمشار إليها في الشكل 2). في كل عملية محاكاة ، قمنا بتغيير أحد المعلمات مع الحفاظ على الباقي ثابتًا على قيمته الافتراضية. تم العثور على احتمالية التحول لكل حالة عن طريق استيفاء التوزيع التجريبي لنتائج indel (ملف إضافي 1: الشكل S6 ، راجع قسم "الطرق"). تم اختبار كل مجموعة من المعلمات باستخدام 50 مكررًا كحد أقصى أو حتى التقارب ، وفي كل مرة يتم أخذ عينات مجموعة من 400 خلية من المجموع 2 د الخلايا (حيث د هو عمق الشجرة المحاكاة).

تتفوق خوارزميات ذات الكرسي في الأداء على طرق إعادة بناء النشوء والتطور الأخرى على السلالات المحاكاة. تتم مقارنة الدقة بين خمس خوارزميات (Cassiopeia-Greedy و Cassiopeia-ILP و Cassiopeia-Hybrid بالإضافة إلى الخوارزميات المجاورة و Camin-Sokal) في 400 خلية. يتم تقييم دقة إعادة بناء النسالة من خلال الإحصاء الصحيح لثلاثة توائم عبر عدة أنظمة تجريبية: أ عدد الشخصيات ، ب معدل الطفرة (أي معدل القطع Cas9) ، ج عمق الشجرة (أو طول التجربة) ، د عدد الحالات لكل حرف (أي عدد نتائج indel المحتملة) ، و ه معدل التسرب. تمثل الخطوط المتقطعة القيمة الافتراضية لكل اختبار جهد. تم إعادة بناء ما بين 10 و 50 شجرة مكررة ، اعتمادًا على ثبات الإحصاء الصحيح لثلاثة توائم ووقت التشغيل الكلي. يتم تمثيل الخطأ القياسي عبر التكرارات بواسطة المنطقة المظللة

قارنا أداء خوارزميات Cassiopeia (Cassiopeia-ILP ، و Cassiopeia-Greedy ، و Cassiopeia-Hybrid) بالإضافة إلى خوارزمية الحد الأقصى من البخل البديل ، Camin-Sokal (المستخدمة سابقًا في تطبيقات تتبع النسب [5 ، 6]) ، و جار الانضمام إلى خوارزمية قائمة على المسافة. نقوم بتقييم الأداء باستخدام مقياس اندماجي ، "ثلاثة توائم صحيحة" (ملف إضافي 1: الشكل S7 ، راجع قسم "الأساليب") ، والذي يقارن نسبة الخلايا الثلاثية المرتبة بشكل صحيح في الشجرة. الأهم من ذلك ، أن هذه الإحصائية عبارة عن متوسط ​​مرجح للتوائم الثلاثة ، مقسمًا حسب عمق الثلاثي (يقاس بالمسافة من الجذر إلى أحدث سلف مشترك (LCA) راجع قسم "الطرق"). على عكس مقاييس مقارنة الأشجار الأخرى ، مثل Robinson-Foulds [34] ، فإننا نعتقد أن المقاييس التجميعية [35] تعالج بشكل أكثر وضوحًا احتياجات تحليلات المصب الأساسية ، أي تحديد العلاقات التطورية بين الخلايا (على الرغم من أن الإحصاء الصحيح الثلاثي يتفق إلى حد كبير مع المقاييس القائمة على المسافة ، انظر الملف الإضافي 1: الشكل S7b).

بشكل عام ، تُظهر عمليات المحاكاة التي أجريناها الأداء القوي والكفاءة في كاسيوبيا. على وجه التحديد ، نرى أن مجموعة خوارزميات Cassiopeia تجد باستمرار أشجارًا أكثر دقة مقارنة بكل من Camin-Sokal وانضمام الجيران (الشكل 2 أ-هـ ، ملف إضافي 1: الشكل S8a-e). علاوة على ذلك ، لا يتم إنتاج الأشجار باستخدام Cassiopeia فقط أكثر دقة من الطرق الحالية ، ولكن أيضًا أكثر شحًا عبر جميع نطاقات المعلمات - تعمل كمؤشر على أن الأشجار تصل إلى حل موضوعي أكثر أمثل (ملف إضافي 1: الشكل S9). الأهم من ذلك ، نلاحظ أن Cassiopeia-Hybrid و Cassiopeia-Greedy أكثر فاعلية من الجار الذي ينضم إلى أنظمة عينة كبيرة إلى حد ما (ملف إضافي 1: الشكل S10). والجدير بالذكر أن كلا من Cassiopeia-Greedy و Cassiopeia-Hybrid يتناسبان مع الأنظمة الكبيرة بشكل خاص (تصل إلى 50000 خلية ، وهو مقياس يتضمن الحد الأعلى التقريبي لمعظم تجارب التسلسل أحادية الخلية الحالية) دون حل وسط كبير في الدقة (ملف إضافي 1: الشكل S11). في المقابل ، لم يتمكن Camin-Sokal و Cassiopeia-ILP من القياس لمثل هذه الأحجام (ملف إضافي 1: الشكل S1). أخيرًا ، نلاحظ أنه في ظل تحليل التمهيد ، تكون وحدات Cassiopeia قوية لبيانات تتبع النسب (ملف إضافي 1: الشكل S12a ، ب) مقارنةً بالانضمام إلى الجار كمرجع (ملف إضافي 1: الشكل S12c ، على الرغم من أنه يمكن تحسين استقرار انضمام الجار مع وظائف المسافة الأكثر تطوراً واختيار الميزات).

تمنح هذه المحاكاة أيضًا نظرة ثاقبة حول معلمات التصميم المهمة لتقنية تسجيل النسب. أولاً ، نلاحظ أن "سعة المعلومات" (على سبيل المثال ، عدد الأحرف و indels المحتملة ، أو الحالات) للمسجل تمنح زيادة في الدقة لوحدات Cassiopeia ولكن ليس بالضرورة Camin-Sokal وانضمام الجيران (على الرغم من أنها تؤدي أداءً جيدًا بشكل معتدل في محاكاة سعة المعلومات المنخفضة الشكل 2 أ ، د). هذا على الأرجح لأن الحجم الأكبر لمساحة البحث يؤثر سلبًا على أداء هاتين الخوارزميتين (في سياقات أخرى يشار إليها باسم "لعنة الأبعاد" [36]).بالإضافة إلى سعة المعلومات ، نجد أن توزيعات indel التي تميل نحو توزيع منتظم (وبالتالي إنتروبيا أعلى) تسمح بإعادة بناء أكثر دقة خاصة عندما يكون عدد الحالات صغيرًا أو عدد العينات كبيرًا (ملف إضافي 1: الشكل S13). ليس من المستغرب أن تؤدي نسبة البيانات المفقودة إلى انخفاض حاد في الأداء (الشكل 2 هـ). علاوة على ذلك ، في التجارب الأطول حيث يتم أخذ عينات من مجموعة الخلايا المرصودة من مجموعة أكبر من الخلايا ، نجد أن المشكلة تميل إلى أن تصبح أكثر صعوبة (الشكل 2 ج).

علاوة على ذلك ، تمنح هذه النتائج نظرة ثاقبة حول كيفية تأثر Cassiopeia-Greedy في الأنظمة التي يحتمل فيها التطور الموازي: كما هو الحال في أنظمة سعة المعلومات المنخفضة (على سبيل المثال ، حيث يكون عدد indels المحتملة أقل من 10 ، الشكل 2 د) أو مع ارتفاع معدلات الطفرة (الشكل 2 ب). في كلا النظامين ، تزداد نسبة طفرات التطور المتوازية لجميع الطفرات (ملف إضافي 1: الشكل S14). بينما يتفوق Cassiopeia-ILP على Cassiopeia-Greedy في هذه المحاكاة ، مما يسلط الضوء على فائدته في حل مجموعات البيانات الصغيرة والمعقدة ، فقد استكشفنا أيضًا فعالية Cassiopeia-Greedy في هذه الأنظمة. لتعزيز نتائجنا النظرية السابقة التي تشير إلى أن الإندلس الذي لوحظ في عدد أكبر من الخلايا من المرجح أن يحدث مرات أقل وفي وقت سابق في نسالة (ملف إضافي 1: الشكل S3) ، استكشفنا كيف يؤثر التطور الموازي على Cassiopeia-Greedy بشكل تجريبي مع المحاكاة. على وجه التحديد ، قمنا بمحاكاة الأشجار بأعداد متفاوتة من أحداث التطور المتوازية في أعماق مختلفة ووجدنا بشكل عام أنه بينما ينخفض ​​الأداء مع عدد هذه الأحداث ، كلما اقتربت هذه الأحداث من الأوراق ، كان التأثير أصغر (ملف إضافي 1: الشكل S5) . علاوة على ذلك ، نجد أنه في ظل معلمات المحاكاة "الافتراضية" (كما هو محدد بواسطة البيانات التجريبية ، الملف الإضافي 1: الشكل S6 و 3) ، تتخذ Cassiopeia-Greedy باستمرار اختيارات دقيقة للحدث الأول الذي يتم من خلاله تقسيم الخلايا إلى مجموعات (إضافية ملف 1: الشكل S4b). بالطبع في الأنظمة حيثما أمكن ، يتفوق Cassiopeia-ILP على Cassiopeia-Greedy عندما يكون هناك حالات قليلة (أي أقل من 10 شكل 2 د) أو معدلات طفرة عالية (أي أكبر من 10٪ شكل 2 ب).

تجربة مرجعية في المختبر. أ تم إنشاء مجموعة بيانات تتبع النسب المرجعية باستخدام التكنولوجيا المقترحة في Chan et al. [10] إلى الخلايا البشرية المستزرعة في المختبر لمدة 15 جيلًا. تم تحليل ما مجموعه 34557 خلية بعد التصفية وتصحيح الخطأ. يظهر فقط التقسيم الأولي (إلى لوحين). يتم توفير تحليل الانقسام اللاحق (إلى أربع لوحات) في الملف الإضافي 1: الشكل S22. بF ملخص لمعلمات تتبع النسب ذات الصلة لكل مجموعة نسيلية في التجربة: ب عدد الأحرف لكل نسخة ، ج عدد الولايات لكل موقع مستهدف ، د معدل الطفرة المقدر لكل موقع مستهدف ، ه متوسط ​​التسرب لكل موقع مستهدف ، و F نسبة الخلايا المميزة بشكل فريد. يشير التظليل الرمادي إلى أنظمة المعلمات التي تم اختبارها في عمليات المحاكاة ، بينما تشير الخطوط المتقطعة باللون الأحمر إلى القيم الافتراضية لكل معايير قياس تركيبية

من الناحية العملية ، يمكن معالجة مسألة التطور الموازي إلى حد ما من خلال دمج مقدمات الحالة (أي احتمالات تكوين المستحثات المستحثة بـ Cas9). من الناحية المثالية ، سوف تستخدم Cassiopeia-Greedy هذه المقدمات لاختيار الطفرات ذات الاحتمالية المنخفضة ، ولكن يتم ملاحظتها عند التردد العالي. من الناحية النظرية ، سيكون هذا مفيدًا حيث من المتوقع أن تحدث indels ذات الاحتمالية المنخفضة مرات أقل في الشجرة (1) ، وبالتالي ، إذا ظهرت بتردد عالٍ في الأوراق ، فمن المحتمل بشكل خاص أن تكون قد حدثت في وقت سابق في نسالة. علاوة على ذلك ، يشير تحليل الدقة الخاص بنا إلى أن قرارات Cassiopeia-Greedy دقيقة بشكل خاص إذا اختارت indel بسابقة منخفضة (ملف إضافي 1: الشكل S4). لدمج هذه المقدمات في الممارسة ، اخترنا وظيفة ارتباط (أي ، ترجمة واحدة للتردد المرصود والاحتمال السابق للأولوية) التي عززت أداء Cassiopeia-Greedy (ملف إضافي 1: الشكل S15 راجع قسم "الطرق"). بعد العثور على نهج فعال لدمج الاحتمالات السابقة ، أجرينا نفس المعايير ووجدنا أنه في حالات التطور الموازي المحتمل ، تمنح المقدمات السابقة زيادة في الدقة (على سبيل المثال ، مع معدلات طفرة عالية ، ملف إضافي 1: الشكل S16) ، خاصة في الأنظمة الأكبر (ملف إضافي 1: الشكل S11).

هنا ، قدمنا ​​جهاز محاكاة مرنًا قادرًا على ملاءمة البيانات الحقيقية وبالتالي يمكن استخدامه لقياس الأداء في المستقبل للخوارزميات. باستخدام هذا المحاكي ومجموعة واسعة من المعلمات ، أثبتنا أن Cassiopeia تؤدي أداءً أفضل بكثير من الطرق التقليدية. علاوة على ذلك ، تمنح هذه المحاكاة نظرة ثاقبة حول كيفية تعديل أداء كاسيوبيا من خلال معايير تجريبية مختلفة ، مما يشير إلى مبادئ التصميم التي يمكن تحسينها لتعزيز دقة إعادة البناء. على وجه التحديد ، تشير هذه المحاكاة إلى أن هذه التقنيات ستستفيد أكثر من الزيادات في سعة المعلومات ، عبر المزيد من المواقع المستهدفة أو نتائج indel الأكثر تنوعًا ، ومعدلات الطفرات التي يتم ضبطها بشكل مناسب لضمان انخفاض معدلات التطور الموازي. نتوقع أن يستمر استخدام هذا المورد في استكشاف مبادئ تصميم المسجلات وفعالية الخوارزميات الجديدة.

تسمح تجربة مرجعية في المختبر بتقييم الأساليب على البيانات التجريبية

تفتقر مجموعات بيانات تتبع النسب التجريبية الحالية إلى حقيقة أساسية محددة لاختبارها ، مما يجعل من الصعب تقييم دقة النشوء والتطور في الممارسة العملية. لمعالجة هذا الأمر ، أجرينا تجربة في المختبر لتتبع التوسع النسيلي للخلايا البشرية (خط خلايا سرطان الرئة A549) المصممة بتقنية تتبع النسب الموصوفة سابقًا [10]. هنا ، قمنا بتتبع نمو 11 مستنسخة (كل منها به مجموعات مواقع مستهدفة غير متداخلة لتفكيك المجموعات النسيليّة) على مدار 21 يومًا (حوالي 15 جيلًا في المتوسط) ، وقمنا بشكل عشوائي بتقسيم مجموعة الخلايا إلى لوحين كل 7 أيام (الشكل 3 أ انظر قسم "الطرق"). في نهاية التجربة ، أخذنا عينات تقريبًا من خلايا 10000 من كل لوحة من اللوحات الأربع النهائية. تُنشئ إستراتيجية تقسيم الألواح العشوائية هذه حقيقة أرضية مضمنة بالمسار حول كيفية ارتباط الخلايا ببعضها البعض. هنا ، يمكن أن تكون الخلايا الموجودة في نفس اللوحة بعيدة بشكل تعسفي في سلالتها ، ومع ذلك ، لا يوجد سوى حد أدنى لاختلاف النسب بين الخلايا في الصفائح المختلفة (نظرًا لأنها مفصولة على الأقل بعدد الطفرات التي حدثت منذ الأخير الانقسام). وبالتالي ، بشكل عام ، في المتوسط ​​، نتوقع أن تكون الخلايا داخل نفس اللوحة أقرب إلى بعضها البعض في نسالة من الخلايا من لوحات مختلفة. ومع ذلك ، نظرًا للاعتبارات التي تمت مناقشتها أعلاه ، نتوقع أيضًا أن نرى بعض الخلايا أكثر ارتباطًا عبر اللوحات مقارنة بالداخل (الشكل 3 أ ، على اليمين) ، ومن المحتمل أن تكون الإنديلات التي تربط هذه الخلايا عبر اللوحات قد حدثت قبل الانقسام.

يعتمد مسجل النسب الخاص بنا على تسلسل هدف معبر عنه بشكل أساسي يتكون من ثلاثة مواقع قطع متباعدة بشكل متساوٍ (كل موقع قطع يتوافق مع حرف ما) ورمز شريطي فريد للتكامل ("intBC") نستخدمه للتمييز بين المواقع المستهدفة وبالتالي الربط بشكل أكثر دقة حالات الحرف عبر الخلايا (الشكل 1 ب). يتم دمج المواقع المستهدفة بشكل عشوائي في جينومات الخلايا المؤسسة بعدد نسخ مرتفع (في المتوسط ​​10 أهداف لكل خلية أو ما مجموعه 30 حرفًا متطورًا بشكل مستقل الشكل 3 ب ، S18c). لقد قمنا بالبناء على خط أنابيب المعالجة في عملنا السابق [10] للحصول على معلومات موثوقة من قراءات scRNA-seq (الشكل 1 ب ، الملف الإضافي 1: الشكل S17 والشكل S18 ، راجع قسم "الأساليب" لإجراءات المعالجة المسبقة و المبادئ التوجيهية ، وخاصة قسم "المبادئ التوجيهية لمراقبة الجودة النهائية"). بالإضافة إلى ذلك ، أضفنا وحدات للكشف عن مضاعفات الخلايا باستخدام مجموعات intBCs في كل نسخة و indels المكتشفة داخل الخلايا وحددنا استراتيجية كشف فعالة باستخدام عمليات المحاكاة (انظر قسم "الطرق" ، ملف إضافي 1: الشكل S19 ). الأهم من ذلك ، على الرغم من أنه لا ينطبق بشكل مباشر هنا ، يمكن استكمال هذا الاكتشاف المزدوج بمقاربات أخرى عند توفر بيانات النسخ [37 ، 38] أو الرموز الشريطية متعددة الإرسال [39]. بالإضافة إلى ذلك ، نعتمد على نهج يعتمد على البيانات لتقدير احتمالات كل indel (انظر قسم "الطرق" ، ملف إضافي 1: الشكل S20) لأن الأساليب الأخرى للتنبؤ باحتمالية indel [40-42] قد تكون متحيزة حسب نوع الخلية أو حالة الخلية.

بعد مراقبة الجودة وتصحيح الخطأ والتصفية ، شرعنا في تحليل ما مجموعه 34557 خلية عبر 11 نسخة. تمثل هذه المجموعة المتنوعة من المجموعات النسيليّة مستويات مختلفة من تنوع indel (أي عدد الحالات الممكنة ، الشكل 3 ج) ، وحجم مجموعات intBC (أي عدد الأحرف ، الشكل 3 ب والملف الإضافي 1: الشكل S18c) ، طفرة في الشخصية المعدلات (الشكل ثلاثي الأبعاد ، راجع قسم "الطرق") ، ونسبة البيانات المفقودة (الشكل 3 هـ ، راجع قسم "الطرق"). الأهم من ذلك ، أن مجموعة البيانات هذه تمثل تحسنًا كبيرًا في تجارب تتبع السلالة: فهي أطول مجموعة بيانات وأكثرها تعقيدًا حتى الآن ، حيث تمتلك الغالبية العظمى من الخلايا ، على مستوى مجموعة الخلايا بأكملها ، حالات طفرة فريدة (71٪ بعد كل مراقبة الجودة و يتم عرض النسب المئوية لترشيح الخلايا الفريدة لكل استنساخ في الشكل 3f) ، مما يشير إلى تعقيد حالة الشخصية الغنية لبناء الشجرة.

قمنا بعد ذلك بإعادة بناء الأشجار لكل استنساخ (باستثناء اثنتين تمت إزالتهما من خلال مرشحات مراقبة الجودة ، انظر قسم "الطرق") مع مجموعة الخوارزميات الخاصة بنا ، بالإضافة إلى انضمام الجيران و Camin-Sokal (عندما يكون ذلك ممكنًا من الناحية الحسابية). بالنسبة لكل من طريقتين Cassiopeia-Greedy و Cassiopeia-Hybrid ، قمنا أيضًا بمقارنة دقة إعادة بناء الأشجار مع أو بدون احتمالات سابقة. يتم تقديم شجرة Clone 3 ، التي تتكون من 7289 خلية ، جنبًا إلى جنب مع مصفوفة الأحرف الخاصة بها والتعليقات التوضيحية المنقسمة الأولى (على سبيل المثال ، ما إذا كانت الخلايا مقسمة مبدئيًا إلى اللوحة 0 أو اللوحة 1 ، والمشار إليها باسم معرف اللوحة) ، في الشكل 4. ومن المثير للاهتمام ، نجد أن بعض indels تمتد بالفعل على الصفائح المختلفة ، مما يشير إلى أن Cassiopeia-Greedy تختار الانقسامات المبكرة التي من المحتمل أن تكون قد حدثت قبل الفصل الأول للصفائح (على الرغم من أن هذا قد يكون أيضًا بسبب الأحداث المتوازية التي حدثت بشكل مستقل في كل لوحة) . علاوة على ذلك ، توضح مصفوفة الأحرف والتشريح المتداخل للشجرة معلومات النسب الوفيرة المشفرة في هذا الاستنساخ (96٪ من الخلايا الـ 7289 التي تمت ملاحظتها لها حالات طفرة فريدة) مما يسمح لكاسيوبيا باستنتاج شجرة عميقة نسبيًا (الشكل 4 د). على الرغم من هذا التعقيد ، فإن كاسيوبيا تستنتج شجرة تتفق إلى حد كبير مع الطفرات المرصودة: تميل الخلايا القريبة من بعضها البعض في الشجرة إلى حدوث طفرات مماثلة (الشكل 4 هـ).

يمكن أن تعيد Cassiopeia إعادة بناء أشجار النشوء والتطور عالية الدقة من بيانات تتبع النسب التجريبية. شجرة النشوء والتطور الكاملة لـ Clone 3 (أ) ، التي تتكون من 7289 خلية ، باستخدام Cassiopeia-Hybrid (مع مقدمات) ويتم عرضها. يمثل phylogram العلاقات بين الخلايا ، ويتم تلوين كل خلية بواسطة معرف العينة عند الانقسام الأول (اللوحة 0 أو 1). يتم عرض مصفوفة الأحرف مع كل حالة حرف فريدة (أو "indel") ممثلة بألوان مميزة (يمثل اللون الرمادي الفاتح مواقع غير مقطوعة يمثل الأبيض القيم المفقودة). من بين هذه الخلايا البالغ عددها 7289 خلية ، تم تمييز 96٪ بشكل فريد من خلال حالات شخصياتها. ب, ج طرق عرض متداخلة وموسعة لمصفوفات الأحرف والتسجيلات الصوتية. كما هو متوقع ، يربط Cassiopeia الخلايا ذات الحالات الشخصية المتشابهة بشكل صحيح ، ويتم العثور على الخلايا وثيقة الصلة داخل نفس لوحة الثقافة. د رسم بياني لعمق الشجرة لكل ورقة من الجذر (المتوسط ​​= 8.22 ، الحد الأقصى = 15). ه التوافق بين المسافة الأليلية المقيسة ومسافة النشوء والتطور الطبيعية (راجع قسم "الطرق" ارتباط بيرسون = 0.53)

من خلال تتبع اللوحة التي جاءت منها كل خلية ، يمكننا تقييم مدى جودة عكس المسافات في الشجرة المعاد بناؤها حسابيًا المسافات في الشجرة التجريبية. وبالتالي ، فإننا نختبر قدرة إعادة البناء لخوارزمية باستخدام مقياسين لقياس الارتباط بين معرف اللوحة والبنية التحتية: "نقاء التعريف" و "متوسط ​​تصويت الأغلبية" (راجع قسم "الطرق"). كلاهما مبني على افتراض أنه ، تمامًا كما في التجربة الحقيقية ، عندما ينزل المرء من الشجرة المعاد بناؤها ، يتوقع المرء أن يجد خلايا أكثر ارتباطًا ببعضها البعض. بهذا المعنى ، نستخدم هذين المقياسين لاختبار تسميات الخلايا المتجانسة أسفل عقدة داخلية معينة في شجرة ، والتي نشير إليها باسم "كليد".

نستخدم هذه الإحصائيات لتقييم دقة إعادة الإعمار لـ Clone 3 فيما يتعلق بالتسميات المنقسمة الأولى (على سبيل المثال ، اللوحة 0 أو 1 ، الشكل 5). عند القيام بذلك ، نجد أن Cassiopeia-Greedy و Cassiopeia-Hybrid تتفوق باستمرار على انضمام الجار. لقد وجدنا نتائج متسقة إجمالية لبقية الحيوانات المستنسخة التي أعيد بناؤها (ملف إضافي 1: الشكل S21 ، بالإضافة إلى ذلك عند النظر في الانقسام اللاحق إلى أربع لوحات - ملف إضافي 1: الشكل S21) ، على الرغم من أن وحدات Cassiopeia لها أكبر ميزة في عمليات إعادة البناء الأكبر. على وجه التحديد ، يعمل انضمام Camin-Sokal والجيران بشكل مشابه لوحدات Cassiopeia على الحيوانات المستنسخة ذات الخلايا القليلة (على سبيل المثال ، Clone 11) أو مع تنوع خلايا منخفض (على سبيل المثال ، Clone 5 ، حيث تكون المواقع المستهدفة "مستنفدة" ، ربما بسبب القطع السريع جدًا ، (الشكل 3f ، الملف الإضافي 1: الشكل S23). تشير كلتا الحالتين إلى أن الخوارزميات التقليدية قد تكون كافية لإعادة البناء في النسخ الأصغر والأقل تعقيدًا. بالإضافة إلى ذلك ، العديد من المشكلات التي تم وصفها سابقًا - التطور المتوازي ، والبيانات المفقودة ، ومحتوى المعلومات —المساهمة في الأخطاء الاستنتاجية في مجموعة البيانات التجريبية هذه (على سبيل المثال ، الملف الإضافي 1: الشكل S24).

تقوم Cassiopeia ببناء أشجار عالية الدقة من مجموعات بيانات تجريبية كبيرة. يتم تقييم التناسق بين عمليات إعادة بناء الشجرة فيما يتعلق بالانقسام الأول. متوسط ​​تصويت الأغلبية (أ) واختبار النقاء التلوي (ب) من أجل Cassiopeia-Hybrid و Cassiopeia-Greedy (سواء مع أو بدون مقدمات) والانضمام إلى الجار. يتم رسم الإحصائيات كدالة لعدد الكتل في عمق الاختبار (أي عدد الصفائح التي تم إنشاؤها بواسطة قطع أفقي عند عمق معين). تتفوق جميع مقاربات Cassiopeia باستمرار على الجار الذي ينضم إلى كلا المقياسين

بشكل عام ، نتوقع أن تكون مجموعة البيانات المختبرية هذه بمثابة معيار تجريبي قيم لتطوير الخوارزمية في المستقبل. على وجه التحديد ، لقد أوضحنا كيف يمكن استخدام مجموعة البيانات هذه لتقييم دقة السلالات المستنتجة وتوضيح أن Cassiopeia تتفوق باستمرار على الجار المنضم لأغراض إعادة بناء الأشجار من تقنيات تتبع النسب أحادية الخلية. علاوة على ذلك ، نظهر قابلية التوسع في Cassiopeia لإعادة بناء الأشجار التي تتجاوز قدرات الأساليب الأخرى القائمة على البخل الأقصى مثل Camin-Sokal كما تم تنفيذها حاليًا.

تعميم كاسيوبيا على التقنيات البديلة والمستقبلية

بينما اقترحت تطبيقات تتبع النسب وحيدة الخلية السابقة طرقًا لإعادة بناء النشوء والتطور ، فقد تم تصميمها خصيصًا للنظام التجريبي ، مما يتطلب من الشخص تصفية indels الشائعة [7] أو توفير احتمالات مستقلة [10]. لذلك قمنا بالتحقيق في مدى نجاح Cassiopeia في التعميم على التقنيات الأخرى مع إعادة بناء البيانات التي تم إنشاؤها باستخدام تقنية GESTALT المطبقة على تطوير أسماك الزرد [5 ، 6] (الشكل 6 أ ، ملف إضافي 1: الشكل S25). بمقارنة خوارزميات Cassiopeia بانضمام الجيران و Camin-Sokal (كما هو مطبق في هذه الدراسات السابقة [5 ، 6]) ، نجد أن Cassiopeia-ILP تجد باستمرار الحل الأكثر شحًا. علاوة على ذلك ، يشير متوسط ​​إحصاء تصويت الأغلبية أيضًا إلى وجود إثراء قوي لنوع الأنسجة كدالة لعمق الشجرة ، وهو ما يتفق مع إعادة بناء كامين سوكال الذي تم استخدامه في الدراسة الأصلية [6] (الشكل 6 ب). معًا ، توضح هذه النتائج بوضوح فعالية Cassiopeia لتقنيات تتبع النسب البديلة الحالية.

تعميم كاسيوبيا ومبادئ التصميم المستقبلية لمقتفعات النسب الممكّنة بتقنية كريسبر. أ يعمم Cassiopeia على طرق تتبع النسب البديلة ، كما هو موضح في تحليل البيانات من تقنية GESTALT [5 ، 6]). في مقارنة بين البخل عبر أساليب كامين سوكال ، والانضمام إلى الجيران ، وأساليب كاسيوبيا ، يجد نهج شجرة شتاينر باستمرار حلولًا أكثر بخلًا (أي أكثر مثالية). ض- يتم شرح الدرجات لكل مجموعة بيانات فوق كل بلاطة. ب السلامة البيولوجية للأشجار لكل سمكة زرد من راج وآخرون. [6] ، المستنتج من Cassiopeia-ILP ، تم تقييمه باستخدام إحصاء متوسط ​​العضوية (قسم "الطرق") فيما يتعلق بالتعليقات التوضيحية من نوع الأنسجة من الدراسة الأصلية. ج استكشاف سعة المعلومات للمسجلات مع المحررين الأساسيين. تمت محاكاة محرر قاعدة نظرية لـ 400 خلية وإعادة بناء باستخدام Cassiopeia-Hybrid ، مع وبدون مقدمات. قارنا دقة عمليات إعادة البناء بالشجرة المحاكاة باستخدام الإحصاء الصحيح لثلاثة توائم. نصف أداء Cassiopeia-Hybrid مع زيادة عدد الأحرف (وبالتالي انخفض عدد الحالات)

بعد إنشاء قابلية تعميم Cassiopeia ، لجأنا إلى التحقيق في متتبعات النسب من الجيل التالي المعقولة. في الآونة الأخيرة ، تم اقتراح أنظمة تحرير القاعدة (الشكل 6 ج) للتحرير بدقة أ& GTجي [43], ج& GTتي [44 ، 45] ، أو ربما ج& GTن (ن كونها أي قاعدة كما في [46]). الوعد بتحرير مسجلات النسب ثلاثة أضعاف: أولاً ، سيزيد المحرر الأساسي عدد المواقع القابلة للتحرير (مقارنةً بتلك التي تعتمد على فواصل السلاسل المزدوجة التي يسببها Cas9 [5 ، 7 ، 10]) على الرغم من أنه في حساب عدد الحالات (في أحسن الأحوال 4 ، المقابلة لـ A و C و T و G). ثانيًا ، قد يؤدي نظام تحرير القاعدة نظريًا إلى تقليل التسرب ، نظرًا لأن استئصال الموقع المستهدف عن طريق فواصل الشرائط المزدوجة التي يسببها Cas9 أقل احتمالًا بكثير [44]. ثالثًا ، يُفترض أن المحررين الأساسيين سيكونون أقل سمية للخلايا لأنه لا يعتمد على إحداث فواصل مزدوجة الخيط على الحمض النووي (على الرغم من أن هذا يعتمد على استراتيجيات فعالة للحد من تحرير القاعدة خارج الهدف للحمض النووي الريبي والحمض النووي الريبي [47]). لتقييم تطبيق المحررين الأساسيين لتتبع النسب ، اختبرنا أداء Cassiopeia في الأنظمة ذات الطابع العالي والحالة المنخفضة كما هو الحال في التحرير الأساسي (الشكل 6 ج ، راجع قسم "الطرق"). باستخدام عمليات المحاكاة مع المعلمات المستخلصة بواسطة تطبيق محرر أساسي حديث [46] ، نوضح أنه يبدو أن هناك ميزة في وجود عدد أكبر من الأحرف من الحالات (الشكل 6 ج). تجدر الإشارة إلى أننا لم نلاحظ أي انحراف جوهري في عمليات المحاكاة هذه عن معايير قابلية التوسع الأولية الخاصة بنا في الملف الإضافي 1: الشكل S1.يشير هذا إلى أن المحررين الأساسيين قد يكونون اتجاهًا مستقبليًا واعدًا لتتبع النسب من منظور نظري.

هناك اعتبارات تصميم واعدة أخرى تتعلق بنطاق معدلات طفرة الشخصية وتنوعها عبر مواقع مستهدفة مختلفة - وهي معلمة يمكن تصميمها بدقة [48]. في هذا التصميم ، يتوقع المرء أن يساعد التباين في التمييز بين نقاط التفرع المبكرة والمتأخرة وبالتالي تحقيق دقة أفضل للتطور الأساسي [9 ، 49 ، 50]. قمنا بمحاكاة "مسجلات مرحلية" (ملف إضافي 1: الشكل S26) بمستويات مختلفة من تقلبات قطع الموقع المستهدف ونلاحظ أن هذا التصميم يسمح باستدلال أفضل عندما تكون توزيعات احتمالات الطفرات أكثر تشتتًا (ملف إضافي 1: الشكل S26b). يصبح هذا مفيدًا بشكل خاص عندما يمكن للمرء دمج prors indel الدقيقة في Cassiopeia.

بشكل عام ، تعمل هذه النتائج على توضيح كيفية استخدام Cassiopeia وإطار المحاكاة لاستكشاف التصاميم التجريبية. بينما ستكون هناك حتماً تحديات في عمليات التنفيذ الجديدة ، توضح هذه التحليلات نظريًا كيف يمكن تحسين معلمات التصميم لاستدلال الشجرة النهائية. وبهذه الطريقة ، يتيح الجمع بين الخوارزميات والمحاكاة لدينا للآخرين استكشاف ليس فقط مناهج خوارزمية جديدة لإعادة بناء النشوء والتطور ، ولكن أيضًا أساليب تجريبية جديدة لتسجيل معلومات النسب.


إيجاد مسافة النشوء والتطور بين المتواليات؟ - مادة الاحياء

الشكل 14: مصطلحات الشجرة.

4. الطرق الممكنة لرسم شجرة:

  • الفروع غير المقاسة: الطول لا يتناسب مع عدد التغييرات. في بعض الأحيان ، يتم الإشارة إلى عدد التغييرات على الفروع بالأرقام. تمثل العقد حدث الاختلاف على نطاق زمني.
  • الفروع المتدرجة: يتناسب طول الفرع مع عدد التغييرات. المسافة بين نوعين هي مجموع طول كل الفروع التي تربط بينهما.

الشكل 15: بعض الاحتمالات لرسم شجرة. (هذه مجرد أمثلة قليلة ، هناك الكثير من الاختلافات الممكنة)

5. طرق تحليل النشوء والتطور:

  1. الطرق الوراثية: تُحسب الأشجار بأوجه تشابه التسلسل وتعتمد على طرق المسافة. تسمى الشجرة الناتجة مخطط dendrogram ولا تعكس بالضرورة العلاقات التطورية. تضغط طرق المسافة على جميع الفروق الفردية بين أزواج التسلسلات في رقم واحد.
  2. طرق كلاديست: يتم حساب الأشجار من خلال النظر في مختلف المسارات الممكنة للتطور وتعتمد على البخل أو طرق الاحتمال. تسمى الشجرة الناتجة مخطط cladogram. تستخدم الطرق التكيفية كل موضع محاذاة كمعلومات تطورية لبناء شجرة.

5.1 الطرق الوراثية على أساس المسافات:

  1. بدءًا من المحاذاة ، تُحسب المسافات الزوجية بين متواليات الحمض النووي كمجموع كل اختلافات أزواج القاعدة بين تسلسلين (يُفترض أن تكون أكثر التسلسلات تشابهًا وثيقة الصلة). هذا يخلق مصفوفة المسافة.
    • يمكن اعتبار جميع التغييرات الأساسية على قدم المساواة أو يمكن استخدام مصفوفة من البدائل الممكنة.
    • تُعطى عمليات الإدراج والحذف وزنًا أكبر من البدائل. تُعطى عمليات الإدراج أو الحذف لقواعد متعددة في موضع واحد وزنًا أقل من عمليات الإدراج أو الحذف المتعددة المستقلة.
    • من الممكن تصحيح الاستبدالات المتعددة في موقع واحد.
  2. من مصفوفة المسافة التي تم الحصول عليها ، يتم حساب شجرة النشوء والتطور باستخدام خوارزميات التجميع. هذه الطرق العنقودية تبني شجرة عن طريق ربط الزوج الأقل بعدًا من الأصناف ، متبوعًا بالتتابع الأبعد من الأصناف.
    • تجميع UPGMA (طريقة U nweighted P air G roup M باستخدام متوسطات حسابية): هذه هي أبسط طريقة
    • انضمام الجار: تحاول هذه الطريقة تصحيح طريقة UPGMA لافتراضها أن معدل التطور هو نفسه في جميع الأصناف.

5.2 طرق كلاديستية تعتمد على البخل:

5.3 الأساليب Cladistic على أساس الاحتمالية القصوى:

6. المشاكل النظرية مع التغيرات التطورية بين المتتاليات

  • انتقالات: استبدالات من A إلى G G إلى A C إلى T T إلى C.
  • استبدالات: استبدالات من G إلى C C إلى G T إلى A A إلى T.
  • عمليات الحذف: إزالة واحد أو أكثر من النيوكليوتيدات.
  • الإدخال: إضافة نيوكليوتيدات أو أكثر.
  • الانعكاس: دوران 180 درجة مئوية لجزء من الحمض النووي المزدوج الذي تقطعت به السبل والذي تم اختراقه من 2 أو أكثر من أزواج القواعد.

الشكل: تسلسلان متماثلان للحمض النووي ينحدران من تسلسل أسلاف وطفرات متراكمة منذ اختلافهما عن بعضهما البعض. لاحظ أنه على الرغم من تراكم 12 طفرة ، يمكن اكتشاف الاختلافات في ثلاثة مواقع للنيوكليوتيدات فقط. (من أساسيات التطور الجزيئي ، Wen-Hsiung Li و Dan Graur ، 1991) العودة إلى الصفحة الرئيسية


شاهد الفيديو: ما أهمية الرياضيات!! (ديسمبر 2022).