معلومة

تحويل محاذاة الحمض النووي لشجرة جينات Ensembl Compara إلى محاذاة الأحماض الأمينية المقابلة

تحويل محاذاة الحمض النووي لشجرة جينات Ensembl Compara إلى محاذاة الأحماض الأمينية المقابلة


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لدي محاذاة لشجرة جينات Ensembl compara (Compara.gene_trees.57.fasta.gz تم تنزيلها من ftp://ftp.ensembl.org/pub/release-57/emf/ensembl-compara/homologies/) بتنسيق نوكليوتيد. وفقًا للوثائق ، فإنه يقول أن الملف "يحتوي على محاذاة الببتيد لكل سلالة جينية بتنسيق فاستا".

كنت أتساءل ما الذي يمكن أن يكون أداة مفيدة للحصول على محاذاة الأحماض الأمينية المقابلة من الملف.

شكرا،

إكرام


كقاعدة عامة ، داخل وخارج عالم المعلوماتية الحيوية ، تحتوي مواقع FTP العامة على ملفات README تشرح ما يحتويه كل ملف يقدمه خادم FTP. ينص الملف README.protein_trees على ما يلي:

Compara.gene_trees. {release} .emf.gz

يحتوي على محاذاة الببتيد لكل شجرة جينية بتنسيق محاذاة emf

Compara.gene_trees. {release} .fasta.gz

يحتوي على محاذاة الببتيد لكل شجرة جينية بتنسيق فاستا

هذا يعني أن كلا من Compara.gene_trees.57.emf.gz و Compara.gene_trees.57.fasta.gz يحتويان على محاذاة البروتين. لقد ألقيت نظرة سريعة على الملفات ويبدو أنهاCompara.gene_trees.57.fasta.gzيحتوي في الواقع على تسلسل النوكليوتيدات ولكنCompara.gene_trees.57.emf.gzيحتوي بالفعل على محاذاة البروتين:

$ zgrep -m 1 AAAAASAAAT Compara.gene_trees.57.emf.gz.crdownload SAAA-AHS-AGTAAAAA - AA - AAAAASAAAAT-ASAATAI-SASSA-ASAAT-V ---- AAASVAA-HAFAS - ASAAASAAAAA-TIVAAAAX- SAASIYSAAAA-YAA - AASAS-ASAASAS-ASAASSSARS-AAS

لذا ، للإجابة على سؤالك ، الملف الذي تريده هو.emf.gzواحد.


البدء في تقويم الجينات والتحليل الوظيفي

حقوق النشر: © 2010 فانغ وآخرون. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ بأي وسيلة ، بشرط ذكر المؤلف الأصلي والمصدر.

التمويل: نعترف بالدعم المقدم من المعاهد الوطنية للصحة ومن صناديق الأستاذية في آل ويليامز. لم يكن للممولين أي دور في تصميم الدراسة أو جمع البيانات وتحليلها أو اتخاذ قرار النشر أو إعداد المخطوطة.

تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.


بروتوكول

شجرة النشوء والتطور هي تقدير للعلاقات بين الأصناف (أو المتتاليات) وأسلافهم الافتراضية المشتركة (Nei and Kumar 2000 Felsenstein 2004 Hall 2011). اليوم ، تُبنى معظم أشجار النشوء والتطور من البيانات الجزيئية: تسلسل الحمض النووي أو البروتين. في الأصل ، كان الغرض من معظم أشجار النشوء والتطور الجزيئي هو تقدير العلاقات بين الأنواع التي تمثلها تلك التسلسلات ، ولكن اليوم توسعت الأغراض لتشمل فهم العلاقات بين التسلسلات نفسها دون اعتبار للأنواع المضيفة ، واستنتاج وظائف الجينات التي لم يتم دراستها تجريبيًا (Hall et al. 2009) ، وتوضيح الآليات التي تؤدي إلى تفشي الميكروبات (Hall and Barlow 2006) من بين أشياء أخرى كثيرة. يتطلب بناء شجرة النشوء والتطور أربع خطوات متميزة: (الخطوة 1) تحديد واكتساب مجموعة من الحمض النووي المتماثل أو تسلسل البروتين ، (الخطوة 2) محاذاة تلك التسلسلات ، (الخطوة 3) تقدير شجرة من التسلسلات المتوافقة ، و (الخطوة 4) تقديم تلك الشجرة بطريقة تنقل بوضوح المعلومات ذات الصلة للآخرين.

عادةً ما تستخدم متصفح الويب المفضل لديك لتحديد وتنزيل التسلسلات المتماثلة من قاعدة بيانات وطنية مثل GenBank ، ثم أحد برامج المحاذاة العديدة لمحاذاة التسلسلات ، متبوعًا بواحد من العديد من برامج النشوء والتطور الممكنة لتقدير الشجرة ، وأخيراً ، برنامج لرسم الشجرة للاستكشاف والنشر. سيكون لكل برنامج واجهته الخاصة وتنسيق الملف المطلوب الخاص به ، مما يجبرك على تحويل الملفات فيما تقوم بنقل المعلومات من برنامج إلى آخر. لا عجب أن التحليل الوراثي يعتبر أحيانًا مخيفًا!

MEGA5 (Tamura وآخرون 2011) هو برنامج متكامل ينفذ جميع الخطوات الأربع في بيئة واحدة ، مع واجهة مستخدم واحدة تلغي الحاجة إلى تحويل تنسيقات الملفات. في الوقت نفسه ، يتميز MEGA5 بالمرونة الكافية للسماح باستخدام برامج أخرى لخطوات معينة إذا كان ذلك مطلوبًا. وبالتالي ، فإن MEGA5 مناسب بشكل خاص لأولئك الذين ليسوا على دراية بتقدير أشجار النشوء والتطور.

الخطوة 1: الحصول على التسلسلات

ومن المفارقات أن الخطوة الأولى هي الأكثر تطلبًا من الناحية الفكرية ، لكنها غالبًا ما تحظى بأقل قدر من الاهتمام. إذا لم يتم عمل الشجرة بشكل جيد ، فستكون الشجرة غير صالحة أو يستحيل تفسيرها أو كليهما. إذا تم القيام بها بحكمة ، فإن الخطوات المتبقية تكون عمليات سهلة ، ميكانيكية في الأساس ، والتي ستؤدي إلى شجرة قوية وذات مغزى.

غالبًا ما يكون المحقق مهتمًا بجين أو بروتين معين كان موضوع التحقيق ويرغب في تحديد علاقة هذا الجين أو البروتين بمثيلاته. كلمة "متماثلون" هي المفتاح هنا. الافتراض الأساسي لتحليل النشوء والتطور هو أن جميع التسلسلات على الشجرة متجانسة ، أي تنحدر من سلف مشترك. ستعمل برامج المحاذاة على محاذاة التسلسلات ، متجانسة أم لا. ستصنع جميع برامج بناء الأشجار شجرة من هذا المحاذاة. ومع ذلك ، إذا لم تنحدر التسلسلات فعليًا من سلف مشترك ، فستكون الشجرة بلا معنى وقد تكون مضللة تمامًا. الطريقة الأكثر موثوقية لتحديد التسلسلات المتجانسة لتسلسل الاهتمام هي إجراء بحث عن أداة بحث المحاذاة المحلية الأساسية (BLAST) (Altschul et al. 1997) باستخدام تسلسل الاهتمام كاستعلام.

الخطوة 1.1

عند بدء تشغيل MEGA5 ، فإنه يفتح نافذة MEGA5 الرئيسية. من محاذاة اختر القائمة هل البحث عن الانفجار. يفتح MEGA5 نافذة المتصفح الخاصة به لإظهار صفحة BLAST للنيوكليوتيدات من المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI). توجد مجموعة من خمس علامات تبويب بالقرب من أعلى تلك الصفحة (blastn و blastp و blastx و tblastn و tblastx). بشكل افتراضي ، يكون ملف انفجار تم تحديد علامة التبويب (Standard Nucleotide BLAST). إذا كان التسلسل الخاص بك هو تسلسل بروتين ، فانقر فوق الزر انفجار لإظهار صفحة Standard Protein BLAST.

لاحظ أن NCBI يغير بشكل متكرر مظهر صفحة بلاست ، لذلك قد يختلف في بعض التفاصيل عن تلك الموضحة هنا.

يوجد مربع نص كبير (أدخل رقم الانضمام …) حيث تقوم بإدخال تسلسل الاهتمام. يمكنك لصق تسلسل الاستعلام مباشرة في هذا المربع. ومع ذلك ، إذا كان تسلسل الاستعلام الخاص بك هو نفسه بالفعل في إحدى قواعد البيانات ، فيمكنك لصق رقم التعريف أو رقم gi. إذا كان تسلسل الحمض النووي الخاص بك جزءًا من تسلسل الجينوم ، فيمكنك إدخال رقم انضمام الجينوم بعد ذلك ، في المربعات الموجودة على اليمين (نطاق الاستعلام الفرعي) أدخل نطاق القواعد التي تشكل تسلسلك. (أنت لا تريد حقًا استخدام تسلسل ذو قاعدة ميغا متعددة كاستعلام خاص بك!)

يسمح لك القسم الأوسط من الصفحة باختيار قواعد البيانات التي سيتم البحث فيها وتقييد هذا البحث إذا كنت ترغب في ذلك. الافتراضي هو جمع النوكليوتيدات (nr / nt)، ولكن مربع النص المنسدل مع المثلث يسمح لك بالاختيار من بين عدد كبير من البدائل ، على سبيل المثال ، الجينوم البشري أو جينومات NCBI.

الاختيارية الكائنات الحية يتيح لك مربع النص قصر البحث على كائن حي معين أو استبعاد كائن حي معين. على سبيل المثال ، إذا كان التسلسل الخاص بك من البشر ، فقد ترغب في استبعاد البشر من البحث ، بحيث لا تلتقط الكثير من المتغيرات البشرية عندما تكون مهتمًا حقًا بالمتماثلين في الأنواع الأخرى. لتضمين المزيد من الكائنات الحية ، انقر فوق علامة + الصغيرة بجوار مربع الخيارات.

يتيح لك خيار الاستبعاد استبعاد العينات البيئية ، على سبيل المثال.

الخطوة 1.2: ما هي خوارزمية بلاست التي يجب استخدامها؟

يسمح لك القسم السفلي من الصفحة باختيار البديل المعين لـ BLAST الذي يناسب أغراضك. بالنسبة للنيوكليوتيدات ، تكون الاختيارات هي الضخامة للتسلسلات المتشابهة للغاية ، أو الصاعقة الضخمة غير المتجاورة للتسلسلات الأكثر تباينًا ، أو الانفجار للتسلسلات المتشابهة إلى حد ما. الافتراضي هو blastn ، ولكن إذا كنت مهتمًا فقط بتحديد المتماثلات وثيقة الصلة ، ضع علامة megablast. هذا هو الخيار الأول الذي يتطلب حقًا بعض التفكير. يتم تحديد التسلسلات التي ستكون على شجرتك إلى حد كبير من خلال اختيارك في هذه المرحلة.

في الجزء السفلي من الصفحة ، انقر فوق الزر BLAST لبدء البحث ، ولا تضع علامة في مربع "إظهار النتائج في نافذة جديدة". ستظهر نافذة النتائج ، ربما مع رسم يوضح المجالات التي تم تحديدها ، عادةً مع عبارة مشابهة لـ "سيتم تحديث هذه الصفحة تلقائيًا في 5 ثوانٍ". في النهاية ، ستظهر نافذة النتائج النهائية. تلخص اللوحة العلوية خصائص تسلسل الاستعلام ووصف قاعدة البيانات التي تم البحث عنها. يوجد أدناه رسم يوضح محاذاة أفضل 100 "نتيجة" (التسلسلات المحددة بواسطة البحث). قم بالتمرير لأسفل ذلك لرؤية قائمة التسلسلات التي تنتج درجات محاذاة كبيرة. لكل تسلسل ، يوجد رقم وصول (ارتباط قابل للنقر) ، ووصف ، وأقصى درجة (أيضًا ارتباط قابل للنقر) ، وإجمالي درجة ، وتغطية استعلام ، و ه قيمة ومعرف ماكس. يمكنك استخدام هذه المعلومات لتحديد أي من تلك التسلسلات يجب إضافتها إلى المحاذاة الخاصة بك وبالتالي تضمينها في شجرتك.

يساعد الوصف في تحديد ما إذا كنت مهتمًا بهذا التسلسل المحدد. قد يكون هناك عدة متواليات من نفس النوع هل تريد كل هؤلاء أو ربما ممثل واحد فقط لنوع - أو حتى جنس؟ إذا كنت مهتمًا بهذا التسلسل ، فقم بإلقاء نظرة على تغطية الاستعلام. هل أنت مهتم بتماثل يتوافق فقط مع 69٪ من الاستعلام؟ إذا لم يكن كذلك ، فتجاهل هذا التسلسل وامض قدمًا. هل أنت مهتم بتسلسل مطابق 100٪ لاستعلامك؟ إذا كنت مهتمًا فقط بمثيلاتها ذات الصلة البعيدة ، فقد لا تكون كذلك. إذا كنت تريد الشجرة الأكثر شمولاً ، فقد تكون كذلك. أنت يجب أن تقرر عدم وجود خوارزمية يمكنها إخبارك بما يجب تضمينه.

إذا قررت أنك مهتم بتسلسل نتائج البحث ، فانقر فوق الزر "أقصى درجة"ليأخذك إلى أسفل إلى سلسلة المحاذاة. يعتمد ما تراه على ما إذا كان استفسارك عبارة عن تسلسل DNA أو تسلسل بروتين.

الخطوة 1.3: تسلسل الحمض النووي

تبدأ محاذاة الاستعلام مع النتيجة برابط لملف تسلسلي عبر gi وأرقام التعريف الخاصة به. إذا كان هذا الارتباط يتعلق بتسلسل الجينوم ، أو حتى بملف كبير يتضمن تسلسلات من عدة جينات ، فلن ترغب في تضمين التسلسل بأكمله في المحاذاة الخاصة بك. هناك طريقتان للتعامل مع هذه القضية. 1) انظر إلى المحاذاة نفسها ولاحظ نطاق النيوكليوتيدات في الموضوع. تأكد من ملاحظة ما إذا كان الاستعلام يتماشى مع تسلسل الموضوع نفسه (ستراند = زائد / زائد) أو مع مكملها (ستراند = زائد / ناقص). انقر فوق الارتباط لإحضار ملف التسلسل. في الجزء العلوي الأيمن ، انقر فوق المثلث باللون الرمادي عرض تغيير المنطقة ، ثم أدخل النيوكليوتيدات الأولى والأخيرة من النطاق ، ثم انقر فوق عرض التحديث زر. باللون الرمادي تخصيص العرض المنطقة ، أدناه ، ضع علامة على عرض التسلسل مربع ، وإذا كان ستراند = زائد / ناقص ، حدد أيضًا إظهار تكملة عكسية مربع ، ثم انقر فوق الزر تحديث العرض. أخيرًا ، انقر فوق ملف أضف إلى المحاذاة زر (صليب أحمر) بالقرب من أعلى النافذة. (2) إذا كان استعلامك عبارة عن تسلسل تشفير أو ميزة بارزة أخرى ، فقد ترى ميزات في هذا الجزء من تسلسل الموضوع: أسفل وصف التسلسل مباشرةً مع ارتباط إلى الميزة. انقر فوق ارتباط الميزة لإحضار ملف التسلسل الذي يعرض بالفعل المنطقة محل الاهتمام. تحقق للتأكد مما إذا كان التسلسل المعروض هو مكمل عكسي للاستعلام ، وما إذا كان محددًا إظهار تكملة عكسية مربع في تخصيص العرض المنطقة ، قم بتحديث العرض ، ثم انقر فوق أضف إلى المحاذاة زر (صليب أحمر) بالقرب من أعلى النافذة.

الخطوة 1.31. عند النقر فوق ملف أضف إلى المحاذاة زر ، MEGA5's مستكشف المحاذاة تفتح النافذة ويضاف التسلسل إلى تلك النافذة. بعد إضافة تسلسل إلى Alignment Explorer ، استخدم السهم الخلفي في نافذة BLAST للعودة إلى قائمة التسلسلات المتجانسة وإضافة تسلسل آخر للاهتمام.

الخطوة 1.4: تسلسل البروتين

يتمثل الاختلاف الرئيسي عن عمليات البحث عن النوكليوتيدات في أنك قد ترى ارتباطات رقم المدخل بالعديد من ملفات تسلسل البروتين. كل هذه لها نفس تسلسل الأحماض الأمينية ، على الرغم من أن تسلسل الترميز الأساسي قد يختلف. انقر فوق أي من الروابط لإظهار ملف تسلسل البروتين ، ثم انقر فوق أضف إلى المحاذاة زر.

قد تجد أن جميع النتائج التي تم إرجاعها من البحث هي من كائنات قريبة جدًا من الكائنات الحية ، إذا كان طلب البحث هالشريشيا القولونية البروتين ، كل الضربات قد تكون من الإشريكية القولونية ، السالمونيلا، والأنواع وثيقة الصلة. إذا أظهرت جميع النتائج هوية قصوى عالية وكنت متأكدًا تمامًا من حدوث التسلسل في تسلسلات ذات صلة بعيدة ، فمن المحتمل أنك واجهت الحد الأقصى الافتراضي وهو 100 تسلسل هدف. كرر البحث ، ولكن قبل النقر فوق الزر BLAST لبدء إشعار البحث الذي يوجد أسفل هذا الزر مباشرة سطر مشفر "+ معلمات الخوارزمية. " انقر فوق علامة الجمع للكشف عن قسم آخر من صفحة إعداد BLAST. تعيين أقصى تسلسل الهدف إلى قيمة أكبر وكرر البحث. قد ترغب أيضًا في استبعاد بعض الأنواع وثيقة الصلة في ملف اختر مجموعة البحث القسم أعلاه. أدخل أحد الأصناف ، على سبيل المثال ، ه. القولونية، في المربع وحدد استبعاد علبة. إذا كنت تريد استبعاد أكثر من نوع واحد ، فانقر فوق علامة الجمع الموجودة على يمين استبعاد لإضافة حقل آخر. يمكنك استبعاد ما يصل إلى 20 نوعًا.

عندما تحاول العودة إلى قائمة الزيارات ، قد تحصل على صفحة تقول "كم هذا محرج! الخطأ: −400 Cache Miss. " انقر فوق السهم الدائري الموجود بجانب أضف إلى المحاذاة زر. سيتم إرسالك إلى صفحة بلاست الرئيسية ولكن لا تيأس. في أعلى يمين تلك الصفحة يوجد ملف نتائجك الأخيرة الجزء. الرابط العلوي في القائمة هو أحدث بحث قمت به. ما عليك سوى النقر فوق هذا الارتباط للعودة إلى نتائجك.

عندما تقوم بإضافة كل التسلسلات التي تريدها ، فقط أغلق نافذة متصفح MEGA5.

في نافذة محرر المحاذاة ، احفظ المحاذاة عن طريق الاختيار حفظ جلسة من البيانات قائمة. أحب استخدام اسم مثل Myfile_unaligned فقط لتذكير نفسي بأن التسلسلات لم تتم محاذاتها. سيكون للملف الامتداد .mas.

الخطوة 1.5: بدائل MEGA5 لتحديد واكتساب التسلسلات

الخطوة 1.51. يمكنك الوصول إلى NCBI BLAST من خلال أي متصفح ويب يدعمه NCBI على http://blast.ncbi.nlm.nih.gov/Blast.cgi. في ال الانفجار الأساسي قسم انقر فوق انفجار النوكليوتيدات أو انفجار البروتين للوصول إلى الصفحة المماثلة للصفحة الموضحة سابقًا. كل شيء هو نفسه عند استخدام متصفح MEGA5 باستثناء أنه لا يمكنك النقر فوق زر مناسب لإضافة التسلسلات إلى محرر المحاذاة.

الخطوة 1.52. افتح ملفًا جديدًا في محرر نصي. يمكنك استخدام محرر النصوص المدمج في MEGA5 عن طريق الاختيار تحرير ملف نصي من قائمة "ملف". يحتوي هذا المحرر على العديد من الوظائف لتحرير التسلسلات الجزيئية ، بما في ذلك التكميل العكسي والتحويل إلى العديد من التنسيقات الشائعة بما في ذلك Fasta. بدلاً من ذلك ، استخدم برنامج Notepad لنظام التشغيل Windows أو TextWrangler لنظام التشغيل Mac (http://www.barebones.com/products/textwrangler/). احفظ الملف باسم ذي معنى بالملحق extension.fasta ، على سبيل المثال ، myfile.fasta. يفعل ليس استخدم Microsoft Word أو Word Pad أو TextEdit (Mac) أو معالج نصوص آخر!

الخطوة 1.53. عندما تحدد التسلسل الذي تريد إضافته والنقر فوق الارتباط لأخذك إلى الصفحة الخاصة بملف التسلسل هذا ، قم بضبط المنطقة المعروضة وتخصيص العرض إذا لزم الأمر. لاحظ ال اعدادات العرض الارتباط بالقرب من أعلى يسار الصفحة. الإعداد الافتراضي هو GenBank (ممتلئ). تغيير ذلك إلى فاستا (text)، حدد كل شيء ، انسخه ثم الصقه في ملف محرر النصوص. أثناء إضافة تسلسلات إلى الملف ، من الملائم ، ولكن ليس من الضروري ، ترك أسطر فارغة بين التسلسلات.

تتم مناقشة تحديد التسلسلات والحصول عليها بمزيد من التفصيل في الفصل 3 من جعل الأشجار النشوء والتطور سهلة, الطبعة الرابعة (PTME4) (القاعة 2011).

يوضح القسم التالي كيفية استيراد تلك التسلسلات إلى محرر المحاذاة الخاص بـ MEGA5.

الخطوة 2: محاذاة التسلسلات

إذا لم تكن نافذة Alignment Explorer مفتوحة بالفعل ، فاختر في نافذة MEGA5 الرئيسية افتح ملف / جلسة من القائمة ملف. اختر ملف محاذاة MEGA5 (.mas) أو ملف التسلسل (.fasta) الذي قمت بحفظه في الخطوة 1. في مربع الحوار الناتج ، اختر محاذاة.

يعرض مستكشف المحاذاة اسمًا لكل تسلسل على اليسار ، متبوعًا بالتسلسل ، مع المخلفات الملونة. عادةً ما يكون الاسم طويلاً جدًا. هذا الاسم هو ما سيظهر في النهاية على الشجرة ، والأسماء الطويلة غير مرغوب فيها بشكل عام. هذا هو الوقت المناسب لتعديل تلك الأسماء ، في الحقيقة هو الوقت العملي الوحيد لتعديل الأسماء ، فلا تفوت الفرصة. ما عليك سوى النقر نقرًا مزدوجًا فوق كل اسم وتغييره إلى اسم أكثر ملاءمة.

إذا كان التسلسل الخاص بك هو DNA ، فسترى علامتي تبويب: تسلسل الحمض النووي و متواليات البروتين المترجمة. يتم اختيار علامة تبويب تسلسل الحمض النووي بشكل افتراضي. انقر فوق علامة التبويب Translated Protein Sequences لمعرفة تسلسل البروتين المقابل.

الخطوة 2.1

حان الوقت الآن لمحاذاة التسلسلات. يتم توفير طريقتين للمحاذاة: ClustalW (Thompson et al. 1994) و MUSCLE (Edgar 2004a ، 2004b). يمكن استخدام أي منهما ، ولكن يفضل بشكل عام MUSCLE. في شريط الأدوات ، بالقرب من الجزء العلوي من النافذة ، يرمز إلى محاذاة كلوستال بامتداد دبليو والعضلة بذراع بقبضة مشدودة "لإظهار العضلة". انقر فوق أحد هذه الأزرار أو اختر كلوستال أو عضلة من انتقام قائمة. إذا كان التسلسل الخاص بك هو DNA ، فسترى خيارين: محاذاة الحمض النووي و محاذاة Codons. إذا كان التسلسل الخاص بك هو تسلسل ترميز DNA فهو كذلك مهم جدا لإختيار محاذاة Codons. سيضمن ذلك محاذاة التسلسلات بواسطة الكودونات ، وهو نهج أكثر واقعية من المحاذاة المباشرة لتسلسلات الحمض النووي لأن ذلك يتجنب إدخال فجوات في المواضع التي من شأنها أن تؤدي إلى تحولات الإطار في التسلسلات الحقيقية.

الخطوة 2.2

يؤدي اختيار طريقة المحاذاة إلى فتح نافذة إعدادات لتلك الطريقة. بالنسبة لـ MUSCLE ، أوصي بقبول الإعدادات الافتراضية. بالنسبة إلى ClustalW ، فإن الإعدادات الافتراضية جيدة للحمض النووي ، ولكن بالنسبة للبروتينات ، أوصي بتغيير عقوبة فتح فجوة المحاذاة المتعددة إلى 3 وعقوبة تمديد فجوة المحاذاة المتعددة إلى 1.8.

الخطوة 2.3

انقر على نعم زر لبدء عملية المحاذاة. اعتمادًا على عدد التسلسلات المعنية والطريقة التي اخترتها ، قد تستغرق المحاذاة في أي مكان من بضع ثوانٍ إلى بضع ساعات. عند اكتمال المحاذاة يحفظ الدورة. أود حفظ التسلسلات المحاذية باسم مختلف ، وبالتالي إذا كان ملفي الأصلي هو Myfile_unaligned.mas ، فسأحفظ التسلسل المحاذي باسم Myfile.mas فقط.

الخطوة 2.4

لا يمكن لـ MEGA5 استخدام ملف .mas مباشرة لتقدير شجرة النشوء والتطور ، لذلك يجب عليك أيضًا الاختيار تصدير المحاذاة من البيانات القائمة وتصدير الملف بتنسيق MEGA5 حيث سيحصل على ملحق .meg. سيُطلب منك إدخال عنوان للبيانات. يمكنك ترك العنوان فارغًا إذا كنت ترغب في ذلك ، ولكن من المفيد إضافة نوع من العنوان ذي المعنى بالنسبة لك. إذا كانت عبارة عن محاذاة لتسلسل الحمض النووي ، فسيتم سؤالك أيضًا عما إذا كانت ترميز تسلسلات أم لا.

تمت مناقشة المحاذاة بمزيد من التفصيل في الفصل 4 من PTME4 (Hall 2011).

الخطوة 2.5: بديل للمحاذاة مع MEGA5

بمجرد اكتمال المحاذاة ، سترى أن الفجوات قد تم إدخالها في التسلسلات. تمثل هذه الفجوات عمليات الإدراج أو الحذف التاريخية ، والغرض منها هو جعل المواقع المتماثلة محاذاة في نفس العمود. يجب أن ندرك أنه مثلما تعتبر شجرة النشوء والتطور "تقديرًا" للعلاقات بين التسلسلات ، فإن المحاذاة هي مجرد تقدير لمواقف عمليات الإدراج والحذف التاريخية. يمكن أن تؤثر جودة المحاذاة على جودة شجرة النشوء والتطور ، لكن MEGA5 لا يوفر أي طريقة للحكم على جودة المحاذاة. البرنامج المستند إلى الويب إرشاد (http://guidance.tau.ac.il/) يوفر خمس طرق مختلفة للمحاذاة ، ولكن الأهم من ذلك ، أنه يقيم جودة المحاذاة ويحدد المناطق والتسلسلات التي تساهم في تقليل جودة المحاذاة. مناقشة إرشاد (بن وآخرون 2010) خارج نطاق هذه المقالة ، ولكن الموضوع مغطى بالتفصيل في الفصل 12 من PTME4 (Hall 2011).

إرشاد يتطلب توفير التسلسلات غير المحاذاة في ملف بتنسيق Fasta. راجع Hall (2011) للحصول على وصف تفصيلي لتنسيق Fasta. إذا قمت بتنزيل التسلسلات من خلال متصفح الويب المفضل لديك وحفظتها كملف fasta ، فيمكن استخدام هذا الملف كمدخل لـ إرشاد. إذا استخدمت MEGA5 لتنزيل التسلسلات في مستكشف المحاذاة ، يمكنك تصدير التسلسلات غير المحاذاة بتنسيق FASTA عن طريق اختيار تصدير المحاذاة من البيانات القائمة ، ثم الاختيار فاستا صيغة. إذا نسيت الاحتفاظ بالتسلسلات غير المحاذاة ، يمكنك تحديد كل التسلسلات (Control-A) ، ثم اختر حذف الفجوات من يحرر القائمة قبل تصدير التسلسلات بتنسيق FASTA.

الخطوة 3: تقدير الشجرة

هناك العديد من الطرق المستخدمة على نطاق واسع لتقدير شجرة النشوء والتطور (ربط الجار ، والخلل الأقصى لـ UPGMA ، والاستدلال البايزي ، والاحتمالية القصوى [ML]) ، ولكن هذه المقالة ستتناول واحدة فقط: ML.

الخطوة 3.1

في نافذة MEGA5 الرئيسية اختر افتح ملف / جلسة من ملف القائمة وافتح ملف .meg الذي قمت بحفظه في الخطوة 2.

الخطوة 3.2

يستخدم ML مجموعة متنوعة من نماذج الاستبدال لتصحيح تغييرات متعددة في نفس الموقع خلال التاريخ التطوري للتسلسلات. يمكن أن يكون عدد الطرازات ومتغيراتها محيرًا تمامًا ، لكن MEGA5 يوفر ميزة تختار أفضل طراز لك. من عارضات ازياء اختر القائمة البحث عن أفضل نماذج الحمض النووي / البروتين (ML) ... . سيظهر مربع حوار التفضيلات ، لكنك آمن بما يكفي لقبول الإعداد الافتراضي. انقر على إحصاء - عد زر لبدء التشغيل. قد تستغرق النماذج وقتًا طويلاً للنظر في جميع الطرز المتاحة ، لكن شريط التقدم يوضح كيف تسير الأمور.

عند الانتهاء ، تظهر نافذة تسرد النماذج بترتيب التفضيل. لاحظ النموذج المفضل ، ثم قدر الشجرة باستخدام هذا النموذج. بالنسبة للأمثلة أدناه ، كان طراز WAG + G + I هو الأفضل.

الخطوة 3.3

من علم تطور السلالات اختر القائمة إنشاء / اختبار شجرة الاحتمالية القصوى ... . سيظهر مربع حوار تفضيلات مشابه لذلك في الشكل 1.


نتائج

التطور الجزيئي رودوبسين

عند تقدير معدل تطور رودوبسين عبر نموذج M0 البسيط ، حيث يتم تقدير نسبة dN / dS الفردية للتسلسل بأكمله (انظر المواد والطرق) ، وجد أن التسلسل قد تطور ، كما هو متوقع ، في الغالب تحت اختيار تنقية قوي (dN). / dS = 0.045 ، احتمالية تسجيل الدخول (lnL) = −12788). وبالتالي ، بشكل عام ، تميل بدائل النوكليوتيدات الجديدة غير المترادفة في هذا الجين إلى الإزالة عن طريق الانتقاء الطبيعي. ومع ذلك ، من المتوقع أن يحدث الاختيار الإيجابي في مواقع فردية متكيفة ، والتي لا يمكن استخدام نموذج M0 للكشف عنها. لذلك أجرينا اختبارين للاختيار الإيجابي باستخدام نماذج استبدال الموقع ، والتي تسمح لكل موقع في التسلسل بالتطور بمعدل مستقل. يتم الاستدلال على الاختيار الإيجابي من خلال مقارنة نموذجين متداخلين حيث يشتمل النموذج البديل على مواقع ذات dN / dS أكبر من 1 ، ويتم تحديد الأهمية عبر اختبار نسبة الاحتمالية مع القيمة p المشتقة من توزيع χ 2. هذه الاختبارات ، إذا كانت مهمة ، ستوفر إلى حد كبير دليلًا على المواقع التي خضعت لانتقاء إيجابي خلال الاختلاف الجيني. فشل كلا الاختبارين للاختيار الإيجابي المتفشي في إنتاج دليل مهم (النماذج M1a مقابل M2a: M1a احتمالية السجل (lnL) = −12672 ، M2a lnL = −12672 ، درجات الحرية (df) = 2 ، p = 1 نماذج M7 مقابل M8: M7 lnL = −12364، M8 lnL = −12364، df = 2، p = 1). من الواضح أنه لا ينبغي استخدام نتائج الاختيار الإيجابي السائد ويجب أن يركز التحليل التفصيلي في مواضع محددة للغاية ضمن تسلسل البروتين / الحمض النووي.

اختبرنا بعد ذلك الفرضية القائلة بأن رودوبسين خضع لانتقاء إيجابي عرضي على وجه التحديد أثناء الاختلاف عن طريق اختبار باستخدام نموذج موقع الفرع (الشكل 1). يسمح هذا الاختبار للمواقع التي خضعت للاختيار الإيجابي في فرع معين من علم التطور ويتم تحديد الأهمية بشكل مشابه للاختبارات السابقة. تم العثور على رودوبسين لديه دليل مهم على الاختيار الإيجابي على الفرع المؤدي إلى الثدييات الموجودة (خالية lnL = −12734 ، بديل lnL = −12731 ، df = 1 ، p = 0.014). كانت المواقع الثلاثة التي تم تحديدها على أنها ذات أعلى احتمال لاحق لكونها أهدافًا للاختيار الإيجابي هي (إحداثيات الأبقار والاحتمالات اللاحقة): M13F (احتمال = 0.995) ، R225Q (احتمال = 0.982) و S346A (احتمال = 0.888). من الواضح أن هذه المواقف الثلاثة (الأولان ذوو الأهمية الإحصائية القوية) اكتسبت بعض الوظائف ذات الصلة التي نتج عنها اختيار إيجابي في الفرع القاعدي مما أدى إلى ثدييات.

التوصيف الكهربي والتحليل الطيفي لبدائل رودوبسين

تم اختيار هذه المواقع المحددة الثلاثة (13 و 225 و 346 في خلفية الأبقار) ، التي تم تحديدها من خلال التحليل الإحصائي ، للتوصيف التجريبي نظرًا لارتفاع احتمالية اختيارها بشكل إيجابي. في حين أن الموقع 346 لا يلبي الحد الفاصل للاحتمال القانوني البالغ 0.95 ، فإن موقعه في منطقة معروفة بأنها ذات صلة من الناحية الفسيولوجية دفعنا إلى تضمينه في التحليل التجريبي. تم إنشاء طفرات الأجداد F13M و Q225R و A346S في جين الأبقار عن طريق الطفرات الموجهة للموقع. توجد هذه الأحماض الأمينية في المجال الداخلي N- الطرفية (F13) ، والنهاية السيتوبلازمية للحلزون عبر الغشاء V (Q225) ، والذيل الطرفي C لبروتين مستقبلات الضوء opsin (A346) ، على التوالي (الشكل 2).

تم تحوير المواقع في الدراسة الحالية ، 13 و 225 و 346 محاطة بدائرة باللون الأحمر.

استخدمنا التحليل الكهربي من أجل تحديد حالة الارتباط بالجليكوزيل و oligomerization للطفرات التي تعتبر محددات هيكلية مهمة لوظائفها. تحقيقا لهذه الغاية ، تم التعبير عن البروتينات الطافرة المؤتلفة ، F13M و Q225R و A346S ، في خلايا COS-1 ، المناعية ثم تحليلها لاحقًا بواسطة SDS-PAGE. كان النمط الكهربي لطفرات Q225R و A346S مشابهًا جدًا لتلك الموجودة في WT (الشكل 3 ، اللوحة اليسرى) تُظهر اللطاخة الزائدة المميزة النموذجية للرودوبسين المعبر عنها في خلايا COS-1 وتعزى إلى الارتباط بالجليكوزيل غير المتجانس 13. ومع ذلك ، أظهر متحولة F13M نمطًا متغيرًا بشكل واضح ، مع سلسلة من العصابات المنفصلة وظهور نطاقات أقل أسفل النطاق الرئيسي opsin (عند حوالي 40 دينارًا كويتيًا) والتي يمكن أن تُعزى إلى أنواع غير مغلفة بالجليكوزيلات 14 أو أنواع opsin مقطوعة 15.

اللوحة اليسرى . يشار إلى ROS (رودوبسين من الأجزاء الخارجية للقضيب) و WT رودوبسين و Q225R و A346S و F13M في الممرات المقابلة. تُظهر جميع المسوخ سلوكًا كهربيًا مشابهًا مثل WT باستثناء F13M الذي يُظهر نمطًا متغيرًا يتوافق مع الارتباط بالجليكوزيل المتغير. اللوحة اليمنى. لطخة غربية من عينات البروتين المناعي التي تم الكشف عنها باستخدام الجسم المضاد أحادي النسيلة Rho-1D4. WT رودوبسين ، F13M في خلفية N2C / D282C و F13M رودوبسين. لاحظ أنه يمكن اكتشاف نطاق 28 كيلو دالتون بوضوح في حارة متحولة F13M.

واحدة من الخصائص الرئيسية ذات الصلة بالتكيف مع رودوبسين هي قدرتها على امتصاص الضوء. وهكذا ، تم تحليل السلوك الطيفي للبروتينات المنقاة بواسطة التحليل الطيفي للأشعة المرئية وفوق البنفسجية وتم تحديد خصائص امتصاص الضوء في حالتها المتكيفة مع الظلام (الشكلان 4 و 5 ج). أظهر رودوبسين من النوع البري (WT) النطاق المرئي المميز عند 500 نانومتر وأظهرت المسوخات Q225R و A346S نطاقات مرئية بنفس الطول الموجي (الشكل 4). أظهر هذان الطافران مستويات مماثلة من التجدد الصبغي مع شبكية العين مقارنةً بـ WT رودوبسين كما تم الحكم عليه من خلال A280 نانومتر500 نانومتر النسب (انظر الجدول 1). تم تحديد أطياف التبييض الضوئي والتحميض مباشرة بعد الإضاءة (بضوء λ & gt 495 نانومتر) وبعد التحميض على التوالي. عند الإضاءة ، أظهر كلا الطافرين نطاق امتصاص نموذجي عند 380 نانومتر ، يتوافق مع التشكل Meta II النشط. أدى التحميض اللاحق للعينات إلى تحويل الحد الأقصى للامتصاص من 380 نانومتر إلى 440 نانومتر وهو ما يتوافق مع إعادة تشكيل نيتروجين قاعدة شيف. وهكذا ، نجد سلوكًا شبيهًا بـ WT لطفرات Q225R و A346S في مقايسات التبييض الضوئي والتحميض (الشكل 4 ، إدراج) ، مما يشير إلى أن هذه التغييرات في الأحماض الأمينية لم تغير مسار المركبات الضوئية المؤدية إلى المستقبل المنشط.

أطياف UV-vis لـ WT و Q225R و A346S في الظلام. تظهر الأشكال الداخلية الظلام المقابل (λالأعلى = 498 نانومتر) ، فوتوبليتيد (λالأعلى = 380 نانومتر) ، والأطياف المحمضة (λالأعلى = 440 نانومتر). لاحظ أن المسوخات تظهر سلوكيات التبييض الضوئي والتحميض المماثلة لتلك الخاصة بـ WT رودوبسين.

الخلايا المنقولة مع WT رودوبسين (أ) و F13M متحولة (ب) تم تحليلها بواسطة المجهر الفلوري. يتوافق اللون الأزرق مع نواة الخلايا ، ويتم تصنيف opsins باللون الأخضر. (ج) أطياف امتصاص الأشعة فوق البنفسجية لـ F13M في الظلام (اللوحة العلوية) لا تظهر أي تجديد للكروموفور في المنطقة المرئية. عندما يتم الحصول على الطفرة في خلفية متحولة N2C / D282C المزدوجة ، يمكن إنقاذ تجديد الكروموفور إلى مستويات WT (اللوحة السفلية). أقحم، أطياف التبييض الضوئي والتحميض للطفرات التي تم إنقاذها.

لوحظ سلوك معين في حالة طفرة F13M ، في المجال الطرفي N للمستقبل ، والذي لم يُظهر تجديدًا للكروموفور يمكن اكتشافه كما تم اكتشافه من خلال نقص الامتصاص في المنطقة المرئية (الشكل 5C ، اللوحة العلوية). يمكن أن يعكس هذا النقص في القدرة على تجديد الكروموفور حدوث خلل في البروتين. من المعروف أن الأوبسينات غير المطوية يتم الاحتفاظ بها في الشبكة الإندوبلازمية أو يمكن أن تشكل شوائب داخل الخلايا بسبب فشل في النقل داخل الخلايا إلى غشاء البلازما. وهكذا ، قمنا بتحليل التوطين الخلوي للطفرة F13M ، المعبر عنها في خلايا COS-1 ، وقارنوها مع WT رودوبسين من أجل تأكيد الخلل الهيكلي لهذا المسوخ. لوحظ وجود نمط مختلف بشكل واضح في الحالتين حيث تم نقل WT opsin إلى غشاء البلازما (الشكل 5 أ) ، في حين يبدو أن F13M لم يتم توطينه بشكل فعال في غشاء البلازما ، وشكل شوائب داخل الخلايا بتردد أعلى ، بنمط متسق مع اختلال البروتين (الشكل 5 ب).

إنقاذ التجديد chromophore من أجل متحولة F13M

كان من المهم معرفة ما إذا كان يمكن إنقاذ النمط الظاهري الخاطئ لـ F13M عن طريق استراتيجية تجريبية. لذلك ، تم إجراء الإنقاذ الدوائي باستخدام متحولة F13M. لهذا ، يتم نقل خلايا COS-1 مع هذا الجين الطافر حيث تم تحضينها في وجود 9-رابطة الدول المستقلةالشبكية. أظهرت الدراسات السابقة أن المسوخات الطرفية المعيبة N المزودة بـ 11-رابطة الدول المستقلة-ريتينال أو 9-رابطة الدول المستقلة-الشبكية ، أثناء التخليق الحيوي للبروتين ، يمكن أن تستعيد مستويات تجديد الكروموفور 16،17 التي تشبه WT. في حالة F13M ، لم نتمكن من الحصول على أي تجديد قابل للاكتشاف chromophore لهذا المسوخ باستخدام هذه الإستراتيجية (الشكل التكميلي S1).

افترضنا أن عدم قدرة متحولة F13M على ربط الشبكية يرجع إلى حقيقة أن هذه الطفرة ، في المجال الطرفي N للمستقبل ، يمكن أن تزعزع استقرار تكوين البروتين ، وبالتالي تؤثر على طي المستقبل وتغييره في نفس الوقت بالجليكوزيل في بقايا N15 القريبة 18. من أجل تثبيت الهيكل ، قدمنا ​​طفرة F13M في خلفية متحولة N2C / D282C المزدوجة التي تشكل رابطة ثاني كبريتيد بين Cys2 و Cys282 مما يزيد من استقرار opsin 19. باستخدام هذه الاستراتيجية ، يمكننا استعادة التجديد الكامل للكروموفور للطفرة F13M إلى حد مماثل لتلك الموجودة في WT رودوبسين (الشكل 5C ، اللوحة السفلية). علاوة على ذلك ، أظهر تحليل اللطخة الغربية لـ F13M نطاقًا منخفضًا مميزًا واضحًا عند حوالي 28 KDa لم يتم اكتشافه عندما تم الحصول على المسوخ في خلفية Cys2 / Cys282 (الشكل 3 اللوحة اليمنى). في هذه الحالة الأخيرة ، يمكن ملاحظة نمط مشابه لنمط WT ، بما يتوافق مع الإنقاذ المرصود لتجديد الكروموفور.

من أجل استبعاد أن الشبكية يمكن أن تكون ملزمة لبقايا Lys الأخرى 20 في متحولة F13M (بخلاف K296 الطبيعي في الحلزون الغشائي 7) ، قمنا ببناء متحولة رباعية F13M / N2C / D282C / K296G حيث كان موقع ربط الشبكية تم القضاء عليه بواسطة طفرة K296G 21. لم نتمكن من الحصول على أي تشكيل للكروموفور لهذا المسوخ مما يشير إلى أن شبكية العين كانت مرتبطة بـ K296 الأصلي في المتحولة الثلاثية التي تم إنقاذها (الشكل التكميلي S2).

الاستقرار التوافقي ووظائف WT و opsins المتحولة

أحد الجوانب المهمة الكامنة وراء وظيفة رودوبسين في الإدراك البصري هو الاستقرار الهيكلي لكل من الحالات المظلمة والمضيئة ضوئيًا. يمكن أن يكون لبدائل الأحماض الأمينية المحددة تأثير عميق على استقرار البروتين ، لذلك من المهم تحديد ثباتها الحراري والكيميائي في الظلام وكذلك استقرار حالة Meta II المنشطة. إن تأثير الطفرات على الوظيفة المحددة ، أي تنشيط البروتين G ، هو أيضًا معلمة ذات صلة يمكن أن تلقي الضوء على أهمية موضع حمض أميني معين في التطور الجزيئي للبروتين.

الاستقرار الكيميائي للحالة المظلمة

حددنا تفاعل الهيدروكسيل أمين للـ WT والطفرات في الحالة المظلمة. لا يمكن لـ Hydroxylamine الوصول إلى جيب ربط WT rhodopsin المضغوط في الحالة المظلمة ولكن إذا أصبح التشكل أكثر انفتاحًا ، كما في حالة الطفرة ، فيمكنه الدخول إلى جيب الربط مكونًا أوكسيم شبكي مع 11-رابطة الدول المستقلة- الشبكية 22. وبالتالي ، يتم استخدام هيدروكسيل أمين لقياس الثبات الكيميائي للرودوبسين في الظلام كمقياس غير مباشر لإمكانية الوصول إلى وصلة قاعدة شيف في ظل هذه الظروف. تتمتع WT بثبات عالٍ تجاه الهيدروكسيلامين في الظلام (الجدول 1) مما يشير إلى أن قاعدة شيف الشبكية لا يمكن الوصول إليها في ظل هذه الظروف. يُظهر كل من طفرات Q225R و A346S حساسية متزايدة قليلاً تجاه الهيدروكسيلامين في الظلام (الشكل 6 أ) والتي من شأنها أن تعكس بنية أقل إحكاما حول ارتباط قاعدة شيف في جيب ربط الكروموفور.

(أ) الاستقرار الكيميائي في وجود 50 ملي هيدروكسيلامين. انخفاض الامتصاصية في المرئي λالأعلى تم قياسه بمرور الوقت. WT رودوبسين (●) ، Q225R (▾) و A346S (○) (ب). المعدل الأولي لتنشيط Gt النسبي. تمثل أشرطة الخطأ S.E. في كلا اللوحتين.

الاستقرار الحراري للحالة المظلمة

اختبار آخر يستخدم لتقييم الاستقرار في الحالة المظلمة ، هو متابعة اضمحلال النطاق المرئي عند 48 درجة مئوية. عند درجة الحرارة هذه ، أظهر متحولة Q225R حركيات تبييض حرارية مماثلة مثل رودوبسين WT ، بينما أظهر متحولة A346S حركيات تبييض أسرع قليلاً (الجدول 1). من ناحية أخرى ، فإن المتحولة F13M / N2C / D282C تتمتع باستقرار عالٍ كما هو متوقع من تأثير التثبيت لرابطة ثاني كبريتيد هندسية إضافية (t1/2 & gt 120 دقيقة عند درجة الحرارة هذه) كما هو موصوف سابقًا 23.

استقرار Meta II

تم تحديد تسوس Meta II ، في الوقت الفعلي ، من خلال مراقبة زيادة مضان Trp عند التنشيط الضوئي للرودوبسين. أظهرت بياناتنا وقت اضمحلال مماثل لطفرات Q225R و A346S بالمقارنة مع WT (الجدول 1).


تصميم و تنفيذ

تبسيط النموذج

الحالات البيولوجية لإطارات القراءة المعطلة نادرة (على سبيل المثال في الطفرات المبرمجة لتغيير الإطارات أو الجينات الكاذبة) ولكن أخطاء التسلسل التي تؤدي إلى تغيرات الإطارات الظاهرة تكون أكثر تكرارًا. تحدث هذه الانزياحات في الإطارات من خلال indels التي ليست مضاعفات الثلاثة عندما يتم حذف أو إدخال واحد أو اثنين من النيوكليوتيدات المتتالية. للتمييز بين هذه الأنواع من الإطارات ، نشير على التوالي إلى تلك التي تسببها عمليات الحذف ، وتلك التي تسببها عمليات الإدراج. هناك اختلافان رئيسيان بين حلنا وخوارزميات تسلسل الترميز الزوجي الأخرى (على سبيل المثال [23] ، [24] ، [26]). أولاً ، تعتمد وظيفتنا الموضوعية فقط على ترجمات AA التسلسلية وثانيًا تتجاهل الأحداث. هذان التقريبان يسمحان لنا بتوسيع خوارزمية أزواجنا إلى MSA.

كما هو مذكور في المقدمة ، اقترح Hein [23] و Pedersen et al [25] تحديد التكلفة الإجمالية للمحاذاة كمجموع تكاليف المحاذاة. يمكن للمرء أن يجادل بأن مستوى NT يتم أخذه في الاعتبار جزئيًا على الأقل ضمن مصفوفات استبدال AA الكلاسيكية مثل PAM [41] أو Blosum [42]. يثير استخدام الجمع أيضًا مسألة الأهمية النسبية لهذين المستويين من المعلومات في عملية المحاذاة ، كما ذكر المؤلفون [25] ، يمكن أيضًا استخدام مجموعات تكلفة أخرى. ومن ثم ، باتباع إستراتيجية الخطوات الثلاث ، نفضل مراعاة تكلفة محاذاة AA فقط والتي تتميز بالبساطة مما يؤدي إلى حل أسرع.

تحسب خوارزمية المحاذاة الزوجية انزياحات الإطارات [24] ، [25] ، [27] بشكل صريح للأحداث (تلك التي تمثل وجود واحد أو اثنين من النيوكليوتيدات الإضافية في تسلسل). يتطلب تمثيل مثل هذه الأحداث في محاذاة المخرجات إما إزالة النيوكليوتيدات الإضافية المقابلة من التسلسل أو عرضها ككودون جزئي (على سبيل المثال "! C") يواجه كودون "شبح" في التسلسل الآخر ("!!!" ) هذه ليست فجوة حقيقية ولا كودون. لم يتم تكييف أي من هذه الحلول مع الاستراتيجية الكلاسيكية المستخدمة لتوسيع خوارزمية المحاذاة الزوجية إلى MSA (هذه الاستراتيجية ، بناءً على محاذاة المحاذاة ، مفصلة في نهاية هذا القسم). تمنع إزالة النيوكليوتيدات الزائدة التشكيك في هذا الخيار بعد ذلك. وفي الوقت نفسه ، فإن استخدام كودون شبح ("!!") يمثل مشكلة ، خاصة بالنسبة لتقييم تكاليف فتح / إغلاق الفجوة عند محاذاة اثنين من المحاذاة بشكل صحيح. في الواقع ، يتم تقدير هذه التكاليف بكفاءة استنادًا إلى التكوين المحلي للأحرف غير الفراغية ولكن نظرًا لأن الكودون الشبحي ليس أحدهما أو الآخر ، فإن الحلول القياسية (على سبيل المثال [43] ، [44]) لم تعد تعمل. هذه الصعوبة في التعامل مع الأحداث هي بالتأكيد السبب الرئيسي وراء عدم تمديد الحلول الزوجية السابقة إلى MSA.لاحظ أن التجاهل ليس دراماتيكيًا حيث يمكن دائمًا تفسيره كحدث في التسلسل المعني يواجه حذف كود في الآخرين (على سبيل المثال ، "!! C" تواجه "- - -"). هذا تقريب عملي مع تأثير ضئيل ، إن وجد ، عند محاذاة تسلسلين فقط. في حالة MSA ، فإن هذا النهج يبالغ في عقاب الأحداث (عن طريق إضافة عمليات حذف إلى متواليات أخرى) ، ولكن لا يبدو أن لها تأثيرًا كبيرًا في الممارسة. نحن نقر بأن التعامل الدقيق مع الأحداث هو الأفضل. ومع ذلك ، نظرًا لأنه لم يتم العثور على أي شيء منذ نشر عمل Hein الأساسي في عام 1994 ، نعتقد أن الوقت قد حان للنظر في حلول تقريبية لتوسيع نموذجه الزوجي إلى أداة MSA مفيدة.

تحديد الوظيفة الموضوعية للمحاذاة الزوجية التي تحتوي على تغيرات الإطارات وكودونات التوقف

يمكن النظر إلى محاذاة تسلسلين على أنها عملية تحويل تتحول إلى كما هو موضح في الشكل 5. وبمجرد ربط التكلفة بكل تحويل أولي (تغيير حرف إلى آخر ، وإدخال / إزالة الأحرف) ، فإن التكلفة الإجمالية يمكن حساب عملية التحويل المرتبطة بالمحاذاة ببساطة عن طريق تلخيص تكلفة تحولاتها الأولية. ثم تكون المحاذاة المثلى واحدة مع الحد الأدنى من تكلفة التحويل الإجمالية. للحصول على محاذاة ذات مغزى بيولوجيًا ، يجب اختيار التكاليف الأولية المختلفة بعناية. تعتمد تكلفة تحويل أحد الأحماض الأمينية X إلى Y آخر على خواصه الفيزيائية والكيميائية ويشار إليها على أنها. يتم تعريف تكلفة إدراج / حذف AAs بشكل عام على أنها مكان وجود فتحة فجوة معاقبة عالية القيمة بينما تكون قيمة أصغر معاقبة لتمديد الفجوة. هذا يعكس حقيقة أن indels هي أحداث نادرة (مقارنة بالبدائل) وأن indels الأطول أكثر ندرة. لاحظ أن هذا النوع من تكلفة الفجوة مستقل عن الرموز التي تم إدراجها أو حذفها.

تصف هذه المحاذاة طريقة للتحول إلى عن طريق حذف E ، وإدخال حرف I بعد الأول M ، وتغيير آخر M إلى N ، وحذف الحرفين النهائيين I.

كما هو موضح أعلاه ، فإن وظيفتنا الموضوعية تأخذ في الاعتبار تكلفة محاذاة AA فقط. من وجهة النظر هذه ، يكفي تحديد تكلفة التحويل المرتبطة بمستوى AA إلى الرمزين الإضافيين المستخدمَين لتمثيل indels تغيير الإطارات ("!") وكودونات الإيقاف ("*"). لاحظ أن احتمال ملاحظة تغيير الإطارات أو كود التوقف في تسلسل مستقل نسبيًا عما لوحظ في التسلسلات الأخرى في نفس الموقع. وبالتالي فإن طريقة حسابهم تشبه الطريقة التي يتم بها حساب الإنديز بشكل كلاسيكي. لاحظ أن هذا أكثر من مجرد مصادفة لرموز تغيير الإطارات لأنها تمثل بالفعل indels غير المحتمل لواحد أو اثنين من النيوكليوتيدات. حضور ال "!" أمام أي رمز يُعاقب بتكلفة عالية يُشار إليها على أنها. وبالمثل ، فإن وجود "*" أمام أي رمز له أيضًا تكلفة عالية يُشار إليها بـ. نتيجة لذلك ، فإن وجود "*" يواجه "!" بتكلفة إجمالية قدرها.

أخيرًا ، لا ينبغي معاقبة رموز التوقف التي تظهر في نهاية التسلسل ، بينما لا يجب معاقبة تغيير الإطارات في أطراف التسلسل أكثر من indels الأخرى. من وجهة نظر خوارزمية ، يتم أخذ ذلك في الاعتبار في برنامجنا بطريقة مشابهة لتكاليف indel التي يتم التعامل معها بشكل عام لتجنب معاقبة أولئك الذين يظهرون في نهايات التسلسل.

العثور على المحاذاة المثلى لتسلسل ترميز مع تغير الإطارات وإيقاف الكودونات

حلنا ، مثل معظم طرق المحاذاة الزوجية الحالية للتسلسلات الجزيئية ، هو تحسين على خوارزمية "Needleman-Wunsch" الكلاسيكية [45] - [47]. وهكذا نبدأ بالتذكير بأساسه. بوجود تسلسل ، نشير إلى طوله ، وما يتبعه من مكون بينه وخصائصه. لاحظ أن هذا هو صفة و ذلك ، حسب الاصطلاح ، هو التسلسل الفارغ ("") إذا أو. الملاحظة الرئيسية الأولى هي أنه يمكن بسهولة استنتاج المحاذاة المثلى للتسلسلين من المحاذاة المثلى للتسلسلتين المختصرة بحرف واحد على الأكثر. بتعبير أدق ، نظرًا لكون المحاذاة المثلى بين متسلسلين وتكلفتها ، يمكن حساب التكلفة الإجمالية للمحاذاة المثلى بين التسلسلين بشكل متكرر باستخدام الصيغة التالية (طالما و): (1)

يتوقف العودية عندما يكون تسلسل واحد على الأقل فارغًا. الحل الفعال لهذه المشكلة العودية هو تخزين كل حل مشكلة فرعية. هذا لا يتطلب سوى مساحة ذاكرة مع توفير وقت الحساب الأسي. يتم تخزين تكلفة كل حل مشكلة فرعية في مصفوفة ثنائية الأبعاد من الحجم × التي نشير إليها على هذا النحو. يتوافق الصف الأول والعمود مع المحاذاة التي تحتوي على تسلسل فارغ بتكاليف مباشرة ، على سبيل المثال . بمجرد بدء الصف الأول والعمود الأول ، يتم اعتبار الخلايا الأخرى في ترتيب يسار / يمين ، أعلى / أسفل. ومن ثم يمكن حساب كل قيمة في وقت ثابت باستخدام الصيغة العودية (1) التي تعتمد على تكاليف المشكلات الفرعية الثلاثة المخزنة في ، و. آخر قيمة محسوبة () هي تكلفة المحاذاة المثلى لـ و. يمكن الحصول على المحاذاة المثلى من المصفوفة المعبأة باستخدام خوارزمية التراجع. تبدأ هذه الخوارزمية من الإدخال الأخير لـ (أي) وتحدد أي من جيرانها الثلاثة تم استخدامه للحصول على القيمة المثلى. إذا كانت القيمة تأتي من اليسار ، فإنها تشير إلى إدخال الحرف الأخير من الأعلى ، وهو حذف لهذا الحرف ومن القطر ، فهو عبارة عن استبدال بين آخر حرفين من ،. ثم تنتقل الخوارزمية إلى الجار المقابل وتتكرر نفس العملية حتى يتم الوصول إلى أعلى يسار المصفوفة.

نظرًا لأننا نبحث عن محاذاة تأخذ في الاعتبار ترجمة AA لتسلسلات NT ، نحتاج إلى تقديم ترميز جديد لربط هذين المستويين المتسلسلين. سنستخدم للإشارة إلى الترجمة الأولية للتسلسل النووي إلى AAs. تتحقق هذه الترجمة الأولية باستخدام إطار القراءة الأول ، ويتم تحويل الكودونات غير المكتملة إلى "!" و stop codeons يتم تحويلها إلى “*” دون مقاطعة الترجمة. بالنظر إلى تسلسلين للنيوكليوتيدات المشفرة للبروتين بدون انزياحات الإطارات والمصفوفة المستخدمة للمحاذاة ويمكن اعتبارها ضغطًا للمصفوفة المقابلة التي كان من الممكن استخدامها لمحاذاة و. في الواقع ، يمثل كل صف (عمود على التوالي) ثلاثة صفوف (أعمدة على التوالي) من. وبالتالي يمكن الحصول على محاذاة مكافئة لتلك الناتجة عن التراجع باستخدام الحركات المقابلة لاستبدال AA أو الإدراج أو الحذف فقط. تؤدي هذه القيود إلى مراعاة الخلايا فقط وتقدير قيمها بناءً على الصيغة التالية (طالما و): أين و.

يعتبر النظر في إمكانيات تغيير الإطارات بمثابة تعميم لهذا النهج حيث يتم النظر في جميع الخلايا ويتم تقدير قيمها باستخدام جميع الخلايا الموجودة داخل الحي المربع المحدد بـ ، و ، و. هذا المربع 4 × 4 يحدد 15 خلية مجاورة (الشكل 6). أثناء عملية التراجع ، يتم النظر في جميع التحركات من هؤلاء الجيران الخمسة عشر. تتوافق ثلاثة منها مع ترجمات AA الكلاسيكية ، بينما تحث الإثنا عشر الأخرى على تغيير إطار واحد أو اثنتين. يوضح الشكل 7 محاذاة الموقع المقابلة لهذه الحركات الـ 15 المحتملة. تم تفصيل الخوارزمية الزوجية الناتجة لتسلسل الحمض النووي المشفر فيما يتعلق بنموذج NT / AA المدرك لتغيير الإطارات وإيقاف الكودون في الخوارزمية S1. لاحظ أنه في هذه الخوارزمية ، يتم الوصول إلى قيم من خلال طريقة "get_C (i، j)" التي تُرجع متى تكون فهارس صالحة ، وغير ذلك. الميزة هي أن القيمة لا تتداخل مع البحث عن قيمة دنيا ، بحيث يتم فقط تهيئة الاحتياجات بينما يتم التعامل مع الخلايا الأخرى في الصفوف الثلاثة الأولى (والأعمدة) مثل أي خلايا أخرى.

كما هو الحال في Needleman-Wunsch الكلاسيكي ، يتم استخدام مصفوفة لتخزين تكلفة المحاذاة المثلى بين بادئات (= ATTTCGAAATG) وبادئات (= ATCGAGATG). تُستخدم ترجمات AA لتلك التسلسلات لاكتشاف أكواد STOP ولتقييم بدائل الكودون بناءً على ترجمات AA الخاصة بهم. يتم حساب قيمة كل خلية باستخدام 15 خلية قريبة. على سبيل المثال ، يتم حساب قيمة الخلية الغامقة بناءً على جيرانها الملونين الخمسة عشر. من بين تلك الخلايا الـ 15 ، تسبب بعض الانزياحات الإطارية في تسلسل واحد أو كليهما (انظر الشكل 7 للحصول على التفاصيل). على سبيل المثال ، الخلايا المميزة بعلامة "0" لا تسبب أي تغيير في الإطارات ، فإن تلك التي تم تمييزها بالرمز "1" تتسبب في حدوث تغيير في الإطارات لـ وليس من أجله. يتم تحديد المسار الأمثل (المشار إليه بالسهام) باستخدام عملية تتبع عكسي مماثلة للمسار الكلاسيكي ، باستثناء أنه يتم الآن النظر في 15 حركة ممكنة. يتم عرض المحاذاة المقابلة لمسار السهم هذا في المربع المتقطع.

لنفترض أن عملية التراجع أدت إلى الخلية الجريئة. ستنتقل الحركة التالية من هذه الخلية باتجاه أحد جيرانها الملونين الخمسة عشر وستتم إضافة موقع واحد إلى المحاذاة التي تم إنشاؤها بواسطة عملية التراجع. يشار إلى الموقع المراد إضافته لكل خلية.

يتم وصف خوارزمية البرمجة الديناميكية هذه باستخدام تكاليف الفجوة الثابتة ، أي أن تكلفة حجم indel عادلة. يتم تمديد النسخة المطبقة للتعامل مع تكاليف الفجوة الأكثر واقعية حيث تكون تكلفة indel. يتم ذلك باستخدام ثلاث مصفوفات ، وتحتوي على التكاليف المثلى لإنهاء المحاذاة الجزئية ، على التوالي ، عن طريق الإدراج أو الحذف أو المطابقة / الاستبدال (على سبيل المثال [48]).

نظرًا لأننا نعتبر كل خلية 15 جيرانًا بدلاً من الثلاثة المدروسة في خوارزمية Needleman-Wunsch القياسية ، فإن نهجنا ، نظريًا ، أبطأ بخمس مرات. بوجود خوارزمية زوجية سريعة وتمثيل صالح للمحاذاة ، يمكننا الآن تطبيق إستراتيجية MSA الكلاسيكية بناءً على نموذج NT / AA المحاسبي لتغيير الإطارات وكودونات التوقف.

المحاذاة المتعددة لتسلسلات النيوكليوتيدات المشفرة للبروتين باستخدام نموذج NT / AA الذي يفسر تغيرات الإطارات وكودونات التوقف

المحاذاة المتعددة للتسلسلات ، ... ، تحث على محاذاة زوجية لأي زوج من المتتاليات ، () يتم الحصول عليها عن طريق إزالة كل التسلسلات الأخرى والمواقع التي بها فجوة لكل من و. غالبًا ما يتم تعريف تكلفة المحاذاة المتعددة على أنها مجموع تكلفة المحاذاة الزوجية التي تحدثها. يُطلق على هذا المعيار درجة مجموع الأزواج (SP). وجود محاذيتين ومجموعتين منفصلتين من التسلسلات ، ومتغير من خوارزمية البرمجة الديناميكية المستخدمة لتسلسلين يسمح بإيجاد محاذاة ، من بين تلك المحفزات والتي لديها أدنى درجة SP. في هذا المتغير ، يتم حساب تكلفة الاستبدال لتعكس معيار مجموع الأزواج ، أي أنها مجموع تكاليف الاستبدال الأولية لتحويل AAs (على التوالي NTs) الموجودة في تلك الموجودة في. يمكن أيضًا اشتقاق تكاليف تمديد الفجوة بسهولة من عدد التسلسلات المضمنة في كلا المحاذاة ، بالإضافة إلى ترددات الفجوة في أي من مواقعهما. تتمثل الصعوبة الحقيقية الوحيدة في تقدير التكلفة الدقيقة لإنشاء فجوة بشكل صحيح والتي يجب إضافتها إلى درجة SP عند التفكير في حدث الإدراج / الحذف. على الرغم من أنه يمكن حساب هذا الرقم بالضبط [44] ، إلا أن الطريقة الأسهل بكثير لحساب تقدير "عدد الفجوات المتشائم" التي اقترحها ألتشول [43] يبدو أنها تنتج MSA بجودة جيدة [49].

يستخدم MSA الذي ينتجه MACSE استراتيجية محاذاة تقدمية للحصول على مسودة MSA الأولية التي يتم تنقيحها لاحقًا. يتم استخدام متغيرات هذه الإستراتيجية الواسعة الانتشار ، على سبيل المثال ، بواسطة ClustalW [12] و Muscle [15] و OPAL [49]. تم تحليل تأثيرات متغير كل خطوة (مثل الطريقة المستخدمة لقياس تشابه التسلسل) على نطاق واسع في ورقة OPAL [49] وقد أخذنا في الاعتبار استنتاجاتها عند تصميم MACSE. على وجه الخصوص ، بعد استنتاجاتهم ، قمنا بإصلاح مصفوفة الاستبدال في BLOSUM62 [42]. من الواضح أن استراتيجية MSA المستخدمة في MACSE ليست جوهر الورقة الحالية لأننا نستخدم النهج الكلاسيكي لتوسيع المحاذاة الزوجية الأصلية لتسلسل التشفير إلى MSA مفيد. ومع ذلك ، فإننا نصفه بإيجاز أدناه لشرح اختيار المتغيرات الرئيسية لدينا.

أولاً ، يتم تقدير جميع أوجه التشابه في التسلسل الزوجي بناءً على ترددات النيوكليوتيدات k-mers ، أي التسلسلات الفرعية للنيوكليوتيدات k [50]. تُستخدم أوجه التشابه هذه لاستنتاج شجرة دليل ثنائية النواة باستخدام طريقة مسافة UPGMA [51]. باستخدام UPGMA ، من الواضح أن الهدف ليس استنباط نسالة من التسلسلات ولكن بدلاً من ذلك بناء شجرة دليل تجمع تسلسلات متشابهة ، والتي يجب أن تكون محاذاة أولاً [49]. ترتبط أوراق هذه الشجرة بالتسلسلات المراد محاذاتها ، بينما ترتبط عقدها الداخلية بـ MSA للتسلسلات المضمنة في الكليد المقابل. تتم بعد ذلك معالجة العقد الداخلية من الأسفل إلى الأعلى ، ويتم الحصول على محاذاة العقدة من خلال محاذاة المحاذاة المحسوبة مسبقًا لأحفادها. لاحظ أنه بعد استنتاجات ورقة OPAL ، نختار "المحاذاة" باستخدام عدد الفجوات المتشائم ، كما هو مفصل في [48] ، بدلاً من محاذاة الملفات الشخصية ، وهو ما يحدث غالبًا على سبيل المثال. [12] ، [15]. نظرًا لأن الملفات الشخصية تنظر فقط في ترددات الأحرف لكل موقع ، فهي تستهلك وقتًا ومساحة أقل ولكنها لا تحتوي على معلومات كافية لحساب تكلفة الفجوة وفقًا لـ "عدد الفجوات المتشائم". ثم يتم استخدام MSA الناتج لعقدة الجذر كمسودة أولية لـ MSA المطلوبة. ثم نستخدم استراتيجية الصقل ذات القطعتين الكلاسيكية لتحسينها. تتكون هذه الإستراتيجية من تقسيم الحل الحالي إلى محاذاة فرعية يتم إعادة محاذاتها لاحقًا. يحل MSA الناتج محل السابق إذا تم تحسين نقاط SP الخاصة به. تستخدم استراتيجية التحسين المكونة من قطعتين أيضًا شجرة الدليل: فهي تأخذ في الاعتبار بشكل متكرر كل كليد من شجرة الدليل وتقسم المحاذاة العامة الحالية بحيث تحتوي إحدى المحاذاة الفرعية على التسلسل الدقيق للفرع المعني. بمجرد اختبار جميع الكتل ، يتم استنتاج شجرة دليل جديدة باستخدام UPGMA بناءً على تشابه التسلسل المقدّر وفقًا لتسلسل المساهمات المقيسة إلى درجة SP لـ MSA الحالي [49]. لاحظ أنه إذا تغيرت شجرة الدليل ، فسيتم اختبار بعض التحسينات الجديدة المكونة من قطعتين. تتوقف عملية التحسين عند عدم العثور على مزيد من التحسينات ، أو عند الوصول إلى الحد الأقصى لعدد مرات التصفية.

التوفر والميزات الرئيسية والتوجهات المستقبلية

يتم توزيع برنامج MACSE كملف جافا مفتوح المصدر قابل للتنفيذ مع كود المصدر المتاح. نظرًا لأنه مكتوب بلغة Java ، يتم توفير MACSE كملف جرة واحد يعمل على كل نظام تشغيل قياسي (Windows ، Linux ، Mac OS). بمجرد تنزيله ، يمكن تشغيله باستخدام تعليمات سطر الأوامر الأساسية ، على سبيل المثال ، "java -jar MACSE.jar -i my_seq.fasta -o my_output_prefix" (في حالة عدم وجود أي معلمات ، سيطبع MACSE بعض المساعدة في وصف خياراته وتوفير بعض أمثلة سطر الأوامر.) هذا يسمح بدمج MACSE بسهولة في خط أنابيب المعلوماتية الحيوية. يمكن أيضًا استخدام MACSE عبر واجهة الويب على: http://mbb.univ-montp2.fr/macse.

الميزات والخيارات الرئيسية لـ MACSE

يأخذ MACSE تسلسلات الإدخال بتنسيق FASTA ويوفر كمخرج محاذاة لتلك التسلسلات بنفس التنسيق (واحد على مستوى NT والآخر على مستوى AA). اسم ملف الإدخال والاسم الأساسي الذي سيتم استخدامه لمحاذاة الإخراج هما المعلمتان الإجباريتان الوحيدتان لـ MACSE. يمكن للمرء بسهولة تحديد مجموعتين من التسلسلات التي تستخدم تكاليف تغيير الإطارات وإيقاف الكود عن طريق تقسيم التسلسلات لتتماشى مع ملفي إدخال مختلفين. يسمح ذلك بمعالجة حالات الاستخدام القياسية عندما يرغب المرء في محاذاة تسلسلات الحمض النووي المشفرة للبروتين مع تلك المتولدة الكاذبة ، أو التسلسلات المنسقة من قواعد البيانات العامة ذات التسلسلات الناتجة عن المخرجات الأولية لتقنيات التسلسل عالي الإنتاجية من الجيل الجديد. يمكن فحص المحاذاة الناتجة عن MACSE باستخدام برنامج SEAVIEW [52] ، [53] الذي يحتوي على خيار عرض الكودون المناسب تمامًا.

تؤثر قيم المعلمات الخاصة بتكاليف فتح / تمديد الفجوة بشدة على المحاذاة الناتجة عن أي نهج MSA. على الرغم من كل الجهود المبذولة لتصميم استراتيجية تلقائية لضبط هذه التكاليف ، فإن النتائج التي تم الحصول عليها بمثل هذه المعلمات المعدلة لا تزال مخيبة للآمال مقارنة بتلك التي كان يمكن الحصول عليها بنفس طريقة MSA إذا كانت المعلمات الحقيقية معروفة [49]. تتضمن وثائق MACSE بعض الإرشادات لاختيار غرامات التكلفة المرتبطة بفتح / تمديد الفجوة ومع تغيير الإطارات وتكرار كود التوقف الداخلي للاستخدامات الأكثر شيوعًا - على سبيل المثال محاذاة الجينات (الزائفة). لاحظ أيضًا أنه نظرًا لأنه يمكن للمستخدم توفير محاذاة أولية سيستخدمها MACSE كنقطة انطلاق لإستراتيجية التحسين المكونة من قطعتين ، فيمكن للمرء اختبار مجموعات معلمات مختلفة بسرعة.

يدمج MACSE أيضًا الرموز الجينية البديلة ، ويوفر خيارات لتحديد الشفرة الجينية الافتراضية لاستخدامها و / أو لتحديد رموز مختلفة لاستخدامها اعتمادًا على أسماء التسلسل. بالنسبة للخيار الأخير ، يعتمد MACSE على ملف خيار منفصل متوافق مع الملف المستخدم بواسطة TranslatorX.

الاتجاهات المستقبلية

تتضمن الأعمال المستقبلية مزيدًا من التحسين لتسريع البرنامج وتطوير نموذج عقوبة أكثر تفصيلاً ليأخذ في الاعتبار ، على سبيل المثال ، حقيقة أن تغير الإطارات أكثر تواتراً داخل أجزاء متتابعة من البوليمر المتجانس. نحن نعمل أيضًا على التعامل مع المناطق غير المترجمة (UTR) التي يمكن أن تظهر في بداية و / أو نهاية تسلسل EST. يمكن القيام بذلك عن طريق تكييف الخوارزمية الخاصة بنا للسماح بالمحاذاة المحلية مع تحديد رموز البداية والإيقاف عند أطرافها. أخيرًا ، نخطط للتعاون مع فريق مطوري SEAVIEW لتوفير MACSE كمكوِّن إضافي لـ SEAVIEW.


بناء نموذج ترميز البروتين

تتضمن مرحلة بناء النموذج محاذاة متواليات البروتين و cDNA و EST و RNA-seq لتجميع الجينوم. تعتمد الطرق المستخدمة في هذه المرحلة على بيانات الإدخال المتاحة في وقت التعليق التوضيحي. يتم اختيار مجموعات البيانات المدخلة مع الأخذ في الاعتبار المصدر ، مع تفضيل بيانات الأنواع نفسها على البيانات من الأنواع الأخرى ، مع تفضيل التسلسلات المشروحة على التسلسلات المحسوبة. الناتج النهائي لهذا القسم من البناء الجيني عبارة عن مجموعة من قواعد البيانات التي تحتوي على محاذاة التسلسل ومجموعة كبيرة من نماذج نسخ ترميز البروتين المحتملة.

خط الأنابيب المستهدف

يستخدم خط الأنابيب المستهدف (من نفس النوع) تسلسلات بروتين من نفس النوع لتحديد الموقع الجينومي التقريبي للجينات المشفرة للبروتين ، ثم لإنتاج نماذج الترميز باستخدام GeneWise (68). تهدف هذه الطريقة المكونة من خطوتين إلى تسريع العملية عن طريق تقليل مساحة البحث المتاحة لـ GeneWise إلى قسم فرعي من الجينوم ، والذي يشبه تسلسل البروتين الذي يتم محاذاته.

يتم تنزيل تسلسلات البروتين من نفس النوع من UniProt و RefSeq (69) ، بهدف قصرها على مجموعة من تسلسلات الإدخال عالية الثقة. بالنسبة إلى UniProt ، نقوم بتنزيل تسلسلات البروتين Swiss-Prot و TrEMBL المسمى بالمستوى 1 والمستوى PE فقط. تسلسل البروتين. لم يتم تنزيل تسلسلات البروتين المحسوبة RefSeq بما في ذلك & # x02018XP & # x02019 الملحقات. تشكل المجموعة المدمجة من تسلسلات البروتين UniProt و RefSeq التي تم تنزيلها المدخلات لخط الأنابيب المستهدف.

نحدد الموقع الجينومي التقريبي للنصوص عن طريق محاذاة تسلسل البروتين مع الجينوم باستخدام Pmatch (R. Durbin ، برنامج غير منشور) مع عتبة & # x02018-T 14 & # x02019.تشير هذه العتبة إلى عدد الأحماض الأمينية المتتالية التي يجب أن تتطابق تمامًا مع الحمض النووي الجيني ، وهي طريقة فعالة لمحاذاة البروتينات عندما يكون لها هوية عالية للجينوم. من المهم عدم فقد الكثير من متواليات إدخال نفس النوع في هذه المرحلة المبكرة من عملية بناء الجينات. وبالتالي ، إذا لم يقم Pmatch بمحاذاة جميع بروتينات الإدخال ، فسنقوم بعد ذلك بمحاذاة تسلسلات البروتين المتبقية باستخدام Exonerate (70).

ستتوافق كل نتيجة Pmatch مع التسلسل exonic المترجم. يتم تجميع نتائج Pmatch من كل تسلسل بروتين إدخال على طول أطوال التسلسلات الجينية ، باستخدام الوحدة النمطية [يشار إليها أيضًا باسم Runnable (56)] BestPmatch ، بحيث يتوافق النطاق الجيني للنتائج تقريبًا مع موقع بروتين الإدخال & # نسخة x02019s. يتم تمديد النطاق الجينومي الذي تم تحديده بواسطة BestPmatch بمقدار 200 & # x000a0kb في كلا الاتجاهين ويتم تمرير تسلسل الحمض النووي لهذه المنطقة إلى GeneWise ، جنبًا إلى جنب مع تسلسل بروتين الإدخال الأصلي. يقوم GeneWise بمحاذاة تسلسل البروتين مع الحمض النووي باستخدام خوارزمية مدركة للوصل ويولد نموذج نص ترميز البروتين كإخراج.

بالنسبة للإنسان والفأر وأنواع أخرى مختارة ، نقوم بتشغيل GeneWise مرتين على الأقل عبر الجينوم: تتطلب المرة الأولى تضفيرًا بالإجماع والثانية للسماح بمواقع لصق غير متوافقة. في حين أن الربط الإجماعي أكثر شيوعًا من التضفير غير المتوافق ، فإن التشغيل الثاني لـ GeneWise يوفر المرونة لنماذج الترميز تلك مع مواقع لصق حقيقية غير متوافقة ويسمح بمحاذاة تسلسل البروتين في المناطق التي توجد بها أخطاء في التسلسل الجيني. تحتوي بعض النماذج التي تم إنتاجها بواسطة GeneWise على & # x02018frameshift introns & # x02019 من 1 أو 2 أو 4 أو 5 & # x000a0bp طويلة حيث قد تؤدي الأخطاء أو الإدخالات أو الحذف في التسلسل الجينومي إلى تغيير إطار الترجمة. عند ترجمتها من التسلسل الجيني ، فمن المرجح أن يكون تسلسل الترميز لهذه النماذج كامل الطول ، وهو أمر مفيد بشكل خاص في مسودة الجينوم منخفضة الجودة.

في Curwen وآخرون. (48) ، وصفنا تمرير & # x02018MiniSeqs & # x02019 إلى GeneWise. ومع ذلك ، لم نعد نستخدم هذا النهج. نستخدم الآن & # x02018FullSeqs & # x02019 التي تتضمن كل التسلسل الجيني من الأول إلى الأخير لمحاذاة Pmatch لم يعد التسلسل الجيني الجيني إزالته. هذه الطريقة FullSeq ممكنة بسبب زيادة الموارد الحسابية وتحسين برنامج GeneWise. إنه مفضل لأنه يسمح لـ GeneWise بالبحث في التسلسل الجيني الكامل ووضع exons القصير بشكل صحيح ، بينما لم تكن التسلسلات الجينية للإكسونات القصيرة موجودة دائمًا في MiniSeqs.

بالإضافة إلى GeneWise ، نستخدم أيضًا أداة Exonerate & # x02019s cdna2genome (70) لإنشاء نماذج جينية لترميز البروتين. يتم تحقيق ذلك عن طريق تنزيل تسلسلات cDNA التي لها نطاق تسلسل تشفير (CDS) مشروح في سجل INSDC لم يتم استخدام تسلسلات cDNA بدون CDS المشروحة في سجل INSDC في هذه الخطوة. تتميز المحاذاة المجمعة لـ cDNA و CDS المشروح بواسطة Exonerate بميزة إضافة مناطق غير مترجمة (UTRs) إلى نماذج ترميز البروتين في خطوة واحدة ، والتأكد من إضافة UTR الصحيح إلى نموذج ترميز. يتم تشغيل هذه الخطوة فقط لحفنة من الأنواع التي تحتوي على أعداد كبيرة من أزواج البروتينات (كدنا) المشروحة. نظرًا لأن Exonerate تنتج نماذج تشتمل ترجمتها على أكواد الإيقاف ، فإننا نبحث في كل من النماذج الناتجة ونزيل تلك التي تحتوي على أكثر من نقطة توقف داخلية واحدة. بالنسبة للطرز التي تحتوي على كودون توقف داخلي واحد فقط ، يتم تقديم intron صغير لتغيير الإطارات في مكانها.

من طرق GeneWise و Exonerate المتعددة الموصوفة أعلاه ، قد يكون كل تسلسل بروتين أصلي قد أنتج عدة نماذج نسخ ترميز في موقع واحد ، مع هياكل exon مختلفة قليلاً وتسلسلات مترجمة ، اعتمادًا على درجة تطابق تسلسل البروتين مع الجينوم. من أجل تحديد النموذج الذي تتطابق ترجمته بشكل وثيق مع تسلسل الإدخال ، تتم محاذاة الترجمة من كل من هذه النماذج إلى تسلسل البروتين الأصلي بواسطة الوحدة النمطية BestTargeted ، باستخدام Exonerate & # x02019s & # x02018affine: local & # x02019 model. هذه محاذاة محلية تستخدم عقوبة الفجوة الأفينية ، على غرار خوارزمية Smith & # x02013Waterman & # x02013Gotoh (71). لكل تسلسل بروتين أصلي ، يتم تحديد نموذج Ensembl الذي ينتج أعلى درجة Exonerate ليكون الناتج النهائي لخط الأنابيب المستهدف.

خط أنابيب التشابه

كما هو الحال مع خط الأنابيب المستهدف ، فإن الهدف من خط أنابيب التشابه هو تحديد الموقع الجينومي التقريبي لنصوص ترميز البروتين ثم إنتاج نماذج الترميز باستخدام GeneWise. على عكس خط الأنابيب المستهدف ، الذي يقيد مدخلاته على بروتينات من نفس النوع فقط ، يأخذ خط أنابيب التشابه كمدخلات بروتينات UniProt من مجموعة واسعة من الأنواع. هذا النهج مفيد بشكل خاص للأنواع التي لا تحتوي على العديد من البروتينات من نفس النوع المناسب للاستخدام في خط الأنابيب المستهدف مثل الفيل أو سحلية أنول ، ولكنه أقل فائدة للأنواع الموصوفة جيدًا التي تحتوي على العديد من البروتينات في UniProt ، مثل الإنسان والفأر .

تختلف طريقة تقليل مساحة البحث الجينومي التي تم تمريرها إلى GeneWise في خط أنابيب التشابه مقارنة بخط الأنابيب المستهدف. بدلاً من استخدام Pmatch لتحديد الموضع التقريبي لتسلسل البروتين ، نستخدم نتائج UniProt BLAST المنتجة في خط أنابيب الحساب الخام. على الرغم من أن BLAST يتطلب موارد حسابية أكثر من Pmatch للتشغيل ، إلا أنه أكثر تسامحًا مع عدم تطابق التسلسل الذي يحدث عادةً عند محاذاة البروتينات من مجموعة واسعة من الأنواع المستخدمة في خط أنابيب التشابه.

يتم تصنيف نتائج UniProt BLAST أولاً عبر ثلاثة محاور وفقًا للمعلومات المقدمة من UniProt: حسب مستوى PE ، حسب المصدر (Swiss-Prot أو TrEMBL) وحسب التصنيف. يتيح لنا هذا التقسيم لمجموعات UniProt الفرعية تحديد أولويات تسلسلات البروتين التي تمت مراجعتها والتي ترتبط ارتباطًا وثيقًا بالأنواع التي يتم شرحها.

تتم محاذاة بروتينات UniProt التي تم تعيينها إلى تسلسل ببتيد Genscan أثناء خطوة الحسابات الأولية مع التسلسل الجيني الكامل الذي يقوم عليه نموذج Genscan ، مرة أخرى باستخدام BLAST. تسمح هذه الخطوة بتحديد عدد الزيارات خارج exons Genscan. هذه النتائج هي التي تحدد المناطق التي يتم تشغيل GeneWise عليها لاحقًا.

ناتج خط أنابيب التشابه عبارة عن مجموعة من النماذج ، بناءً على تسلسل البروتين من مجموعة متنوعة من الأنواع ، والتي تكمل النماذج التي تم إنشاؤها بالفعل بواسطة خط الأنابيب المستهدف.

خط أنابيب RNA-seq

مع الاعتماد السريع لتسلسل النسخ عالي الإنتاجية (أي RNA-seq) كطريقة تجريبية ، تزداد كمية بيانات التسلسل المكتوبة المتاحة بشكل كبير (72). من المتوقع أن تستمر جودة بيانات التسلسل هذه في الزيادة خلال السنوات القليلة القادمة ، مما يجعلها مورداً قيماً في عملية شرح الجينات.

تتمثل الصعوبة الرئيسية في استخدام القراءات القصيرة للتعليق التوضيحي الجيني في أن الطول الكامل لـ mRNA لا يتم تمثيله في تسلسل واحد متجاور. يجب دمج هذه التسلسلات القصيرة لإنشاء نماذج نصية أطول دون معرفة كاملة بنمط التضفير للإكسونات في كل شكل إسوي معبر. توفر القراءات المزدوجة محاذاة إعلامية أكثر من القراءات الفردية لأن القراءات التي تتم محاذاتها كزوج تتمتع بمستوى ثقة أعلى من المحاذاة بشكل صحيح (73). من الممكن أيضًا أخذ حجم الإدراج المتوقع للقراءات المقترنة في الاعتبار عند التحقق من محاذاةهم. تعد القراءات المتقطعة مفيدة بشكل خاص للحالات التي تتداخل فيها النصوص على خيوط متقابلة ، ويمكن أن يكون تعيين القراءة إلى الخيط الصحيح غامضًا ، على الرغم من أنه بالنسبة للقراءات غير المقيدة ، يمكن تحديد النص & # x02019s بشكل طبيعي من اتجاه مواقع لصق . كانت معظم بيانات RNA-seq التي عملنا معها عبارة عن قراءات نهائية مقترنة لـ 50 قاعدة أو أكثر ، تم إنشاؤها بواسطة آلات Illumina.

نظرًا لأن بيانات القراءة القصيرة لا تسمح بالبناء الواثق لنماذج الربط كاملة الطول ، فإن خط أنابيب Ensembl RNA-seq عادةً ما يتم تكوينه لإنتاج نموذج نص واحد فقط لكل جين كمخرج. يهدف هذا النهج المحافظ إلى منع إدخال هياكل النسخ الخاطئة التي تنتج عن الجمع غير الصحيح بين exons و introns على طول النموذج.

يتم إنتاج النماذج المستندة إلى RNA-seq من عملية محاذاة من خطوتين مع تعديلات طفيفة فقط لتلك التي وصفها Collins وآخرون. (74). أولاً ، تتم محاذاة القراءات الأولية الآن مع الجينوم باستخدام BWA (75). يتم طي هذه المحاذاة لإنشاء كتل محاذاة تتوافق تقريبًا مع exons المكتوبة. ثم يتم استخدام معلومات الاقتران المقروءة لتجميع exons المفترضة في هياكل نسخ تقريبية تسمى النسخ الأولية. في خطوة المحاذاة الثانية ، يتم استخراج القراءات التي تمت محاذاتها جزئيًا بواسطة BWA ومحاذاة النصوص الأولية ، أو بشكل أكثر شيوعًا إلى التسلسل الجيني الأساسي ، باستخدام Exonerate. Exonerate يدرك لصق ، ويوفر محاذاة تسمح لنا باستنتاج الإنترونات. يعد العثور على تقاطعات exon واضحة & # x02013intron تحديًا عندما يتم تسلسل القراءات الأولية من مزيج من النصوص التي تمت معالجتها بالكامل والمعالجة جزئيًا ، والتي يمكن أن تؤدي إلى التعليق التوضيحي على exon واحد طويل وخاطئ يجب أن يكون قد تم شرحه كواحد intron محاط باثنين من exons. تتم إزالة هذه exons الكاذبة عند اكتشافها يتم التعرف عليها من خلال البحث داخل النطاق الجيني لكل exon المفترض للحصول على دليل على القراءات الموصولة. نتيجة خطوة محاذاة Exonerate هي مجموعة من المحاذاة المقسمة التي تمثل introns الكنسي وغير الكنسي. يتم إنشاء نماذج النسخ من خلال الجمع بين المناطق المكتوبة من النصوص الأولية مع المحاذاة المقسمة المرصودة (intronic) لإنشاء جميع الأشكال الإسوية الممكنة للنسخ المشار إليها بواسطة البيانات المحاذاة. عادة ما نقوم بتكوين النظام للاحتفاظ فقط بالشكل الإسوي مع الدعم الأكثر قراءة عبر تقاطعات لصق وإكسوناته.

طول القراءة وعمق التغطية مهمان عند تحديد الإنترونات. عندما تكون تغطية القراءة عالية ، فمن الأرجح أن مجموعة القراءات الأولية تحتوي على تسلسلات يمكن محاذاتها عبر intron. عندما تكون القراءات أطول ، فمن المرجح أن تمتد عبر intron. بعد القراءات المحاذاة عبر كل intron في نص يجعل من الممكن بالنسبة لنا بناء نموذج نص كامل. إذا كانت التغطية منخفضة جدًا ، فقد لا تتم تغطية بعض حدود لصق بواسطة قراءة في مجموعة البيانات الأولية. بدون دعم القراءة ، لن يتم إنشاء هذه الإنترونات في خطوة Exonerate ، والتي يمكن أن تؤدي إلى نماذج مجزأة أو نماذج مع الإنترونات المحتجزة.

ينتج خط أنابيب RNA-seq كلاً من نماذج النسخ المشفرة بالبروتين وغير المشفرة. تتمثل الخطوة الأخيرة في هذه العملية في استخدام بروتينات BLAST UniProt PE 1 و PE 2 مقابل مجموعة نماذج RNA-seq لتحديد نماذج نص ترميز البروتين. عتباتنا القياسية لمحاذاة UniProt هي 80٪ هوية و 80٪ تغطية للتسلسلات.

للقراءات من كل عينة إدخال ، وللمجموعة المدمجة من القراءات من جميع العينات ، يشتمل إخراج خط أنابيب RNA-seq على ملف BAM مفهرس للقراءات المحاذاة بواسطة BWA ، وهي مجموعة من ميزات intron الناتجة عن محاذاة intron-spanning يقرأ مع Exonerate ، ومجموعة من نماذج النسخ. يمكن عرض هذه البيانات على أنها مسارات نسيج منفصلة في متصفح Ensembl. يمكن أيضًا الحصول عليها من خلال واجهة برمجية.

يتم إنتاج نماذج النسخ بشكل منفصل لكل عينة من عينات الأنسجة ، وكذلك للمجموعة المدمجة. غالبًا ما تكون نماذج النسخ من عينة إدخال نسيج واحدة مجزأة أكثر من نماذج النسخ من المجموعة المدمجة. (البيانات الموجودة في المجموعة المدمجة أعمق ، وهذا يسمح باكتشاف المزيد من الوصلات الملصقة وبالتالي يتم ضم المزيد من exons المتتالية لإنتاج نماذج أطول.) لهذا السبب ، يتم استخدام نماذج النسخ الناتجة عن مجموعة القراءات المدمجة فقط. لدمجها في مجموعة الجينات النهائية.

يتم استخدام ميزات Intron من مجموعة القراءات المدمجة لاحقًا في عملية التعليق التوضيحي بواسطة وحدة TranscriptConsensus لتصفية نماذج التشابه (الموضحة أدناه). يمكن استخدام نماذج النسخ من مجموعة القراءات المدمجة لإضافة UTRs إلى النماذج المستهدفة والتشابه ، ويمكن أيضًا تضمينها كجزء من مجموعة الجينات الرئيسية أثناء خط أنابيب LayerAnnotation (كما هو موضح أدناه).

خط أنابيب الانتعاش تقويم العظام

عند إعداد مجموعة من نماذج النسخ الأولية التي تنتجها خطوط أنابيب بناء النموذج ، يمكن استخدام البيانات المقارنة لتقييم اكتمال مجموعة النصوص واستكمال مجموعة النسخ عند الاقتضاء. قد تكون هياكل النسخ غائبة عن مجموعة أولية لعدد من الأسباب ، والأكثر شيوعًا أن التسلسل الجيني مفقود من التجميع أو لأن خطوط الأنابيب المستهدفة والتشابه لم تنتج نموذجًا. بالنسبة للحالة الأخيرة ، قد لا يزال من الممكن شرح النماذج باستخدام خط أنابيب الاسترداد لتقويم العظام. سيحدد خط أنابيب RNA-seq الموصوف أعلاه أيضًا الجينات التي لم يتم العثور عليها بواسطة خطوط الأنابيب المستهدفة والتشابه ، وبالتالي أصبح استخدام خط أنابيب الاسترداد التقويمي أقل شيوعًا منذ أن أصبحت بيانات RNA-seq متاحة على نطاق أوسع.

تم تطوير وحدة OrthologueEvaluator لتحديد نماذج النصوص الإضافية والتعليق عليها بناءً على تقويم العظام. يأخذ OrthologueEvaluator كمدخلات مجموعة النسخ الأولية مع مجموعات الجينات من نوعين على الأقل مشروحين جيدًا ، عادة ما يكونان بشريين وفأر. يتم إنشاء مجموعة من تنبؤات تقويم العظام من خلال أفضل ضربات BLAST المتبادلة عبر مجموعات الإدخال. ثم تُستخدم هذه التنبؤات لملء الفجوات واستكمال النماذج المقتطعة. في كلتا الحالتين ، يتم اختيار تسلسل بروتين Ensembl لأخصائي تقويم العظام من أحد الأنواع المشروحة جيدًا للمحاذاة ، مع Exonerate ، مع الجينوم الذي يتم شرحه. عندما ينشئ Exonerate محاذاة جيدة ، تتم إضافة النموذج الناتج إلى مجموعة النصوص الأولية.

خط أنابيب الإسقاط

تعتمد الخطوات المستهدفة والتشابه على محاذاة تسلسل البروتين الكامل لتسلسل الجينوم. هذه الطريقة غير مناسبة للتجمعات المجزأة منخفضة التغطية حيث يحدث التسلسل الجيني المفقود والتوجهات الخاطئة وحالات الاختلال بشكل متكرر أكثر من مجموعات مسودة الجينوم عالية الجودة. في التجمعات المجزأة ، سيتم تمثيل العديد من الجينات جزئيًا فقط (أو لا يتم تمثيلها على الإطلاق) في التجميع ، وسيتم العثور على العديد من الجينات الأخرى (خاصة تلك الجينات ذات المدى الجيني الكبير) في قطع موزعة عبر أكثر من سقالة واحدة.

من أجل تحسين شرح الجينات على الأنواع ذات التجميعات المجزأة ، قمنا بتطوير منهجية تعتمد على محاذاة جينوم كاملة (WGA) لجينوم مرجعي مشروح & # x02014 عادةً الجينوم البشري. تم استخدام هذه الطريقة ، على النحو التالي ، لتوضيح جميع جينومات الثدييات منخفضة التغطية التي أنتجها مشروع 29 الثدييات (76). لكل من الجينومات المستهدفة ذات التغطية المنخفضة ، تم إنشاء محاذاة الجينوم الكامل بين الجينوم البشري والهدف باستخدام بلاستز (77). تم ربط المجموعة الناتجة من المحاذاة المحلية في سلاسل باستخدام axtTools (78). تم بعد ذلك تطبيق مرشح مخصص للتأكد من أن كل زوج أساسي في الجينوم المستهدف لا يتماشى مع أكثر من موضع واحد في الجينوم البشري. تم استخدام كتلة WGA الكامنة وراء كل بنية جينية مشروحة في الجينوم البشري كدليل لتجميع السقالات من الأنواع المستهدفة والانضمام إليها في & # x02018GeneScaffolds & # x02019 (الشكل 3) التي يمكن أن تحتوي على هياكل جينية كاملة. أنشأ GeneScaffolds المستنتج تجميعًا افتراضيًا أعلى الأنواع المستهدفة & # x02019 التجميع الأساسي. بعد ذلك ، تم عرض الجينات من الجينوم البشري & # x02018 & # x02019 (نسخ) وصولاً إلى الجينوم المستهدف. في المناطق التي يشير فيها WGA إلى أن المجموعة المستهدفة كانت تفتقد التسلسل الجيني الذي يحتوي على exon الداخلي ، تم وضع exon المتوقع في تسلسل الفجوة. نتج عن ذلك سلسلة من Xs تقابل طول الترجمة المتوقعة. أدى إنشاء GeneScaffolds إلى تغيير مجموعة متواليات المستوى الأعلى التي تم تحميلها في البداية في قاعدة بيانات Ensembl ، لذلك تم إجراء تحليلات الحساب الأولية عبر GeneScaffolds الجديدة. لم تعد تُستخدم هذه الطريقة لتعديل تسلسلات المستوى الأعلى لأنها ستعيق التنقل بين Ensembl ومتصفحات الجينوم الأخرى مثل UCSC و NCBI.

إسقاط الإنسان FGF10 إلى الألبكة. ال FGF10 تم شرح الجين في الألبكة عن طريق محاذاة التجميعات البشرية والألبكة باستخدام BLASTz ، ثم إسقاط (نسخ) الجين البشري على جينوم الألبكة. تم إنشاء هيكل جديد ، GeneScaffold_2975 ، في تجميع الألبكة من خلال الجمع بين السقالات الأقصر التي تتماشى مع المنطقة البشرية التي تحتوي على FGF10 الجين.

تم تطبيق طريقة محاذاة الجينوم الكامل وإسقاط الشرح من الجينوم البشري إلى التجميع المستهدف أيضًا على الرئيسيات الأعلى. ومع ذلك ، لم يكن إنشاء GeneScaffolds ضروريًا لأن التجمعات الرئيسية كانت ذات جودة أفضل أو تم إنشاؤها باستخدام معلومات الترتيب والتوجيه من التجمع البشري.

توسيع نماذج ترميز البروتين إلى UTRs الخاصة بهم

لن تحتوي نماذج ترميز البروتين التي تم إنشاؤها من محاذاة البروتين إلى الجينوم في خطوط أنابيب الاسترداد المستهدفة والتشابه وتقويم العظام على تعليقات UTR. من ناحية أخرى ، لا تتطلب النماذج المستهدفة التي تنتجها Exonerate & # x02019s cdna2genome امتداد UTR لأنها تستند إلى محاذاة cDNA وستحتوي بالفعل على UTRs مشروحة.

يمكن استخدام النماذج المصنوعة من تسلسل RNA-seq أو cDNA أو EST لإضافة UTRs إلى نماذج الترميز. لقد وصفنا بالفعل خط أنابيب RNA-seq وكيف يتم إنشاء هذه النماذج. بالنسبة لـ cDNAs ، يتم إنشاء النماذج عن طريق محاذاة تسلسل (كدنا) إلى الجينوم المقنع الناعم باستخدام Exonerate. يتم محاذاة ESTs بنفس طريقة cDNAs ، ويتم طي هذه المحاذاة في نماذج باستخدام EST2genes أو وحدات TranscriptCoalescer. تجمع هاتان الوحدتان بين محاذاة EST المقسمة في هياكل نصية أطول.

الجودة المتغيرة لبيانات EST ، والتي تأتي غالبًا من مختبرات متعددة باستخدام بروتوكولات مختلفة ، تجعل التسلسل من الصعب دمجها في نظام التعليق التوضيحي الذي يتوقع أن تكون البيانات عالية الجودة باستمرار. لا نستخدم نماذج EST لإضافة UTR ما لم يكن للأنواع عدد كبير من تسلسلات EST وقليل جدًا من بيانات cDNA أو RNA-seq.

تجتاز وحدة UTR_Builder كل تسلسل رفيع المستوى وتحدد نماذج ترميز البروتين التي تتداخل مع نماذج RNA-seq أو cDNA أو EST. عندما تتم مطابقة حدود البداية والنهاية لأول intron لنموذج تشفير البروتين بواسطة بنية RNA-seq أو cDNA أو EST ، يمكن استخدام دليل التسلسل هذا لإضافة UTR في نهاية 5-Prime. تنطبق نفس القاعدة على آخر intron من نموذج ترميز البروتين عند إضافة UTR 3-Prime. بالنسبة لنصوص exon المفردة ، يجب أن تقع بداية ونهاية exon ضمن دليل التسلسل المقابل من أجل إضافة UTR. عندما لا تبدأ الترجمة بالميثيونين ، يتم البحث في UTR قبل CDS عن أول ميثيونين داخل الإطار. وبالمثل ، عندما لا تنتهي الترجمة برمز توقف ، يتم البحث في UTR حتى 150 قاعدة في اتجاه مجرى CDS لأول كودون توقف داخل الإطار.

توفر CAGE (79) وعلامات النهاية المقترنة (ditags) (80) معلومات حول مواضع بداية النسخ ونهايته. لقد قمنا بتكييف خط أنابيب UTR الخاص بنا للاستفادة من هذه البيانات لتحديد حدود UTR بدقة أكبر. تتم مقارنة المواقع الجينومية لعلامات CAGE وعلامات ditags مع نماذج cDNA ، والتي تسمح بتسجيل كل إقران محتمل لنموذج البروتين إلى cDNA.تعطي الوحدة النمطية UTR_Builder الأولوية لنموذج cDNA مع دعم معظم CAGE و ditag. تم تطبيق هذا في الإنسان والفأر حيث تتوفر بيانات التسلسل العميق.

ناتج خطوة UTR_Builder عبارة عن مجموعة محدثة من نماذج نص ترميز البروتين التي تم تمديدها لتشمل UTRs حيث كان الدليل متاحًا (الشكل 4). يتم استخدام نماذج cDNA و EST في خطوات التصفية لاحقًا ويتم عرضها أيضًا على موقع الويب جنبًا إلى جنب مع ESTgenes.

نماذج نماذج النسخ مع الأدلة الداعمة للمناطق غير المترجمة (UTRs). يوضح هذا الشكل نماذج نصية من HAVANA (أصفر) و Ensembl (أحمر) متوافقة مع الأدلة الداعمة من cDNAs (أخضر) و ESTs (أرجواني) وبروتينات (برتقالية). تتوافق الألوان الداكنة في المحاذاة مع exons. تمثل المربعات غير المعبأة في نهايات النصوص UTRs. يأتي دعم UTRs من cDNAs و ESTs المتوافقة ولكن ليس من البروتينات.

أنواع خاصة من جينات ترميز البروتين

تخلق عملية شرح الجين المرمز للبروتين الموصوفة أعلاه نماذج جينية عالية الجودة في معظم أنحاء الجينوم. تعتمد عملية التعليق التوضيحي على محاذاة تسلسل البروتين مع الجينوم وهي مناسبة لمعظم جينات ترميز البروتين.

ومع ذلك ، هناك أنواع معينة من جينات ترميز البروتين ، حيث لا يكون النهج أعلاه مناسبًا. وتشمل هذه جينات الغلوبولين المناعي / مستقبلات الخلايا التائية والبروتينات السلينوبرية. لقد طورنا أساليب منفصلة لتحسين التعليقات التوضيحية لكلتا الحالتين.

الغلوبولين المناعي ومستقبلات الخلايا التائية

يصعب شرح مجموعات مستقبلات الغلوبولين المناعي / الخلايا التائية لأن المنطقة الجينومية الأساسية تخضع لإعادة التركيب الجسدي. تجمع عملية إعادة ترتيب الجينوم هذه بين جينات متعددة من الكتلة & # x02014 المعروفة باسم الجينات المتغيرة (V) والثابتة (C) والمتنوعة (D) والالتحاق (J) & # x02014 عن طريق استئصال الحمض النووي المتداخل. ينتج عن هذا تسلسل جين وظيفي للجلوبيولين المناعي يشفر مستقبلات الغلوبولين المناعي / الخلايا التائية الكاملة.

نهدف إلى إضافة تعليق توضيحي على جينات V و D و J و C. ومع ذلك ، فإن العديد من سجلات البروتينات في UniProt و cDNAs في ENA هي منتجات كاملة الطول من النصوص المعبر عنها بعد أحداث إعادة التركيب الجسدية المرتبطة V (D) J. يحتوي كل سجل من هذه السجلات على تسلسل لجينات متعددة ، والتي يجب فصلها لإنشاء التعليق التوضيحي الصحيح.

غالبًا ما يتم توقع حدود الجينات V و D و J و C بشكل غير صحيح عند محاذاتها مرة أخرى إلى الجينوم المرجعي غير المعاد ترتيبه باستخدام برنامج محاذاة التقسيم مثل GeneWise أو Exonerate. هذا لأن الوصلات لا يتم إنشاؤها بواسطة آلية الربط القياسية ، وبالتالي لا تعرض إشارات الربط القياسية.

تم تحسين التعليقات التوضيحية لمستقبلات الخلايا التائية وجينات الغلوبولين المناعي للإنسان والفأر من خلال التعاون مع المعلقين الآخرين الذين يساهمون في نظام معلومات الوراثة المناعية الدولي (IMGT) (81). تحتوي قاعدة البيانات هذه على شروح للجينات الفردية على إدخالات مرجع الحمض النووي الريبي والجينومي. يتم محاذاة جينات IMGT مع الجينوم باستخدام Exonerate ثم يتم دمجها مع التعليقات التوضيحية للجينات. تتم إزالة نماذج النسخ الحالية التي تتداخل على مستوى exon مع جينات IMGT المتوافقة.

سيلينوبروتينات

يتم ترميز Selenocysteines بواسطة UGA ، أحد الكودونات الثلاثة المسؤولة عن إنهاء الترجمة. لتمثيل هذه الكودونات على أنها ترميز سيلينوسيستين بدلاً من أكواد الإيقاف ، نقوم بمحاذاة سجلات UniProt مع علامة & # x02018SEL_CYS & # x02019 إلى الجينوم باستخدام Exonerate. ثم يتم استبدال أكواد الإيقاف في المواضع ذات الصلة المحددة بواسطة هذه السجلات بمخلفات سيلينوسيستين.


علم تقويم العظام هو مفهوم تطوري رئيسي في العديد من مجالات البحث الجينومي. يوفر إطارًا لموضوعات متنوعة مثل تطور الجينومات ووظائف الجينات والشبكات الخلوية وتعليقات الجينوم الوظيفية. على الرغم من أن البروتينات المتعامدة عادةً ما تؤدي وظائف مكافئة في الأنواع المختلفة ، إلا أن إنشاء علاقات تقويمية حقيقية يتطلب نهجًا نسبيًا ، والذي يجمع بين الأشجار والرسوم البيانية (الشبكات) باستخدام سلالة الأنواع الموثوقة والبيانات الجينومية المتاحة من أكثر من نوعين ، ونظرة ثاقبة على عمليات التطور الجزيئي. هنا ، نقوم بتقييم أدوات المعلوماتية الحيوية المتاحة ونقدم مجموعة من الإرشادات لمساعدة الباحثين في اختيار الأداة الأنسب لأي موقف.

نحن نستخدم ملفات تعريف الارتباط للمساعدة في تقديم وتحسين خدماتنا وتخصيص المحتوى والإعلانات. من خلال الاستمرار فإنك توافق على استخدام ملفات تعريف الارتباط .


الملخص

ال WFDC1 غالبًا ما يتم تنظيم الجين أو فقده في سرطان البروستاتا ، وقد تورط البروتين المشفر ، ps20 ، في سلوك الخلايا الظهارية وتكوين الأوعية. ومع ذلك ، تظل ps20 غير معهود إلى حد كبير فيما يتعلق بهيكلها وشركائها المتفاعلين. وصفت هذه الدراسة التطور والوظيفة والخصائص الهيكلية لـ WFDC1 / ps20 باستخدام إعادة بناء النشوء والتطور والنهج الحسابية الأخرى. اقترحت تحليلات علم الوراثة البايزية أن ps20 ظهر في سلف مشترك للديوتوستومات-البروتستومات. اختلف معدل التغيير التطوري داخل مناطق الترميز لجينات WFDC1 الفقارية والحفاظ على التخليق في الثدييات عن تلك الموجودة في مجموعات الفقاريات الأخرى ، مما يشير إلى تنوع وظيفي محتمل لمتجانسات ps20. أظهر تحليل تخصيب مجموعة الجينات للجينات حول WFDC1 (التخليق المحفوظ) علاقات وظيفية بين جينات WFDC1 و CDH13 و CRISPLD2 و IRF8 و TFPI2. كان التطور الجزيئي لـ ps20 مدفوعًا بتنقية الانتقاء ، خاصة في المقاطع المقابلة للإكسونات 3 و 4 ، والتي تشفر أكثر المناطق المحفوظة من البروتين. أظهر تحليل التطور المشترك أن البقايا داخل هذه المناطق تتفاوت مع بعضها البعض أثناء تطور ps20. توضح هذه النتائج أن المناطق المقابلة لـ exons 3 و 4 هي وحدات وظيفية هيكلية خاصة بـ ps20. أظهرت نمذجة التناسق لعديد الببتيد المشفر exon 2 وحساب الديناميكيات اللاحقة باستخدام نموذج شبكة Gaussian أن البقايا ذات المرونة التوافقية العالية هي جزء من منطقة حلقة تشارك في التعرف على البروتين والبروتين ، بالنظر إلى التشابه مع مثبطات الأنزيم البروتيني السيرين الأخرى. تعتبر المخلفات C96 و R94 و L105 و C66 ضرورية لسلامة ووظائف منطقة ps20 هذه.


محتويات

إذا كان هناك تسلسلان في المحاذاة يشتركان في سلف مشترك ، فيمكن تفسير حالات عدم التطابق على أنها طفرات نقطية وفجوات على أنها طفرات إندل (أي طفرات إدراج أو حذف) تم إدخالها في أحد السلالتين أو كليهما في الوقت الذي تباعدا فيه عن بعضهما البعض. في المحاذاة المتسلسلة للبروتينات ، يمكن تفسير درجة التشابه بين الأحماض الأمينية التي تشغل موقعًا معينًا في التسلسل على أنها مقياس تقريبي لكيفية الحفاظ على منطقة معينة أو نموذج تسلسل بين السلالات. يشير غياب البدائل ، أو وجود بدائل محافظة جدًا (أي استبدال الأحماض الأمينية التي تتمتع سلاسلها الجانبية بخصائص كيميائية حيوية مماثلة) في منطقة معينة من التسلسل ، [3] إلى أن هذه المنطقة لها أهمية هيكلية أو وظيفية . على الرغم من أن قواعد النوكليوتيدات DNA و RNA أكثر تشابهًا مع بعضها البعض من الأحماض الأمينية ، إلا أن حفظ أزواج القواعد يمكن أن يشير إلى دور وظيفي أو هيكلي مماثل.

يمكن محاذاة التسلسلات القصيرة جدًا أو المتشابهة جدًا يدويًا. ومع ذلك ، فإن معظم المشاكل المثيرة للاهتمام تتطلب محاذاة متواليات طويلة ومتغيرة للغاية أو عديدة للغاية والتي لا يمكن محاذاتها بالجهد البشري فقط. بدلاً من ذلك ، يتم تطبيق المعرفة البشرية في بناء الخوارزميات لإنتاج محاذاة تسلسل عالية الجودة ، وأحيانًا في تعديل النتائج النهائية لتعكس الأنماط التي يصعب تمثيلها خوارزميًا (خاصة في حالة تسلسل النوكليوتيدات). تنقسم المناهج الحسابية لمحاذاة التسلسل عمومًا إلى فئتين: التحالفات العالمية و التحالفات المحلية. يعد حساب المحاذاة العامة أحد أشكال التحسين العام الذي "يفرض" المحاذاة على امتداد الطول الكامل لجميع تسلسلات الاستعلام. على النقيض من ذلك ، تحدد المحاذاة المحلية مناطق التشابه ضمن تسلسلات طويلة والتي غالبًا ما تكون متباينة على نطاق واسع بشكل عام. غالبًا ما تكون المحاذاة المحلية مفضلة ، ولكن قد يكون حسابها أكثر صعوبة بسبب التحدي الإضافي المتمثل في تحديد مناطق التشابه. [4] تم تطبيق مجموعة متنوعة من الخوارزميات الحسابية على مشكلة محاذاة التسلسل. وتشمل هذه الأساليب البطيئة ولكنها صحيحة رسميًا مثل البرمجة الديناميكية. وتشمل هذه أيضًا خوارزميات إرشادية فعالة أو طرق احتمالية مصممة للبحث في قاعدة البيانات على نطاق واسع ، والتي لا تضمن العثور على أفضل التطابقات.

يتم تمثيل المحاذاة بشكل شائع في شكل رسوم بيانية وفي تنسيق نصي. في جميع تمثيلات محاذاة التسلسل تقريبًا ، تتم كتابة التسلسلات في صفوف مرتبة بحيث تظهر المخلفات المحاذية في أعمدة متتالية. في تنسيقات النص ، تتم الإشارة إلى الأعمدة المتوافقة التي تحتوي على أحرف متطابقة أو متشابهة بنظام رموز الحفظ. كما في الصورة أعلاه ، يتم استخدام علامة النجمة أو رمز الأنبوب لإظهار الهوية بين عمودين ، وتشمل الرموز الأخرى الأقل شيوعًا علامة النقطتين للاستبدالات المحافظة وفترة الاستبدالات شبه المحافظة. تستخدم العديد من برامج تصور التسلسل أيضًا اللون لعرض معلومات حول خصائص عناصر التسلسل الفردية في تسلسل الحمض النووي الريبي والحمض النووي الريبي ، وهذا يعادل تخصيص لون لكل نوكليوتيد خاص به. في محاذاة البروتين ، مثل تلك الموجودة في الصورة أعلاه ، غالبًا ما يستخدم اللون للإشارة إلى خصائص الأحماض الأمينية للمساعدة في الحكم على الحفاظ على استبدال حمض أميني معين. بالنسبة للتسلسلات المتعددة ، غالبًا ما يكون الصف الأخير في كل عمود هو تسلسل الإجماع الذي يتم تحديده بواسطة المحاذاة ، وغالبًا ما يتم تمثيل تسلسل الإجماع أيضًا في تنسيق رسومي مع شعار تسلسل يتوافق فيه حجم كل حرف نيوكليوتيد أو حرف من الأحماض الأمينية مع درجة حفظه. [5]

يمكن تخزين محاذاة التسلسل في مجموعة متنوعة من تنسيقات الملفات النصية ، والتي تم تطوير العديد منها في الأصل بالتزامن مع برنامج محاذاة معين أو تنفيذ. تسمح معظم الأدوات المستندة إلى الويب بعدد محدود من تنسيقات الإدخال والإخراج ، مثل تنسيق FASTA وتنسيق GenBank ولا يمكن تحرير المخرجات بسهولة. تتوفر العديد من برامج التحويل التي توفر واجهات رسومية و / أو سطر أوامر [ رابط معطل ] ، مثل READSEQ و EMBOSS. هناك أيضًا العديد من حزم البرمجة التي توفر وظيفة التحويل هذه ، مثل BioPython و BioRuby و BioPerl. تستخدم ملفات SAM / BAM تنسيق سلسلة CIGAR (تقرير المحاذاة الفردية المدمجة) لتمثيل محاذاة تسلسل إلى مرجع عن طريق تشفير سلسلة من الأحداث (مثل التطابق / عدم التطابق ، والإدخالات ، والحذف). [6]

تحرير تنسيق السيجار

المرجع. : GTCGTAGAATA
قراءة: CACGTAG — TA
السيجار: 2S5M2D2M حيث:
2S = 2 قصاصة ناعمة (يمكن أن تكون غير متطابقة ، أو قراءة أطول من التسلسل المطابق)
5 م = 5 مباريات أو عدم تطابق
2D = 2 حذف
2M = 2 تطابق أو عدم تطابق

لم يميز تنسيق CIGAR الأصلي من برنامج المحاذاة exonerate بين عدم التطابق أو التطابق مع الحرف M.

يحدد مستند مواصفات SAMv1 رموز CIGAR الأحدث. في معظم الحالات ، يُفضل استخدام الحرفين "=" و "X" للإشارة إلى التطابقات أو عدم التطابق بدلاً من الحرف "M" الأقدم ، وهو أمر غامض.

  • يشير "استعلام الاستهلاك" و "يستهلك المرجع" إلى ما إذا كانت عملية CIGAR تتسبب في أن تسير المحاذاة على طول تسلسل الاستعلام والتسلسل المرجعي على التوالي.
  • يمكن أن تكون H موجودة فقط كعملية أولى و / أو أخيرة.
  • قد يكون لدى S فقط عمليات H بينها وبين نهايات سلسلة CIGAR.
  • من أجل محاذاة mRNA إلى الجينوم ، تمثل عملية N إنترون. بالنسبة للأنواع الأخرى من المحاذاة ، لم يتم تعريف تفسير N.
  • يجب أن يساوي مجموع أطوال عمليات M / I / S / = / X طول SEQ

تعد المحاذاة العامة ، التي تحاول محاذاة كل بقايا في كل تسلسل ، مفيدة للغاية عندما تكون التسلسلات في مجموعة الاستعلام متشابهة ومتساوية الحجم تقريبًا. (هذا لا يعني أن المحاذاة العالمية لا يمكن أن تبدأ و / أو تنتهي في فجوات.) تقنية المحاذاة العامة العامة هي خوارزمية Needleman-Wunsch ، والتي تعتمد على البرمجة الديناميكية. تعد المحاذاة المحلية أكثر فائدة للتسلسلات غير المتشابهة التي يشتبه في احتوائها على مناطق متشابهة أو أشكال تسلسلية مماثلة ضمن سياق التسلسل الأكبر. تعد خوارزمية Smith-Waterman طريقة محاذاة محلية عامة تعتمد على نفس مخطط البرمجة الديناميكي ولكن مع خيارات إضافية للبدء والانتهاء في أي مكان. [4]

الطرق الهجينة ، والمعروفة باسم شبه العالمية أو "جلوكال" (اختصار لـ gloبال لوكال) ، ابحث عن أفضل محاذاة جزئية ممكنة للتسلسلين (بمعنى آخر ، مزيج من أحد البدايتين أو كليهما ويذكر أن أحد الطرفين أو كلاهما محاذي). يمكن أن يكون هذا مفيدًا بشكل خاص عندما يتداخل الجزء السفلي من تسلسل واحد مع الجزء العلوي من التسلسل الآخر. في هذه الحالة ، لا تكون المحاذاة العالمية أو المحلية مناسبة تمامًا: ستحاول المحاذاة العالمية إجبار المحاذاة على التوسع إلى ما وراء منطقة التداخل ، في حين أن المحاذاة المحلية قد لا تغطي منطقة التداخل بالكامل. [7] هناك حالة أخرى يكون فيها المحاذاة شبه العامة مفيدة عندما يكون أحد التسلسل قصيرًا (على سبيل المثال تسلسل جيني) والآخر طويل جدًا (على سبيل المثال تسلسل كروموسوم). في هذه الحالة ، يجب أن يكون التسلسل القصير محاذيًا بشكل عام (تمامًا) ولكن فقط المحاذاة المحلية (الجزئية) مطلوبة للتسلسل الطويل.

التوسع السريع في البيانات الجينية يتحدى سرعة خوارزميات محاذاة تسلسل الحمض النووي الحالية. تتطلب الاحتياجات الأساسية لطريقة فعالة ودقيقة لاكتشاف متغير الحمض النووي مناهج مبتكرة للمعالجة المتوازية في الوقت الفعلي. تم اقتراح مناهج الحوسبة الضوئية كبدائل واعدة للتطبيقات الكهربائية الحالية ، ومع ذلك يظل قابليتها للتطبيق قيد الاختبار [1].

تُستخدم طرق محاذاة التسلسل الزوجي للعثور على أفضل محاذاة متعددة العناصر (محلية أو عامة) لتسلسل استعلام. لا يمكن استخدام المحاذاة الزوجية إلا بين تسلسلين في وقت واحد ، ولكنها فعالة في الحساب وغالبًا ما تستخدم للطرق التي لا تتطلب دقة قصوى (مثل البحث في قاعدة بيانات عن تسلسلات ذات تشابه كبير مع استعلام). الطرق الأساسية الثلاثة لإنتاج المحاذاة الزوجية هي طرق المصفوفة النقطية ، والبرمجة الديناميكية ، وطرق الكلمات [1] ومع ذلك ، يمكن لتقنيات محاذاة التسلسل المتعددة أيضًا محاذاة أزواج من التسلسلات. على الرغم من أن كل طريقة لها نقاط قوتها وضعفها الفردي ، إلا أن الطرق الزوجية الثلاثة تواجه صعوبة في التكرارات العالية لمحتوى المعلومات المنخفض - خاصةً عندما يختلف عدد التكرارات في التسلسلين المطلوب محاذاته.

أقصى حد تحرير المطابقة الفريدة

إحدى الطرق لتحديد فائدة محاذاة زوجية معينة هي "التطابق الفريد الأقصى" (MUM) ، أو أطول سلسلة لاحقة تحدث في كلا تسلسل الاستعلام. تعكس تسلسلات MUM الأطول عادةً ارتباطًا أوثق. [8] في محاذاة التسلسل المتعدد للجينومات في علم الأحياء الحسابي. يعد تحديد MUMs والمثبتات المحتملة الأخرى الخطوة الأولى في أنظمة المحاذاة الأكبر مثل MUMmer. المراسي هي المناطق الواقعة بين جينومين متشابهين للغاية. لفهم ماهية MUM ، يمكننا تفصيل كل كلمة في الاختصار. التطابق يعني أن السلسلة الفرعية تحدث في كلا التسلسلين المراد محاذاتها. يعني الفريد أن السلسلة الفرعية تحدث مرة واحدة فقط في كل تسلسل. أخيرًا ، يشير الحد الأقصى إلى أن السلسلة الفرعية ليست جزءًا من سلسلة أكبر أخرى تفي بالمتطلبات السابقة. الفكرة وراء ذلك ، هي أن التسلسلات الطويلة التي تتطابق تمامًا وتحدث مرة واحدة فقط في كل جينوم هي بالتأكيد جزء من المحاذاة العالمية.

  • إنه الحد الأقصى ، أي أنه لا يمكن تمديده على أي من الطرفين دون تكبد عدم تطابق و
  • إنه فريد في كلا التسلسلين "[9]

طرق المصفوفة النقطية تحرير

نهج المصفوفة النقطية ، الذي ينتج ضمنيًا مجموعة من المحاذاة لمناطق التسلسل الفردية ، نوعيًا وبسيطًا من الناحية المفاهيمية ، على الرغم من أنه يستغرق وقتًا طويلاً للتحليل على نطاق واسع. في حالة عدم وجود ضوضاء ، يمكن أن يكون من السهل التعرف بصريًا على ميزات تسلسل معينة - مثل عمليات الإدراج أو الحذف أو التكرارات أو التكرارات المعكوسة - من مخطط مصفوفة نقطية. لإنشاء مخطط مصفوفة نقطية ، تتم كتابة التسلسلين على طول الصف العلوي والعمود الموجود في أقصى اليسار من مصفوفة ثنائية الأبعاد ويتم وضع نقطة في أي نقطة حيث تتطابق الأحرف في الأعمدة المناسبة - وهذا مخطط تكرار نموذجي. تختلف بعض التطبيقات في حجم أو شدة النقطة اعتمادًا على درجة التشابه بين الحرفين ، لاستيعاب البدائل المتحفظة. ستظهر المخططات النقطية للتسلسلات وثيقة الصلة بخط واحد على طول القطر الرئيسي للمصفوفة.

تتضمن المشكلات المتعلقة بالمخططات النقطية كتقنية لعرض المعلومات ما يلي: الضجيج ، ونقص الوضوح ، وعدم الحدس ، وصعوبة استخراج إحصائيات ملخص المطابقة ومواضع المطابقة على التسلسلين. هناك أيضًا مساحة ضائعة كبيرة حيث يتم تكرار بيانات المطابقة بطبيعتها عبر القطر ويتم شغل معظم المساحة الفعلية للمخطط بواسطة مساحة فارغة أو ضوضاء ، وأخيراً ، تقتصر مخططات النقاط على تسلسلين. لا تنطبق أي من هذه القيود على مخططات محاذاة Miropeats ولكن لها عيوبها الخاصة.

يمكن أيضًا استخدام المخططات النقطية لتقييم التكرار في تسلسل واحد. يمكن رسم تسلسل مقابل نفسه وستظهر المناطق التي تشترك في أوجه تشابه كبيرة كخطوط خارج القطر الرئيسي. يمكن أن يحدث هذا التأثير عندما يتكون البروتين من عدة مجالات هيكلية متشابهة.

البرمجة الديناميكية تحرير

يمكن تطبيق تقنية البرمجة الديناميكية لإنتاج محاذاة عالمية عبر خوارزمية Needleman-Wunsch ، والمحاذاة المحلية عبر خوارزمية Smith-Waterman. في الاستخدام النموذجي ، تستخدم محاذاة البروتين مصفوفة الاستبدال لتعيين درجات لمطابقات الأحماض الأمينية أو عدم التطابق ، وعقوبة فجوة لمطابقة حمض أميني في تسلسل واحد مع فجوة في الآخر. قد تستخدم محاذاة الحمض النووي والحمض النووي الريبي مصفوفة التهديف ، ولكن في الممارسة العملية غالبًا ما تقوم ببساطة بتعيين نتيجة مطابقة إيجابية ، ودرجة عدم تطابق سلبية ، وعقوبة فجوة سلبية. (في البرمجة الديناميكية القياسية ، تكون درجة كل موضع من مواقع الأحماض الأمينية مستقلة عن هوية جيرانها ، وبالتالي لا تؤخذ تأثيرات التراص الأساسية في الاعتبار. ومع ذلك ، من الممكن حساب هذه التأثيرات عن طريق تعديل الخوارزمية). الامتداد الشائع لتكاليف الفجوة الخطية القياسية ، هو استخدام جزأين مختلفين للفجوة لفتح فجوة ولتوسيع فجوة. عادةً ما يكون الأول أكبر بكثير من الأخير ، على سبيل المثال -10 للفتحة المفتوحة و -2 لتمديد الفجوة. وبالتالي ، عادةً ما يتم تقليل عدد الفجوات في المحاذاة ويتم الاحتفاظ بالمخلفات والفجوات معًا ، وهو ما يكون عادةً أكثر منطقية من الناحية البيولوجية. تقوم خوارزمية Gotoh بتنفيذ تكاليف الفجوة باستخدام ثلاث مصفوفات.

يمكن أن تكون البرمجة الديناميكية مفيدة في محاذاة النوكليوتيدات مع تسلسل البروتين ، وهي مهمة معقدة بسبب الحاجة إلى مراعاة طفرات تغيير الإطارات (عادةً عمليات الإدراج أو الحذف). تنتج طريقة البحث عن الإطارات سلسلة من المحاذاة الزوجية العامة أو المحلية بين تسلسل نيوكليوتيدات الاستعلام ومجموعة بحث من متواليات البروتين ، أو العكس.إن قدرتها على تقييم انزياح الإطارات الذي يقابله عدد تعسفي من النيوكليوتيدات تجعل الطريقة مفيدة للتسلسلات التي تحتوي على أعداد كبيرة من indels ، والتي قد يكون من الصعب جدًا مواءمتها مع طرق إرشادية أكثر كفاءة. في الممارسة العملية ، تتطلب الطريقة كميات كبيرة من قوة الحوسبة أو نظامًا تخصص هندسته المعمارية للبرمجة الديناميكية. توفر مجموعات BLAST و EMBOSS أدوات أساسية لإنشاء محاذاة مترجمة (على الرغم من أن بعض هذه الأساليب تستفيد من الآثار الجانبية لقدرات البحث المتسلسل للأدوات). تتوفر طرق أكثر عمومية من البرامج مفتوحة المصدر مثل GeneWise.

طريقة البرمجة الديناميكية مضمونة للعثور على محاذاة مثالية في ضوء وظيفة تسجيل معينة ، ومع ذلك ، فإن تحديد وظيفة تسجيل النتائج الجيدة غالبًا ما يكون مسألة تجريبية وليست نظرية. على الرغم من أن البرمجة الديناميكية قابلة للتوسيع لأكثر من تسلسلين ، إلا أنها بطيئة للغاية بالنسبة لعدد كبير من التسلسلات أو التسلسلات الطويلة للغاية.

طرق تحرير الكلمات

طرق الكلمات ، والمعروفة أيضًا باسم كالطرق المزدوجة ، هي طرق إرشادية غير مضمونة للعثور على حل محاذاة مثالي ، ولكنها أكثر كفاءة بشكل ملحوظ من البرمجة الديناميكية. هذه الطرق مفيدة بشكل خاص في عمليات البحث في قواعد البيانات واسعة النطاق حيث من المفهوم أن نسبة كبيرة من التسلسلات المرشحة لن يكون لها أساسًا تطابق كبير مع تسلسل الاستعلام. تشتهر طرق Word بتنفيذها في أدوات البحث في قاعدة البيانات FASTA وعائلة BLAST. [1] تحدد طرق Word سلسلة من التتابعات القصيرة غير المتداخلة ("الكلمات") في تسلسل الاستعلام والتي يتم مطابقتها بعد ذلك مع تسلسل قاعدة بيانات المرشح. يتم طرح المواضع النسبية للكلمة في التسلسلين اللذين تتم مقارنتهما للحصول على الإزاحة وهذا سيشير إلى منطقة المحاذاة إذا كانت الكلمات المميزة المتعددة تنتج نفس الإزاحة. فقط إذا تم اكتشاف هذه المنطقة ، فهل تطبق هذه الطرق معايير محاذاة أكثر حساسية ، وبالتالي ، يتم التخلص من العديد من المقارنات غير الضرورية مع التسلسلات التي لا تشابه ملحوظة.

في طريقة FASTA ، يحدد المستخدم قيمة ك لاستخدامه على أنه طول الكلمة للبحث في قاعدة البيانات. الطريقة أبطأ ولكنها أكثر حساسية عند القيم الأقل من ك، والتي تُفضل أيضًا لعمليات البحث التي تتضمن تسلسل استعلام قصير جدًا. توفر عائلة أساليب البحث بلاست عددًا من الخوارزميات المحسّنة لأنواع معينة من الاستعلامات ، مثل البحث عن تطابقات التسلسل ذات الصلة البعيدة. تم تطوير BLAST لتوفير بديل أسرع لـ FASTA دون التضحية بالكثير من الدقة مثل FASTA ، يستخدم BLAST بحثًا عن الطول ك، ولكن يقيم فقط أهم الكلمات المطابقة ، بدلاً من مطابقة كل كلمة كما يفعل FASTA. تستخدم معظم تطبيقات BLAST طول الكلمة الافتراضي الثابت الذي تم تحسينه للاستعلام ونوع قاعدة البيانات ، والذي يتم تغييره فقط في ظل ظروف خاصة ، مثل عند البحث بتسلسلات استعلام متكررة أو قصيرة جدًا. يمكن العثور على التطبيقات عبر عدد من بوابات الويب ، مثل EMBL FASTA و NCBI BLAST.

تعد محاذاة التسلسل المتعدد امتدادًا للمحاذاة الزوجية لتضمين أكثر من تسلسلين في وقت واحد. تحاول طرق المحاذاة المتعددة محاذاة كل التسلسلات في مجموعة استعلام معينة. غالبًا ما تُستخدم المحاذاة المتعددة في تحديد مناطق التسلسل المحفوظة عبر مجموعة من التسلسلات التي يُفترض أنها مرتبطة تطوريًا. يمكن استخدام أشكال التسلسل المحفوظة هذه بالاقتران مع المعلومات الهيكلية والميكانيكية لتحديد المواقع النشطة التحفيزية للأنزيمات. تستخدم المحاذاة أيضًا للمساعدة في إقامة علاقات تطورية من خلال بناء أشجار النشوء والتطور. يصعب من الناحية الحسابية إنتاج محاذاة التسلسل المتعدد ، وتؤدي معظم صيغ المشكلة إلى مشاكل تحسين اندماجي كاملة NP. [10] [11] ومع ذلك ، أدت فائدة هذه المحاذاة في المعلوماتية الحيوية إلى تطوير مجموعة متنوعة من الطرق المناسبة لمحاذاة ثلاثة متواليات أو أكثر.

البرمجة الديناميكية تحرير

تقنية البرمجة الديناميكية قابلة للتطبيق نظريًا على أي عدد من التسلسلات ، نظرًا لأنها باهظة التكلفة من الناحية الحسابية في كل من الوقت والذاكرة ، نادرًا ما تستخدم لأكثر من ثلاثة أو أربعة متواليات في أبسط أشكالها. تتطلب هذه الطريقة إنشاء ملف ن- مكافئ الأبعاد لمصفوفة التسلسل المكونة من تسلسلين ، حيث ن هو عدد التسلسلات في الاستعلام. يتم استخدام البرمجة الديناميكية القياسية أولاً على جميع أزواج تسلسل الاستعلام ثم يتم ملء "مساحة المحاذاة" من خلال النظر في التطابقات أو الفجوات المحتملة في المواضع الوسيطة ، وفي النهاية يتم إنشاء محاذاة بشكل أساسي بين كل محاذاة ذات تسلسلين. على الرغم من أن هذه التقنية باهظة الثمن من الناحية الحسابية ، إلا أن ضمانها للحل الأمثل العالمي مفيد في الحالات التي لا يلزم فيها محاذاة سوى عدد قليل من التسلسلات بدقة. تم تنفيذ طريقة واحدة لتقليل المتطلبات الحسابية للبرمجة الديناميكية ، والتي تعتمد على الوظيفة الموضوعية "مجموع الأزواج" ، في حزمة برامج MSA. [12]

الطرق التقدمية تحرير

تولد الطرق التقدمية أو الهرمية أو الشجرية محاذاة تسلسل متعددة عن طريق محاذاة التسلسلات الأكثر تشابهًا أولاً ثم إضافة متواليات أو مجموعات أقل ارتباطًا على التوالي إلى المحاذاة حتى يتم دمج مجموعة الاستعلام بالكامل في الحل. تستند الشجرة الأولية التي تصف ارتباط التسلسل إلى المقارنات الزوجية التي قد تتضمن طرق محاذاة زوجية إرشادية مشابهة لـ FASTA. تعتمد نتائج المحاذاة التقدمية على اختيار التسلسلات "الأكثر ارتباطًا" وبالتالي يمكن أن تكون حساسة لعدم الدقة في المحاذاة الزوجية الأولية. بالإضافة إلى ذلك ، تزن معظم طرق محاذاة التسلسل المتعدد التقدمية التتابعات في مجموعة الاستعلام وفقًا لارتباطها ، مما يقلل من احتمالية اتخاذ قرار سيئ للتسلسلات الأولية وبالتالي يحسن دقة المحاذاة.

يتم استخدام العديد من الاختلافات في التنفيذ التدريجي لكلوستال [13] [14] [15] لمحاذاة التسلسل المتعدد ، وبناء شجرة النشوء والتطور ، وكمدخلات لتنبؤ بنية البروتين. يُعرف البديل الأبطأ والأكثر دقة للطريقة التقدمية باسم T-Coffee. [16]

الطرق التكرارية تحرير

تحاول الطرق التكرارية تحسين الاعتماد الشديد على دقة المحاذاة الزوجية الأولية ، وهي نقطة الضعف في الطرق التقدمية. تعمل الطرق التكرارية على تحسين وظيفة موضوعية بناءً على طريقة تسجيل محاذاة محددة عن طريق تعيين محاذاة عامة أولية ثم إعادة تنظيم مجموعات فرعية للتسلسل. يتم بعد ذلك محاذاة المجموعات الفرعية المعاد ترتيبها لإنتاج محاذاة التسلسل المتعدد للتكرار التالي. تمت مراجعة طرق مختلفة لاختيار المجموعات الفرعية المتسلسلة والوظيفة الموضوعية في. [17]

العثور على عزر تحرير

يُنشئ اكتشاف الحافز ، المعروف أيضًا باسم تحليل الملف الشخصي ، محاذاة تسلسلية متعددة عالمية تحاول محاذاة أشكال التسلسل المحفوظة القصيرة بين التسلسلات في مجموعة الاستعلام. يتم ذلك عادةً عن طريق إنشاء محاذاة عالمية متعددة التسلسل أولاً ، وبعد ذلك يتم عزل المناطق المحمية بشدة واستخدامها لبناء مجموعة من مصفوفات الملف الشخصي. يتم ترتيب مصفوفة المظهر الجانبي لكل منطقة محفوظة مثل مصفوفة تسجيل النقاط ولكن تعدادها التكراري لكل حمض أميني أو نيوكليوتيد في كل موضع مشتق من توزيع شخصية المنطقة المحفوظة بدلاً من توزيع تجريبي أكثر عمومية. ثم تُستخدم مصفوفات الملف الشخصي للبحث في متواليات أخرى عن تكرارات الشكل الذي تميزه. في الحالات التي تحتوي فيها مجموعة البيانات الأصلية على عدد صغير من التسلسلات ، أو متواليات شديدة الارتباط فقط ، تتم إضافة الأعداد الزائفة لتطبيع توزيعات الأحرف الممثلة في الشكل.

تقنيات مستوحاة من علوم الكمبيوتر تحرير

تم أيضًا تطبيق مجموعة متنوعة من خوارزميات التحسين العامة المستخدمة بشكل شائع في علوم الكمبيوتر على مشكلة محاذاة التسلسل المتعدد. تم استخدام نماذج ماركوف المخفية لإنتاج درجات احتمالية لعائلة من محاذاة التسلسل المتعددة المحتملة لمجموعة استعلام معينة على الرغم من أن الطرق المبكرة القائمة على HMM أنتجت أداءً مخيبًا ، فقد وجدت التطبيقات اللاحقة أنها فعالة بشكل خاص في اكتشاف التسلسلات ذات الصلة عن بعد لأنها أقل عرضة الضوضاء الناتجة عن البدائل المحافظة أو شبه المحافظة. [18] كما تم استخدام الخوارزميات الجينية والتلدين المحاكي في تحسين درجات محاذاة التسلسل المتعدد كما تم الحكم عليه من خلال وظيفة تسجيل النقاط مثل طريقة مجموع الأزواج. يمكن العثور على مزيد من التفاصيل الكاملة وحزم البرامج في المقالة الرئيسية "محاذاة التسلسل المتعدد".

تم تطبيق تحويل Burrows – Wheeler بنجاح على محاذاة القراءة القصيرة السريعة في الأدوات الشائعة مثل Bowtie و BWA. انظر مؤشر FM.

تستخدم المحاذاة الهيكلية ، التي تكون خاصة بالبروتين وأحيانًا تسلسل الحمض النووي الريبي ، معلومات حول البنية الثانوية والثالثية للبروتين أو جزيء الحمض النووي الريبي للمساعدة في محاذاة التسلسلات. يمكن استخدام هذه الطرق لتسلسلين أو أكثر وعادة ما تنتج محاذاة محلية ، ولكن نظرًا لأنها تعتمد على توفر المعلومات الهيكلية ، لا يمكن استخدامها إلا للتسلسلات التي تُعرف هياكلها المقابلة (عادةً من خلال علم البلورات بالأشعة السينية أو التحليل الطيفي بالرنين المغناطيسي النووي) . نظرًا لأن كلاً من بنية البروتين والحمض النووي الريبي يتم حفظهما تطوريًا أكثر من التسلسل ، [19] يمكن أن تكون المحاذاة الهيكلية أكثر موثوقية بين التسلسلات التي ترتبط ارتباطًا وثيقًا والتي تباعدت بشكل كبير بحيث لا يمكن لمقارنة التسلسل اكتشاف تشابهها بشكل موثوق.

تُستخدم المحاذاة الهيكلية باعتبارها "المعيار الذهبي" في تقييم المحاذاة للتنبؤ ببنية البروتين القائم على التماثل [20] لأنها تحاذي بشكل صريح مناطق تسلسل البروتين المتشابهة بنيوياً بدلاً من الاعتماد حصريًا على معلومات التسلسل. ومع ذلك ، لا يمكن استخدام المحاذاة الهيكلية الواضحة في التنبؤ بالهيكل لأن تسلسلًا واحدًا على الأقل في مجموعة الاستعلام هو الهدف المراد نمذجته ، والذي لا يُعرف هيكله. لقد ثبت أنه ، بالنظر إلى المحاذاة الهيكلية بين الهدف وتسلسل القالب ، يمكن إنتاج نماذج عالية الدقة لتسلسل البروتين المستهدف ، وهي حجر عثرة رئيسي في التنبؤ بالبنية القائمة على التماثل ، وهو إنتاج محاذاة دقيقة من الناحية الهيكلية مع إعطاء معلومات التسلسل فقط . [20]

تحرير دالي

طريقة DALI ، أو محاذاة مصفوفة المسافة ، هي طريقة تعتمد على الشظايا لبناء محاذاة هيكلية بناءً على أنماط تشابه التلامس بين hexapeptides المتتالية في تسلسل الاستعلام. [21] يمكن أن يولد محاذاة ثنائية أو متعددة ويحدد الهيكلية المجاورة لتسلسل الاستعلام في بنك بيانات البروتين (PDB). لقد تم استخدامه لإنشاء قاعدة بيانات المحاذاة الهيكلية FSSP (تصنيف الطيات على أساس محاذاة بنية البروتينات ، أو عائلات البروتينات المتشابهة هيكليًا). يمكن الوصول إلى خادم ويب DALI في DALI ويقع FSSP في قاعدة بيانات Dali.

تحرير SSAP

SSAP (برنامج محاذاة الهيكل المتسلسل) هي طريقة ديناميكية قائمة على البرمجة للمحاذاة الهيكلية تستخدم متجهات من الذرة إلى الذرة في مساحة الهيكل كنقاط مقارنة. وقد تم تمديده منذ وصفه الأصلي ليشمل محاذاة متعددة بالإضافة إلى محاذاة زوجية ، [22] وقد تم استخدامه في بناء تصنيف قاعدة البيانات الهرمية CATH (الفئة ، الهندسة المعمارية ، الطوبولوجيا ، التنادد) لطيات البروتين. [23] يمكن الوصول إلى قاعدة بيانات CATH في تصنيف بنية البروتين CATH.

تحرير التمديد التوافقي

تولد طريقة التمديد التجميعي للمحاذاة الهيكلية محاذاة هيكلية زوجية باستخدام الهندسة المحلية لمحاذاة شظايا قصيرة من البروتينين اللذين يتم تحليلهما ثم تجميع هذه الأجزاء في محاذاة أكبر. [24] استنادًا إلى مقاييس مثل متوسط ​​جذر الجسم الصلب للمسافة المربعة ، ومسافات البقايا ، والبنية الثانوية المحلية ، والسمات البيئية المحيطة مثل الكراهية المائية للمخلفات المجاورة ، يتم إنشاء محاذاة محلية تسمى "أزواج الأجزاء المحاذية" واستخدامها لبناء مصفوفة تشابه تمثل جميع المحاذاة الهيكلية الممكنة ضمن معايير القطع المحددة مسبقًا. ثم يتم تتبع مسار من حالة بنية بروتينية إلى أخرى من خلال المصفوفة عن طريق توسيع المحاذاة المتزايدة جزء واحد في كل مرة. يحدد هذا المسار الأمثل محاذاة الامتداد الاندماجي. يوجد خادم قائم على الويب ينفذ الطريقة ويوفر قاعدة بيانات للمحاذاة الزوجية للهياكل في بنك بيانات البروتين على موقع Combinatorial Extension.

علم الوراثة الوراثي ومحاذاة التسلسل هي مجالات مرتبطة ارتباطًا وثيقًا بسبب الضرورة المشتركة لتقييم ارتباط التسلسل. [25] يستخدم مجال علم الوراثة استخدامًا مكثفًا لمحاذاة التسلسل في بناء وتفسير أشجار النشوء والتطور ، والتي تُستخدم لتصنيف العلاقات التطورية بين الجينات المتجانسة الممثلة في جينومات الأنواع المتباينة. ترتبط الدرجة التي تختلف بها التسلسلات في مجموعة الاستعلام نوعياً بالمسافة التطورية للتسلسلات من بعضها البعض. بشكل تقريبي ، تشير هوية التسلسل العالي إلى أن التسلسلات المعنية لها سلف مشترك حديث نسبيًا ، بينما تشير الهوية المنخفضة إلى أن الاختلاف أقدم. هذا التقريب ، الذي يعكس فرضية "الساعة الجزيئية" القائلة بأنه يمكن استخدام معدل ثابت تقريبًا للتغير التطوري لاستقراء الوقت المنقضي منذ أن تباعد جينان لأول مرة (أي وقت الاندماج) ، يفترض أن تأثيرات الطفرة والانتقاء ثابت عبر الأنساب التسلسلية. لذلك ، فإنه لا يأخذ في الحسبان الاختلاف المحتمل بين الكائنات الحية أو الأنواع في معدلات إصلاح الحمض النووي أو الحفظ الوظيفي المحتمل لمناطق معينة في تسلسل. (في حالة متواليات النوكليوتيدات ، فإن فرضية الساعة الجزيئية في أبسط أشكالها تقلل أيضًا من الاختلاف في معدلات القبول بين الطفرات الصامتة التي لا تغير معنى كودون معين والطفرات الأخرى التي تؤدي إلى دمج حمض أميني مختلف في البروتين). تسمح الطرق الأكثر دقة من الناحية الإحصائية بتغير معدل التطور في كل فرع من فروع شجرة النشوء والتطور ، مما ينتج عنه تقديرات أفضل لأوقات الاندماج للجينات.

تنتج تقنيات المحاذاة المتعددة التقدمية شجرة نسج تربوي بحكم الضرورة لأنها تدمج التسلسلات في المحاذاة المتزايدة بترتيب الترابط. تقوم التقنيات الأخرى التي تقوم بتجميع محاذاة تسلسل متعددة وأشجار النشوء والتطور بتسجيل الأشجار وفرزها أولاً وحساب محاذاة تسلسل متعددة من شجرة ذات أعلى نقاط. الطرق المستخدمة بشكل شائع لبناء شجرة النشوء والتطور هي في الأساس إرشادية لأن مشكلة اختيار الشجرة المثلى ، مثل مشكلة اختيار محاذاة التسلسل المتعدد الأمثل ، صعبة NP. [26]

تقييم الأهمية تحرير

تعد محاذاة التسلسل مفيدة في المعلوماتية الحيوية لتحديد تشابه التسلسل ، وإنتاج أشجار النشوء والتطور ، وتطوير نماذج التماثل الخاصة بهياكل البروتين. ومع ذلك ، فإن الأهمية البيولوجية لمحاذاة التسلسل ليست واضحة دائمًا. غالبًا ما يُفترض أن المحاذاة تعكس درجة من التغيير التطوري بين التسلسلات المنحدرة من سلف مشترك ، ومع ذلك ، فمن الممكن رسميًا أن يحدث التطور المتقارب لإنتاج تشابه ظاهر بين البروتينات غير المرتبطة تطوريًا ولكنها تؤدي وظائف مماثلة ولها هياكل مماثلة.

في عمليات البحث في قاعدة البيانات مثل بلاست ، يمكن للطرق الإحصائية تحديد احتمالية وجود محاذاة معينة بين التسلسلات أو مناطق التسلسل التي تنشأ عن طريق الصدفة نظرًا لحجم وتكوين قاعدة البيانات التي يتم البحث عنها. يمكن أن تختلف هذه القيم بشكل كبير اعتمادًا على مساحة البحث. على وجه الخصوص ، تزداد احتمالية العثور على محاذاة معينة بالصدفة إذا كانت قاعدة البيانات تتكون فقط من متواليات من نفس الكائن الحي مثل تسلسل الاستعلام. يمكن أن تؤدي التسلسلات المتكررة في قاعدة البيانات أو الاستعلام أيضًا إلى تشويه كل من نتائج البحث وتقييم الأهمية الإحصائية تقوم BLAST تلقائيًا بتصفية مثل هذه التسلسلات المتكررة في الاستعلام لتجنب الزيارات الواضحة التي تعتبر نتائج إحصائية.

طرق تقدير الأهمية الإحصائية لمحاذاة تسلسل فجوة متوفرة في الأدبيات. [25] [27] [28] [29] [30] [31] [32] [33]

تقييم المصداقية تحرير

تشير الدلالة الإحصائية إلى احتمال ظهور محاذاة لجودة معينة عن طريق الصدفة ، ولكنها لا تشير إلى مدى تفوق محاذاة معينة على المحاذاة البديلة لنفس التسلسلات. تشير مقاييس مصداقية المحاذاة إلى المدى الذي تكون فيه أفضل محاذاة الدرجات لزوج معين من التسلسلات متشابهة إلى حد كبير. طرق تقدير مصداقية المحاذاة لمحاذاة التسلسل الفجوات متوفرة في الأدبيات. [34]

وظائف التهديف تحرير

يعد اختيار وظيفة التسجيل التي تعكس الملاحظات البيولوجية أو الإحصائية حول التسلسلات المعروفة أمرًا مهمًا لإنتاج محاذاة جيدة. يتم محاذاة تسلسل البروتين بشكل متكرر باستخدام مصفوفات الاستبدال التي تعكس احتمالات الاستبدالات من حرف إلى حرف. سلسلة من المصفوفات تسمى مصفوفات PAM (مصفوفات الطفرة المقبولة بالنقطة ، التي حددتها في الأصل مارجريت دايهوف والتي يشار إليها أحيانًا باسم "مصفوفات دايهوف") ترمز صراحةً التقريبات التطورية فيما يتعلق بمعدلات واحتمالات طفرات معينة من الأحماض الأمينية. سلسلة أخرى شائعة من مصفوفات التسجيل ، والمعروفة باسم بلوسوم (مصفوفة استبدال الكتل) ، تقوم بترميز احتمالات الاستبدال المشتقة تجريبياً. تُستخدم المتغيرات من كلا النوعين من المصفوفات لاكتشاف التسلسلات ذات المستويات المختلفة من الاختلاف ، مما يسمح لمستخدمي BLAST أو FASTA بتقييد عمليات البحث على التطابقات الأكثر ارتباطًا أو التوسع لاكتشاف المزيد من التسلسلات المتباعدة. تفسر عقوبات الفجوات إدخال فجوة - في النموذج التطوري ، طفرة إدخال أو حذف - في كل من متواليات النيوكليوتيدات والبروتينات ، وبالتالي يجب أن تكون قيم العقوبة متناسبة مع المعدل المتوقع لمثل هذه الطفرات. وبالتالي فإن جودة المحاذاة الناتجة تعتمد على جودة وظيفة التسجيل.

قد يكون مفيدًا ومفيدًا للغاية تجربة نفس المحاذاة عدة مرات مع خيارات مختلفة لمصفوفة التسجيل و / أو قيم عقوبة الفجوة ومقارنة النتائج. غالبًا ما يمكن تحديد المناطق التي يكون فيها الحل ضعيفًا أو غير فريد من خلال ملاحظة مناطق المحاذاة القوية للتغيرات في معلمات المحاذاة.

يمكن محاذاة الحمض النووي الريبي المتسلسل ، مثل علامات التسلسل المعبر عنها و mRNAs كاملة الطول ، مع جينوم متسلسل للعثور على مكان وجود الجينات والحصول على معلومات حول التضفير البديل [35] وتحرير الحمض النووي الريبي. [36] تعد محاذاة التسلسل أيضًا جزءًا من تجميع الجينوم ، حيث تتم محاذاة التسلسلات للعثور على التداخل بحيث يكون كذلك contigs (امتدادات طويلة من التسلسل) يمكن تشكيلها. [37] استخدام آخر هو تحليل SNP ، حيث يتم محاذاة التسلسلات من أفراد مختلفين للعثور على أزواج أساسية مفردة غالبًا ما تكون مختلفة في مجموعة سكانية. [38]

وجدت الطرق المستخدمة في محاذاة التسلسل البيولوجي أيضًا تطبيقات في مجالات أخرى ، وعلى الأخص في معالجة اللغة الطبيعية وفي العلوم الاجتماعية ، حيث يُشار عادةً إلى خوارزمية Needleman-Wunsch بالمطابقة المثلى. [39] التقنيات التي تولد مجموعة العناصر التي سيتم اختيار الكلمات من خلالها في خوارزميات توليد اللغة الطبيعية قد اقترضت تقنيات محاذاة تسلسل متعددة من المعلوماتية الحيوية لإنتاج إصدارات لغوية من البراهين الرياضية التي تم إنشاؤها بواسطة الكمبيوتر. [40] في مجال اللغويات التاريخية والمقارنة ، تم استخدام محاذاة التسلسل لأتمتة جزئيًا الطريقة المقارنة التي يعيد اللغويون من خلالها بناء اللغات تقليديًا. [41] كما طبقت أبحاث الأعمال والتسويق أيضًا تقنيات محاذاة التسلسل المتعددة في تحليل سلسلة المشتريات بمرور الوقت. [42]

تتوفر قائمة أكثر اكتمالاً بالبرامج المتاحة المصنفة حسب الخوارزمية ونوع المحاذاة في برنامج محاذاة التسلسل ، لكن أدوات البرامج الشائعة المستخدمة لمهام محاذاة التسلسل العامة تتضمن ClustalW2 [43] و T-coffee [44] للمحاذاة ، و BLAST [45] و FASTA3x [46] للبحث في قاعدة البيانات. تتوفر أيضًا أدوات تجارية مثل DNASTAR Lasergene و Geneious و PatternHunter. يتم سرد الأدوات التي تم شرحها أثناء إجراء محاذاة التسلسل في سجل bio.tools.

يمكن مقارنة خوارزميات المحاذاة والبرامج بشكل مباشر مع بعضها البعض باستخدام مجموعة معيارية من محاذاة التسلسل المرجعية المتعددة المرجعية المعروفة باسم BAliBASE. [47] تتكون مجموعة البيانات من محاذاة هيكلية ، والتي يمكن اعتبارها معيارًا يتم من خلاله مقارنة الطرق القائمة على التسلسل البحت. تم جدولة الأداء النسبي للعديد من طرق المحاذاة الشائعة حول مشكلات المحاذاة التي يتم مواجهتها بشكل متكرر ونشر النتائج المختارة عبر الإنترنت في BAliBASE. [48] ​​[49] يمكن حساب قائمة شاملة من درجات BAliBASE للعديد (حاليًا 12) من أدوات المحاذاة المختلفة داخل طاولة عمل البروتين STRAP. [50]


الانتماءات

مجموعات الدم للنسيج ABO ومختبر السرطان ، برنامج علم الوراثة السرطانية وعلم التخلق ، Institut de Medicina Predictiva i Personalitzada del Càncer (IMPPC) ، Campus Can Ruti ، Badalona ، كاتالونيا ، إسبانيا

فومييتشيرو ياماموتو ، إميلي سيد وأمبير مياكو ياماموتو

قسم علم الوراثة السكانية ، المعهد الوطني للوراثة ، ميشيما ، اليابان

IBE - معهد البيولوجيا التطورية (UPF-CSIC) ، جامعة بومبيو فابرا ، برشلونة ، كاتالونيا ، إسبانيا

Laboratoire d'Immunogénétique Moléculaire (LIMT، EA3034)، Faculté de Médecine Purpan، Université Paul Sabatier، (Université de Toulouse III)، Toulouse، France


شاهد الفيديو: كيف يمكنك تذكر كل الشفرات الوراثية Codons التي تعبر عن الأحماض الأمينية (كانون الثاني 2023).