معلومة

هل تريد دمج عدة ملفات تسلسلية .ab1 في ملف FASTA واحد؟

هل تريد دمج عدة ملفات تسلسلية .ab1 في ملف FASTA واحد؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لدي عدة ملفات .ab1 تم إنشاؤها من Chromas. أريد دمج كل منهم في ملف تسلسلي واحد FASTA. كيف يمكنني القيام بذلك بطريقة آلية؟

لاحظ أنه ليس لدي Chromas مثبتًا (تم إنشاء الملفات بواسطة شخص آخر). أنا أستخدم نظام لينكس ، لذا يفضل استخدام أدوات سطر الأوامر مفتوحة المصدر.


بشكل عام ، يجب عليك استخدام خوارزمية استدعاء أساسية لإنشاء التسلسلات من مخطط الكروماتوجرام وليس تحويلها مباشرة إلى Fasta (مجاملة: سفين [SEQanswers] ). كما هو مذكور في الرابط ، فإن Phred و TraceTuner هما برنامجان شائعان للاتصال الأساسي يمكنهما توليد إخراج fasta.

البرنامج المذكور بواسطة The Nightman يمكن استخدامها للتحويل.ab1الى فاستا. يمكنك أيضًا تجربة وحدة BioPython المسماة abifpy. يمكنك قراءة كل منها بسهولة.ab1ملف ، باستخدام برنامج نصي بيثون ، وكتابة التسلسلات بتنسيق فاستا كملف واحد.

الجمع بين عدة فاستا أمر تافه للغاية. يمكنك استخدامقطكما ذكر آخرون.


يحتوي DNA Baser على دفعة abi لتحويل Fasta هنا. بعد تحويل الملفات إلى ملفات .fa ، يمكن تجميعها معًا في نظام UNIX / MAC باستخدامالقط * fa> output.fa


الاحتمالات النموذجية التي تتبادر إلى الذهن هي البرامج المتاحة في EMBOSS و Staden. ومع ذلك ، فقد تم طرح سؤال حول كيفية الوصول إلى بيانات التسلسل المخزنة في ملفات .ab1 على Biostars عدة مرات ، لذلك أقترح إلقاء نظرة على الإجابات المختلفة هناك لمعرفة الخيارات المناسبة لبيئتك وحالة الاستخدام ، راجع Biostars ابحث عن "ab1".


كيف تجمع عدة ملفات في ملف واحد؟

لدي عدة ملفات (n = 86000) مع عمود واحد لكل منها وأريد دمجها جميعًا في ملف واحد به 86000 عمود.

حاولت الأمر التالي

يبدو أن هذا لا يعمل لأن هناك 86000 لدمجها ، ثم قسمت ملفاتي إلى مجلدات متعددة مع كل مجلد لا يحتوي على أكثر من 15000 ملف ولكن هذا لم يعمل

تنسيق ملفي الفردي كما يلي (يحتوي على 16000 سطر)

ما هو الخطأ في الكود؟


هل تريد دمج عدة ملفات تسلسلية .ab1 في ملف FASTA واحد؟ - مادة الاحياء

تنسيق ملف Multi-Multi-FASTA / Q

غالبًا ما يتم تخزين تسلسل الحمض النووي والبروتين في تنسيق FASTA [1-4]. في هذه الأيام نضع تسلسلات متعددة في ملف FASTA ، ولكن في الأصل كان من المفترض أن يحتوي ملف FASTA على تسلسل واحد فقط. كان يسمى ملف متعدد التسلسلات "Multi-FASTA".

الآن ، ماذا لو كنت تريد دمج ليس فقط تسلسلات متعددة ، ولكن ملفات FASTA متعددة في ملف واحد؟ يمكنك استخدام tar ، لكن ملف .tar الناتج هو ملف ثنائي وغير متوافق مع أدوات معالجة FASTA. ببساطة ، يؤدي ربط الملفات الفردية معًا إلى فقدان أسماء الملفات.

ومن ثم ، فإن هذا الاقتراح الخاص بتنسيق ملف Multi-Multi-FASTA. إنه ملف FASTA ، حيث يمكن أن تحتوي رؤوس التسلسل على لاحقة اختيارية "& gtfilename". لذلك ، يبدو رأس التسلسل الكامل مثل "& gtsequence name & gtfilename". يشير هذا الرأس إلى أن هذا وجميع التسلسلات اللاحقة تنتمي إلى الملف "filename". هذا يسمح بتفكيك ملف Multi-Multi-FASTA مرة أخرى إلى ملفات FASTA الفردية.

الأهم من ذلك ، يمكن معالجة ملف Multi-Multi-FASTA باستخدام أدوات متوافقة مع FASTA. يمكن ضغطها باستخدام ضواغط خاصة بـ FASTA ، والبحث فيها باستخدام أدوات بحث التماثل ، وما إلى ذلك. عند الضرورة ، يمكن تفكيكها مرة أخرى إلى ملفات FASTA الأصلية.

يمكن استخدام نفس المبدأ لدمج عدة ملفات FASTQ في ملف Multi-Multi-FASTQ واحد. بالنسبة لبيانات FASTQ ، يكون "@" هو الفاصل الافتراضي ، لذا فإن الاسم الذي تم وضع علامة عليه يبدو مثل: "@ readname @ filename".

النص mumu.pl في هذا الريبو هو التنفيذ المرجعي. يسمح بتعبئة وتفريغ ملف Multi-Multi-FASTA / Q.

المتطلبات الأساسية: git (للتنزيل) ، perl. على سبيل المثال ، للتثبيت على Ubuntu: sudo apt install git perl. في نظام التشغيل Mac OS ، قد تضطر إلى تثبيت Xcode Command Line Tools.

التنزيل والتثبيت:

أو ضع ملف mumu.pl البرنامج النصي حيث تريده.

حزم ملفات متعددة في ملف Multi-Multi-FASTA / Q

mumu.pl 'data / *. fa' & gtall.mfa - دمج جميع ملفات .fa في دليل "البيانات" ، وتخزين النتيجة في ملف "all.mfa".

mumu.pl --dir data '* .fa' & gtall.mfa - نفس الشيء ، لكنه يدخل في دليل "البيانات" أولاً. لن تحتوي أسماء الملفات المخزنة في الإخراج على جزء دليل.

mumu.pl --dir data --sep '& lt' '* .fa' & gtall.mfa - استخدم '& lt' كفاصل بين اسم التسلسل واسم الملف في الإخراج.

mumu.pl --dir data - all '* .fa' & gtall.mfa - أضف اسم ملف لجميع أسماء التسلسلات. بشكل افتراضي ، يتم تمييز التسلسل الأول فقط من كل ملف باسم ملف.

mumu.pl --stdin & ltlist.txt & gtall.mfa - حزمة الملفات المدرجة في "list.txt" في "all.mfa".

mumu.pl --fastq --dir يقرأ '* .fq' & gtall.mfq - دمج ملفات FASTQ في ملف Multi-Multi-FASTQ واحد.

mumu.pl '* .fa' & gtall.fa - لا تفعل هذا! سيتم احتساب "all.fa" كأحد ملفات الإدخال ، مما قد يؤدي إلى تجاوز مساحة التخزين لديك.

mumu.pl --dir data - no-ext --cmd "unnaf"'"' * .naf '& gtall.mfa - فك ضغط الملفات التي تم تنسيقها بواسطة NAF وحزم بياناتها في" all.mfa ".

تفريغ ملف Multi-Multi-FASTA / Q

mumu.pl - unpack all.mfa - فك حزم "all.mfa" في الملفات الفردية.

mumu.pl --unpack --dir 'new' all.mfa - ينشئ مجلدًا "جديدًا" ، ويدخله ، ثم يفك ضغط "all.mfa".

mumu.pl --unpack --sep '& lt' all.mfa - فك حزم الملف حيث تم استخدام "& lt" كفاصل بين اسم التسلسل واسم الملف.

mumu.pl --unpack --dir 'new' all.mfa --cmd "ennaf -22 -o".naf '"- فك ضغط" all.mfa "، وضغط كل ملف غير مضغوط بامتداد النّاف على الطاير.

لماذا لا تضع اسم الملف أولاً ، مثل "& gtfilename & gtsequence name"؟
والسبب هو أنه في كثير من الحالات تبدأ الأسماء المتسلسلة برقم الانضمام. يؤدي وضع اسم الملف في النهاية إلى الحفاظ على التوافق مع أدوات البرامج التي تقرأ فقط رقم التعريف وتتجاهل بقية الاسم.

هل من المقبول تكرار "& gt" في اسم التسلسل؟
بشكل افتراضي ، يتم فصل اسم التسلسل واسم الملف بواسطة الحرف "& gt" ، وذلك بسبب عدم العثور على هذا الحرف عادةً في أسماء التسلسلات. ومع ذلك ، قد تواجه بعض الأدوات مشكلة مع "& gt" ثاني في سطر واحد. في مثل هذه الحالات ، من الممكن استخدام شخصية أخرى ، باستخدام --sep '؟' اختيار. بطبيعة الحال ، عند استخدام فاصل مخصص ، يجب تحديده في كل من خطوات التعبئة والتفريغ.

لاحظ أن الفاصل لا يجب أن يكون حرفًا واحدًا. يمكنك استخدام أي سلسلة ، طالما أن جانب التفريغ يعرفها ويمكنه توفيرها لأمر التفريغ.

هل يجب تمييز التسلسلات بأسماء الملفات أم التسلسل الأول فقط من كل ملف؟
هذا يعتمد على سيناريو الاستخدام. إذا تضمن سير العمل إعادة ترتيب التسلسلات أو ترشيحها ، فقد يكون من الضروري وضع علامات على كل تسلسل. من ناحية أخرى ، إذا تم الاحتفاظ بجميع التسلسلات ، فإن وضع علامات على التسلسل الأول فقط لكل ملف يكون أكثر إحكاما. يدعم التنسيق والتنفيذ كلا الحالتين.

ماذا لو كانت ملفات FASTA المراد دمجها موجودة في أدلة متعددة؟
لا توجد مشكلة ، يمكن أن يتضمن جزء اسم الملف من ملف Multi-Multi-FASTA مسارًا إلى الملف ، مثل هذا: "& gtsequence name & gtfull / path / to / file". أيًا كانت مسارات الملفات التي يتم توفيرها لأمر الحزم ، سيتم تسجيلها في الملف المحزم. أثناء التفريغ ، سيتم إنشاء الدلائل تلقائيًا.

ما هو امتداد اسم الملف الذي يجب استخدامه لملفات Multi-Multi-FASTA / Q؟
يمكن استخدام الامتدادات ".mfa" و ".mfq" لملفات Multi-Multi-FASTA و Multi-Multi-FASTQ ، على التوالي. بدلاً من ذلك ، يمكن استخدام أي من امتدادات FASTA و FASTQ المعتادة (".fa" ، ".fasta" ، ".fna" ، ".fq" ، ".fastq" ، إلخ).

هل يجب أن أضغط * ​​.fa أو "* .fa"؟
الطريقة الموصى بها والأكثر قوة هي استخدام الاقتباس: "* .fa". تؤدي محاولة دمج * .fa إلى توسيع shell للقناع وتوفير جميع أسماء الملفات كوسيطات لملف mumu.pl النصي. عادةً ما يعمل بشكل جيد ، لكن في يوم من الأيام ستحاول ضغط دليل بآلاف الملفات ، مما قد يتجاوز الحد الأقصى لحجم argv لنظامك. عند اقتباس القناع ('* .fa') ، يحدث توسيع القناع داخل ملف mumu.pl البرنامج النصي ، حيث يتم تحديد الحد الأقصى بواسطة ذاكرة الوصول العشوائي المتاحة ، وبالتالي يمكن معالجة عدد أكبر بكثير من الملفات بأمان.

ماذا عن الاحتفاظ بالأذونات والمالك والطابع الزمني للملفات المحزمة؟
هذه ليست مدعومة حاليًا ، ولكن من حيث المبدأ يمكن توسيع التنسيق لاستيعاب هذه المعلومات ، إذا كان هناك اهتمام كافٍ بذلك.

هل يمكنه حزم دليل لملفات FASTA بشكل متكرر؟
التنسيق ليس لديه مشكلة في تخزين شجرة الدليل بأكملها. لا تحتوي الأداة الحالية على الوضع العودي ، ولكن يمكنها قراءة قائمة الملفات للضغط من stdin ، مما يجعل التعبئة العودية ممكنة. على سبيل المثال ، إليك كيفية حزم دليل كامل باستخدام تجد أمر:
اعثر على DATASET -type f -name '* .fna' | mumu.pl --stdin | ennaf -22 -o DATASET.mfa.naf

هل يقوم بالكتابة فوق الملفات الموجودة أثناء التفريغ؟
بشكل افتراضي ، لا. إضافة خيار الكتابة فوق للكتابة فوق الملفات الموجودة.

هل يمكن لأرشيف ضار وضع الملفات خارج الدليل الهدف أثناء التفريغ؟
لا ، يتم تحويل جميع المسارات المطلقة إلى نسبية ، ويتم تجاهل جميع ".." في المسارات أثناء التفريغ. يمكنه فقط النزول إلى أسفل شجرة الدليل ، وليس لأعلى.

هل يمكن فك ضغط ملفات gzip بسرعة واستخراج البيانات المجمعة معًا؟
نعم فعلا. - سمد. يسمح الخيار بتحديد أمر سيتم تشغيله على كل ملف فردي تمت معالجته (أثناء كل من التعبئة والتفريغ). هذا يسمح بفك ضغط الملفات على الفور قبل تعبئة بياناتها. كما يسمح بضغط (أو معالجة) كل ملف مستخرج أثناء التفريغ.

ضغط الجينومات ذات الصلة

لنفترض أن لدينا مجموعة من الجينومات ذات الصلة ، على سبيل المثال ، 1697 جينومًا من هيليكوباكتر بيلوري. تشغل مساحة 2.8 جيجا بايت غير مضغوطة بتنسيق FASTA. ينتج عن ضغط واحد تلو الآخر باستخدام gzip مجموعة ملفات بحجم 804 ميغابايت. ضاغط أفضل ، مثل ناف ، يخفض الحجم إلى 675 ميجابايت. ومع ذلك ، لا تزال الجينومات موجودة في 1697 ملفًا منفصلاً.

لنجرب الطريقتين الأكثر شيوعًا لتجميع الملفات معًا - zip و tar.gz: نحصل على أرشيفات بحجم 767 و 803 ميجابايت على التوالي. على الرغم من أن لدينا الآن ملفًا واحدًا مناسبًا للمشاركة أو التنقل ، إلا أن الحجم لا يزال كبيرًا. أيضًا ، يتطلب الوصول إلى بيانات التسلسل الآن إلغاء إنشاء الأرشيف مرة أخرى في ملفات فردية.

قد يكون الضاغط الأقوى قادرًا على ضغط ملف القطران في أرشيف أصغر. لكن ضرورة استعادة الملفات الأصلية قبل العمل عليها ستبقى.

الآن ، ماذا لو قمنا بدمج الجينومات في ملف Multi-Multi-FASTA ، ثم ضغطنا باستخدام naf؟ نحصل على ملف فقط 80 ميجا بايت - أصغر بـ 10 مرات ويسهل إرسالها عبر الشبكة.

الأهم من ذلك ، يمكن الوصول إلى التسلسلات بتنسيق FASTA الموجودة في هذا الأرشيف ببساطة عن طريق فك ضغط البيانات ونقلها إلى أداة متوافقة مع FASTA. هذا يعني أنه يمكن إجراء العديد من التحليلات دون تفريغ الأرشيف ، ودون تخزين 1697 ملفًا على نظام الملفات. فقط عند الضرورة سنقوم بتفكيك الأرشيف إلى ملفات FASTA فردية.

ضغط:
mumu.pl --dir 'Helicobacter' Helicobacter pylori * '| ennaf -22 - نص -o 'Hp.mfa.naf'

فك الضغط والتفريغ:
unnaf 'Hp.mfa.naf' | mumu.pl - unpack --dir 'Helicobacter'

ضغط الملفات المضغوطة بالفعل

افترض أن لديك مجموعة من الجينومات مضغوطة بالفعل واحدًا تلو الآخر (على سبيل المثال ، باستخدام تنسيق NAF). الآن تريد تجميعها معًا وضغطها في ملف واحد. إن أبسط طريقة هي فك ضغط الجينوم أولاً ، ولكن بعد ذلك سيكون عليك تخزين كل البيانات الضخمة غير المضغوطة. من الناحية المثالية ، تفضل أن يحدث إلغاء الضغط أثناء التنقل عند تجميع التسلسلات معًا. باستخدام الخيار --cmd يمكن تحقيق ذلك في خطوة واحدة:

mumu.pl --dir 'Helicobacter' - no-ext --cmd "unnaf"'"" Helicobacter pylori * .naf' | ennaf -22 - النص -o 'Hp.mfa.naf'

من الممكن أيضًا فك ضغط الأرشيف الناتج مرة أخرى مباشرةً في جينومات مضغوطة بشكل فردي:

unnaf 'Hp.mfa.naf' | mumu.pl - unpack --dir 'Helicobacter' --cmd "ennaf -22 -o".naf "

ديفيد ج.ليبمان ، وليم آر بيرسون (1985) "البحث البروتين التشابه السريعة والحساسة" علم، 22 مارس 1985، 227 (4693)، 1435-1441.

وليام ر.بيرسون ، ديفيد ج.ليبمان (1988) "الأدوات اللازمة لتحسين مقارنة تسلسل البيولوجية" بروك. ناتل. أكاد. علوم. الولايات المتحدة الأمريكية، أبريل 1988 ، 85 (8) ، 2444-2448.

هونغن تشانغ (2016) "نظرة عامة على تنسيقات بيانات التسلسل" طرق في علم الأحياء الجزيئي، 1 يناير 2016 ، 1418 ، 3-17.

بيتر ج. كوك ، كريستوفر جيه فيلدز ، ناوهيسا جوتو ، مايكل إل هوير ، بيتر إم رايس (2010) "تنسيق ملف sanger FASTQ للتسلسلات ذات درجات الجودة ومتغيرات Solexa / Illumina FASTQ" الدقة الأحماض النووية.، أبريل 2010 ، 38 ، 1767-1771.

كيريل كريوكوف ، ماهوكو تاكاهاشي أويدا ، سو ناكاجاوا ، تاداشي إيمانيشي (2019) "تنسيق أرشفة النيوكليوتيد (NAF) يتيح ضغطًا فعالاً وخاليًا من المراجع لتسلسلات الحمض النووي" المعلوماتية الحيوية, 35(19), 3826-3828.

كيريل كريوكوف ، ماهوكو تاكاهاشي أويدا ، سو ناكاجاوا ، تاداشي إيمانيشي (2020) "قاعدة بيانات معيار ضغط التسلسل (SCB) - تقييم شامل للضواغط الخالية من المرجع للتسلسلات بتنسيق FASTA" GigaScience، 9 (7) ، giaa072.

تيم هولسن ، Saumya S. Jamuar ، Alan R. Moody ، Jason H. Karnes ، Orsolya Varga ، Stine Hedensted ، Roberto Spreafico ، David A. Hafler ، Eoin F. McKinney (2019) "من البيانات الضخمة إلى الطب الدقيق" الحدود في الطب، 1 مارس 2019 ، 6 ، 34.

وي شين ، شواي لو ، يان لي ، فوكوان هو (2016) "SeqKit: مجموعة أدوات متعددة المنصات ومجموعة أدوات فائقة السرعة لمعالجة ملفات FASTA / Q" بلوس واحد، 5 أكتوبر 2016 ، 11 (10) ، e0163962.

Ola Spjuth ، Erik Bongcam-Rudloff ، Johan Dahlberg ، Martin Dahlo ، Aleksi Kallio ، Luca Pireddu ، Francesco Vezzi ، Eija Korpelainen (2016) "توصيات بشأن البنى التحتية الإلكترونية لتسلسل الجيل التالي" GigaScience, 2016, 5, 26.

مرتضى حسيني ، ديوغو براتاس ، أرماندو جيه بينهو (2016) "مسح حول طرق ضغط البيانات للتسلسلات البيولوجية" معلومة، 14 أكتوبر 2016 ، 7 ، 56.

ميكيل هيرناز ، دميتري بافليتشين ، تساشي وايزمان ، إيدويا أوتشوا (2019) "ضغط البيانات الجينومية" Annu. القس بيوميد. علوم البيانات. 2019, 2, 19-37.


الملخص

أصبح التسلسل المتوازي على نطاق واسع (MPS) أسلوبًا قياسيًا في علم الأحياء الجزيئي انتشر تطبيقه من تحليل الجينوم البشري إلى تحليل جميع الكائنات الحية الأخرى تقريبًا. تتطلب MPS إجراء جينومات مرجعية ، وفي بعض الحالات ، يجب التعامل مع جينومات متعددة كوحدة واحدة لإجراء التحليل الجيني. يتم تخزين تسلسلات الحمض النووي عادةً في ملفات "fasta" ، والتي يمكن أن تحتوي على جينومات متعددة ("multi-fasta"). على الرغم من أنه من الممكن تحويل ملف multi-fasta إلى تسلسل واحد باستخدام أوامر كمبيوتر محددة ، فإن الملف الناتج لن يتتبع حدود التسلسلات الأصلية ، مما يجعل من الصعب تحديد الجينوم الذي تم الحصول عليه من MPS. في هذه الدراسة نقدم مزج، برنامج نصي للقذيفة يمكن استخدامه لإنشاء جينوم مرجعي مخصص عن طريق دمج ملفات متعددة Fasta مع توفير قائمة بحدود الجينومات الفردية التي يمكن استخدامها لتحليل المصب.


جميع الأمثلة على البرامج التي رأيناها حتى الآن أنتجت مخرجات مباشرة على الشاشة. يعد هذا أمرًا رائعًا لاستكشاف ميزات جديدة وعند العمل على البرامج ، لأنه يسمح لك برؤية تأثير التغييرات التي تم إجراؤها على الكود على الفور. ومع ذلك ، فإن لها بعض العيوب عند كتابة التعليمات البرمجية التي قد نرغب في استخدامها في الحياة الواقعية.

لا تعمل الطباعة على الشاشة بشكل جيد إلا عندما لا يكون هناك الكثير منها. إنه رائع للبرامج القصيرة ورسائل الحالة ، ولكنه سرعان ما يصبح مرهقًا للكميات الكبيرة من المخرجات. تكافح بعض المحطات الطرفية مع كميات كبيرة من النص ، أو ما هو أسوأ من ذلك ، لديها قدرة محدودة على التمرير للخلف والتي يمكن أن تتسبب في اختفاء الجزء الأول من مخرجاتك. ليس من السهل البحث في الإخراج الذي يتم عرضه في المحطة ، وتميل الأسطر الطويلة إلى الالتفاف. أيضًا ، بالنسبة للعديد من البرامج ، نريد إرسال أجزاء مختلفة من الإخراج إلى ملفات مختلفة ، بدلاً من وضعها في نفس المكان.

الأهم من ذلك ، يختفي الإخراج الطرفي عند إغلاق برنامج Terminal الخاص بك. بالنسبة للبرامج الصغيرة مثل الأمثلة الموجودة في هذه الصفحات ، فهذه ليست مشكلة - إذا كنت تريد رؤية الإخراج مرة أخرى ، يمكنك فقط إعادة تشغيل البرنامج. إذا كان لديك برنامج يتطلب بضع ساعات للتشغيل ، فهذا ليس خيارًا رائعًا.

فتح ملفات للكتابة

في القسم السابق ، رأينا كيفية فتح ملف وقراءة محتوياته. يمكننا أيضًا فتح ملف وكتابة بعض البيانات إليه ، لكن يتعين علينا استخدام الوظيفة open () بطريقة مختلفة قليلاً. لفتح ملف للكتابة ، نستخدم إصدارًا من وسيطين للدالة open () ، حيث تكون الوسيطة الثانية عبارة عن سلسلة قصيرة تصف ما نريد القيام به بالملف. هذه الوسيطة الثانية يمكن أن تكون "r" للقراءة ، أو "w" للكتابة ، أو "a" للإلحاق. إذا تركنا الوسيطة الثانية (كما فعلنا مع جميع الأمثلة أعلاه) ، فإن Python تستخدم الافتراضي ، وهو "r" للقراءة.

الفرق بين "w" و "a" دقيق ، لكنه مهم. إذا فتحنا ملفًا موجودًا بالفعل باستخدام الوضع "w" ، فسنستبدل المحتويات الحالية بأي بيانات نكتبها إليه. إذا فتحنا ملفًا موجودًا في الوضع "أ" ، فسيتم إضافة بيانات جديدة في نهاية الملف ، ولكنه لن يزيل أي محتوى موجود. إذا لم يكن هناك ملف بالفعل بالاسم المحدد ، فإن "w" و "a" يتصرفان بشكل متماثل - فسيقوم كلاهما بإنشاء ملف جديد لاحتواء المخرجات.

تمتلك الكثير من وظائف وطرق بايثون هذه الوسيطات الاختيارية. لأغراض هذه الصفحات ، سنذكرها فقط عندما تكون ذات صلة مباشرة بما نقوم به. إذا كنت تريد رؤية جميع الوسائط الاختيارية لطريقة أو وظيفة معينة ، فإن أفضل مكان للبحث هو توثيق Python الرسمي - راجع الصفحة السابقة للحصول على التفاصيل.

بمجرد فتح ملف للكتابة ، يمكننا استخدام طريقة file write () لكتابة بعض النصوص إليه. تعمل write () كثيرًا مثل print () - فهي تتطلب وسيطة سلسلة واحدة - ولكن بدلاً من طباعة السلسلة على الشاشة ، تقوم بكتابتها في الملف.

إليك كيفية استخدام open () مع وسيطة ثانية لفتح ملف وكتابة سطر واحد من النص إليه:

نظرًا لأنه تتم كتابة الإخراج إلى الملف في هذا المثال ، فلن ترى أي إخراج على الشاشة إذا قمت بتشغيله. للتحقق من عمل الكود ، يجب عليك تشغيله ، ثم فتح الملف out.txt في محرر النصوص الخاص بك والتحقق من أن محتوياته هي ما تتوقعه.

تذكر أنه باستخدام write () ، تمامًا كما هو الحال مع print () ، يمكننا استخدام أي سلسلة كوسيطة. هذا يعني أيضًا أنه يمكننا استخدام أي طريقة أو دالة تقوم بإرجاع سلسلة. كل ما يلي جيد تمامًا:


إنهاء سلسلة الفلورسنت والرحلان الكهربي

يعد النشاط الإشعاعي خطيرًا وغير مرغوب فيه للعمل مع أجهزة إنهاء السلسلة ذات العلامات الفلورية. تقوم هذه الطريقة بتجميع سلسلة من خيوط الحمض النووي التي تتألق على وجه التحديد عند النهاية التي يتم تمريرها من خلال نظام الرحلان الكهربائي الشعري. عندما تمر شظايا الحمض النووي بالليزر والكاشف ، يتم تحديد إشارة الفلورسنت المختلفة المنسوبة إلى كل ddNTP وتولد مخطط كروماتوجرام لتمثيل التسلسل. تُستخدم أجهزة إنهاء السلسلة الفلورية الآن في التفاعلات وتعمل من خلال أنبوب شعري صغير. يتم تشغيل أصغر الأجزاء أولاً ويتم اكتشافها للكشف عن مخطط كروماتوجرام.

الفلورسنت اللوني تستخدم لتسجيل إنهاء سلسلة النيوكليوتيدات. يتوافق اتساع كل قمة مع قوة أو يقين نداء النيوكليوتيدات. عادةً ما يتم توفير ملفات كروماتوجرام جنبًا إلى جنب مع ملف التسلسل بالامتداد * .ab1 بينما يتم توفير ملفات التسلسل كملف نصي في ملف فاستا صيغة. يمكن العثور على المزيد حول هذه الملفات هنا. تعتبر ملفات ab1 مهمة للغاية في التحليل عند وجود أخطاء غموض أو تسلسل. يمكن أيضًا استخدام ملفات ab1 هذه لإعطاء نقاط جودة للمكالمة الأساسية.

عندما يكون هناك الكثير من الغموض في الإشارة بسبب القمم المتعددة ، ستجد غالبًا امتداد ن بدلاً من أحد النيوكليوتيدات الأربعة (A و T و C و G).

هذا الفيديو (المصدر: www.yourgenome.org CC-BY) آلية إنهاء سلسلة الفلورسنت والرحلان الكهربي.


هل تريد دمج عدة ملفات تسلسلية .ab1 في ملف FASTA واحد؟ - مادة الاحياء

عمليات البحث في قاعدة البيانات: BLAST و NetBLAST و PsiBLAST و HMMER وما إلى ذلك.

العثور على النمط: MEME ، الزخارف ، FindPattern

أدوات مفيدة: بحث الإطار ، FrameAlign ، إلخ.

Wisconsin Package GCG عبارة عن مجموعة برامج تحتوي على أكثر من 130 أداة لتحليل التسلسل. تم تطويره بواسطة Genetics Computer Group في ماديسون ويتم صيانته وتوزيعه الآن بواسطة Accelrys. يمكن الوصول إليه عن بعد من أي جهاز كمبيوتر متصل بالشبكة. هناك ثلاث واجهات مختلفة للوصول إلى GCG:

SeqLab: واجهة X-windows رسومية

SeqWeb: واجهة متصفح الويب e (http://gcg.ucr.edu)

يتم تثبيت التطبيقات الثلاثة على خادم UNIX cache.ucr.edu حيث تتشارك في نفس قواعد بيانات التسلسل. يمكن العثور على تعليمات إنشاء حساب على صفحة GCG الخاصة بنا. ستركز ورشة العمل هذه على SeqLab ، حيث إنها أقوى واجهة GCG وأكثرها تنوعًا.

لتشغيل SeqLab من جهاز كمبيوتر ، تحتاج إلى تكوين X-win32 (لنظام التشغيل Mac OS X: X11 ، التكوين) و PuTTY وفقًا لصفحة التكوين. لنقل الملفات بين جهازك المحلي وخادم GCG ، أوصي باستخدام WinSCP (لنظام التشغيل Mac OS X: Fugu). يمكن العثور على مزيد من المساعدة حول مشكلات التكوين على صفحة GCG الخاصة بنا.

B. بدء SeqLab و Command-Line GCG

قم بتسجيل الدخول إلى cache.ucr.edu (chug.ucr.edu) باستخدام PuTTY (X11 في Mac OS X)

$ seqlab & amp (& quot & amp & quot يبدأ في الخلفية)

بدء سطر أوامر GCG (يمكن أن يكون بالإضافة إلى SeqLab):

المساعدة: في SeqLab تجد مستندات المساعدة بالنقر على قائمة المساعدة في نافذة التطبيقات المختلفة. في سطر الأوامر ، يمكنك فتح ملفات المساعدة هذه باستخدام الأمر & quotgenhelp & quot أو & quotgenmanual & quot. لاسترداد المساعدة لبرامج معينة ، ما عليك سوى كتابة اسمها من بين هذه الأوامر. يمكن العثور على معلومات إضافية في (Online GCG Manual، usr: genhelp، pwd: version102). يمكن العثور على تعليمات عامة حول UNIX في نفس الصفحة ضمن دليل المستخدم.

جيم باستخدام دليل العمل

تعد نافذة دليل العمل أحد أهم مكونات SeqLab. في هذه النافذة ، تحدد الدليل الذي يكتب فيه SeqLab ملفات الإخراج. تذكر ، في GCG تقوم عمومًا بإنشاء العديد من ملفات الإخراج في كل جلسة. يمكن أن يؤدي عدم استخدام هذه الميزة إلى حدوث فوضى كبيرة في حسابك.

للوصول إلى هذه الوظيفة ، انتقل إلى:

خيارات - تفضيلات & gt - & gt Working Directory

انتقل إلى الدليل الذي تريد استخدامه عن طريق كتابة مساره في نافذة التصفية ثم اضغط على إدخال. انقر نقرًا مزدوجًا على النقطتين & quot .. & quot في حقل الدلائل ينقلك إلى الدليل الأعلى التالي.

يمكن إنشاء دلائل جديدة عن طريق كتابة أسمائها في مربع نص التحديد ثم النقر فوق "موافق". يعد WinSCP أداة ملائمة لإنشاء وإدارة الدلائل الجديدة.

SeqWeb يمكن للمستخدمين نسخ ملفاتهم على سطر الأوامر من /usr/local/seqweb/2.0.2/seqweb/html/user/your_account_name/ العمل / في دليل منزلهم.

د. العمل مع نافذة SeqLab الرئيسية

نافذة القائمة الرئيسية هي أداة إدارة مشروع SeqLab التي تسمح لك بتنظيم البيانات على أساس كل مشروع على حدة. هنا وفي المحرر (المحررون أدناه) ، تحدد التسلسلات التي تريد تحليلها باستخدام الأدوات المختلفة المتوفرة في GCG. يمكنك التبديل بين المحرر والقائمة الرئيسية في قائمة الوضع (3).

ملف: تحميل وحفظ المشاريع

تحرير: تحرير العناصر في القائمة الرئيسية والمحرر

الوظائف: حدد أدوات برنامج GCG

الخيارات: دليل العمل وأجهزة الرسومات

Windows: الوصول إلى إدارة المهام وعرض ملف التتبع وميزات التسلسل

القائمة: ملف القائمة الذي تم تحميله حاليًا. لا علاقة له بدليل العمل.

الوضع: التبديل بين المحرر والقائمة الرئيسية

السمات: الحمض النووي (N) ، البروتين (P) ، غير معروف (*) ، للأمام (+) ، معكوس (-) ، الطول ، إلخ.

عنصر القائمة: أسماء الملفات (المسار)

العرض: اختر من بين أوضاع ألوان مختلفة

شريط الرموز: قص (مكوس ونسخ المنطقة المحددة) ، نسخ ، لصق ، حماية (مجموعات الحماية) ، معلومات (يعرض معلومات عن التسلسل)

الخيارات: الضرب الزائد (يستبدل & أمبير ويحذف عند المؤشر) ، إدراج (يُدرج ويحذف عند المؤشر) وتحقق (أعد كتابة التحقق مع تنبيه تنبيه)

الالتفاف: قم بالتبديل بين الشاشة المغلفة وغير المغلفة

عكس: تبديل الخلفية وتلوين الشخصيات

شريط التنقل: يشير إلى الموضع والعمود والاتجاه وما إلى ذلك.

E. تحرير وتعليق التسلسلات

يمكن العثور على وظائف تحرير وبحث التسلسل الشائعة في قائمة "تحرير":

حدد ملفات التسلسل أو مناطق التسلسل التي تريدها

اذهب إلى قائمة التحرير وحدد عكس ، بحث ، ترجمة ، إلخ.

ميزة رائعة لـ SeqLab هي أنه يسمح لك بإجراء هذه العمليات على العديد من التسلسلات في وقت واحد بدلاً من القيام بذلك على أساس واحد تلو الآخر كما هو الحال في معظم برامج تحرير التسلسل الأخرى.

لإضافة تعليقات توضيحية إلى تسلسل أو محاذاة ، يمكنك القيام بذلك داخل التسلسلات (راجع ميزات التسلسل) أو في سطر تعليق منفصل. لإضافة سطر تعليق ، يمكنك تحديد ملف - & gt تسلسل جديد - & gt Text في نافذة المحرر. يظهر سطر جديد يمكن نقله ضمن التسلسل الذي تختاره باستخدام زري النسخ واللصق. قم بالتبديل إلى وضع الإدراج وإضافة تعليقاتك. يمكن حفظ جميع التغييرات بتنسيق RSF.

ملاحظة: لإنشاء تسلسلات وتحريرها من سطر الأوامر ، يمكنك استخدام SeqEd وهو محرر تسلسل تفاعلي إضافي في GCG.

و. استيراد وتصدير التسلسلات

هناك ثلاث طرق رئيسية لاستيراد التسلسلات إلى GCG:

قم بالتبديل في النافذة الرئيسية إلى وضع التحرير

ملف - & gt استيراد - & gt حدد التسلسل وانقر فوق موافق - & gt تحديد نوع التسلسل.

لحفظ التسلسل بتنسيق GCG ، حدد التسلسل في وضع التحرير - & gt ملف - & gt حفظ باسم - & gt & ltname.seq & gt

استيراد محاذاة MSF (يمكن استيراد المحاذاة المنسقة FASTA عبر استيراد الدُفعات):

قم بالتبديل في النافذة الرئيسية إلى وضع القائمة الرئيسية

ملف - & gt إضافة تسلسلات من - & gtSequence Files - & gt حدد محاذاة وانقر فوق موافق.

استيراد الدُفعات (يستورد تسلسلات مفردة أيضًا):

لاستيراد العديد من التسلسلات في عملية واحدة ، يجب أن تكون في ملف واحد متسلسل. إذا كانت لديك ملفات منفصلة ، فيمكنك دمجها مع وظيفة & quotcat & quot في سطر الأوامر: $ cat * .seq & gt batch.seq

الوظائف - & gt استيراد / تصدير - & gt & lts select format & gt - & gt تصفح للوصول إلى ملفك وإعطاء ملف القائمة الجديد اسمًا مثل * .list


يتم حفظ تسلسلات GCG المنسقة كملفات منفصلة في دليل العمل الخاص بك. يتلقى كل ملف اسم معرف التسلسل الخاص به ، والذي يوجد في ملف FastA النص الموجود خلف & quot & gt & quot.

إذا كانت التسلسلات الخاصة بك بتنسيق مختلف ، فيمكنك إعادة تنسيقها في سطر الأوامر:

هناك احتمالان لتصدير التسلسلات من GCG:

يمكن تصدير التسلسلات والمحاذاة التي تم تعديلها في المحرر إلى تنسيق MSF أو GenBank عن طريق تحديدها في المحرر واختيار File - & gt Export - & gt & ltselect format & gt.

لتصدير التسلسلات إلى تنسيق FastA و Staden ، يمكنك تحديد التسلسلات في القائمة الرئيسية واختيار الوظائف - & gt استيراد / تصدير - & gt & ltselect format & gt. عند تحديد FastA كتنسيق إخراج ، يكون لديك الخيار (ضمن خيارات) لتصدير كل تسلسل إلى ملف منفصل أو إلى ملف دفعي FastA واحد. غالبًا ما يُفضل الخيار الأخير إذا كنت تريد استيراد ملفاتك لاحقًا إلى قواعد بيانات أخرى.

G. ملفات التتبع والتجميع والتخطيط

استيراد ملفات التتبع (تنسيق ABI و SCF)

حدد ملفات التسلسل في Editor - & gt من قائمة Windows ، اختر Traces. يمكن تحرير التسلسلات في المحرر وستظهر التغييرات في Trace Viewer.

يمكن حفظ التغييرات بتنسيق rsf (ملفات تسلسل غني) ، والتي تحتوي على التسلسلات المحررة ومعلومات التتبع في ملف واحد.

نظرًا للقيود الزمنية ، ستقدم ورشة العمل فقط ملخصًا موجزًا ​​لأدوات تجميع التسلسل المختلفة المتوفرة في GCG.

التجميع: يسلسل ملفات التسلسل بترتيب الإدخال

& quotGel. أدوات & quot مرتبطة ببعضها البعض وتحتاج إلى استخدامها في التسلسل المحدد:

GelStart: إنشاء مشروع تجميع أجزاء جديد

GelEnter: يضيف تسلسلات محددة لمشروع التجميع

GelMerge: تجميع التسلسلات في مشروع التجميع في contigs

GelAssemble: يتيح لك عرض وتحرير contigs التي تم تجميعها بواسطة GelMerge:

حدد FAS في نافذة GelAssemble

مفتاح لأعلى ولأسفل لتحديد contig و CTRL & ampK لتحميل contig

حرك المؤشر باستخدام مفاتيح الأسهم واكتب التغييرات

لحفظ التغييرات ، قم بالتبديل باستخدام CTRL & ampD إلى وضع الأوامر ، واكتب WRite أو Exit واضغط على Enter.

للحصول على تفاصيل ، اقرأ تعليمات GelAssemble / وضع الأوامر

GelView: يعرض هيكل contigs في مشروع التجميع

GelDisassemble: يكسر كل contigs إلى شظاياها الأصلية

يختار Prim e بادئات قليلة النوكليوتيد لتسلسل قالب DNA. يمكنك السماح لها باستخدام القالب بأكمله لتصميم القالب أو استخدام قائمة من البادئات الخاصة بك.

تعرض الخريطة مواقع تقييد الإنزيم فوق كل من خيوط الحمض النووي جنبًا إلى جنب مع ترجمات البروتين أسفل الحمض النووي (انظر الشكل أدناه).

يعرض MapPlot مواقع التقييد بيانياً.

يسرد MapSort ، حسب الحجم ، شظايا هضم إنزيم التقييد الفردي أو المتعدد.

يقرأ PlasmidMap ملفًا من MapSort (يتم تشغيله باستخدام معلمة سطر الأوامر -PLAsmid) لرسم خرائط بلازميد.

يمكن عرض ميزات التعليقات التوضيحية مثل الإنترونات والمجالات والمعلومات الهيكلية من قواعد البيانات العامة والشخصية بيانياً في نافذة التحرير باختيار خيارات تلوين أو ميزات الرسومات في قائمة العرض.

لعرض ميزات من التسلسلات غير المحاذاة في محاذاة Pileup ، قم بما يلي من المحرر:

قم بتحميل التسلسلات المشروحة في المحرر

قم بإنشاء محاذاة متعددة مع Pileup

أضف ملف MSF الذي تم إنشاؤه حديثًا من Output Manager إلى المحرر. عند المطالبة ، اختر & quot فوق الكتابة فوق التسلسلات الموجودة & quot. سيتم تحميل المحاذاة في المحرر ، وسيتم ترحيل التعليق التوضيحي من التسلسلات غير المحاذاة بشكل صحيح.

قم بتمييز ملف التسلسل أو منطقة التسلسل في نافذة التحرير ، ثم اختر من قائمة Windows خيار الميزات وقم بتوفير معلومات التعليق التوضيحي في النافذة الناتجة. يمكن اختيار الرموز الرسومية في النوافذ الفرعية "تحرير" و "إضافة".

يمكن تخصيص الميزات في ملف feature.cols ، والتي تحتاج إلى أن تكون مترجمة في الدليل من حيث تبدأ SeqLab (/ home / user /). لنقل هذا الملف هناك ، اكتب في سطر الأوامر $ fetch feature.cols. استخدم المحرر المفضل لديك لتعديل هذا الملف وفقًا لتفضيلاتك.

I. طباعة وتصدير الرسومات

أسهل طريقة لطباعة الرسومات أو دمجها في تطبيقات رسومية أخرى ، هي حفظها بتنسيق PostScript ونقل الملف الناتج إلى جهاز الكمبيوتر المحلي الخاص بك ، حيث يمكنك تعديله وطباعته في Ghostview ، وهو برنامج مجاني يمكن تنزيله من هذه الصفحة: http://www.cs.wisc.edu/

شبح / index.htm. عند القيام بذلك لأول مرة ، يجب عليك تمكين تنسيق PostScript في SeqLab ضمن خيارات - & gt أجهزة الرسومات - & gt Language: PostScript

أ) لطباعة التسلسلات والمحاذاة لملف:

قم بعرضها في Editor - & gt File - & gt Print

في نافذة الطباعة ، حدد PostScript في الحقل تنسيق الإخراج والملف في الحقل الوجهة.

ب) لطباعة الرسومات من تطبيقات GCG الأخرى مثل PepPlot:

انقر فوق طباعة في الزاوية اليسرى من هذه النافذة

اكتب اسم ملف في الحقل المنفذ أو الملف.

نظرة عامة على برامج GCG

يمكن الوصول إلى معظم برامج GCG من خلال خيار الوظائف في شريط القوائم في النافذة الرئيسية ، والذي يوفر الوصول إلى 111 أداة تحليل تسلسل مختلفة حاليًا. يمكن أن توفر ورشة العمل هذه فقط مقدمة موجزة عن مجموعة صغيرة من هذه المجموعة الضخمة من برامج GCG.

For an efficient job and database management, please make yourself familiar with the following functions in the Windows menu: Job Manager , Output Manager and Database Browser .

- Lookup identifies sequence database entries by name, accession number, author, organism, keyword, title, reference, feature, definition, length, or date. The output is a list file of sequences, which can be used to load all specified sequences into the Main List or Editor .

- BLAST searches local nucleic acid or protein databases. This important function will be introduced in the next paragraph (K).

- NetBLAST searches NCBI's database online.

- FastA does a Pearson and Lipman search for similarity between a query sequence and a group of sequences of the same type. For nucleotide searches, FastA may be more sensitive than BLAST.

- SSearch does a rigorous Smith-Waterman search for similarity between a query sequence and a group of sequences of the same type (nucleic acid or protein). This may be the most sensitive method available for similarity searches. Compared to BLAST and FastA, it can be very slow.

- PSI-BLAST: Position specific iterative BLAST (PSI-BLAST) refers to a feature of BLAST in which a profile (or position specific scoring matrix, PSSM) is constructed (automatically) from a multiple alignment of the highest scoring hits in an initial BLAST search. The PSSM is generated by calculating position-specific scores for each position in the alignment. Highly conserved positions receive high scores and weakly conserved positions receive scores near zero. The profile is used to perform a second (etc.) BLAST search and the results of each "iteration" used to refine the profile. This iterative searching strategy results in increased sensitivity.

- HMMER can be used to perform sensitive database searching using statistical descriptions of a sequence family's consensus. Related software packages are PSI-BLAST and SAM. A very nice user guide on HMMER can be found on Sean Eddy's home page (http://hmmer.wustl.edu/).

HmmerAlign aligns multiple sequences to a profile HMM. It can be used to create alignments of large numbers of sequences. HmmerBuild builds a profile HMM from a given multiple sequence alignment. HmmerCalibrate determines appropriate statistical significance parameters for a profile HMM prior to doing database searches. HmmerConvert converts HMMER profile HMMs to other formats. HmmerEmit generates sequences probabilistically from a profile HMM. HmmerPfam searches a profile HMM database with a sequence. HmmerSearch searches a sequence database with a profile HMM.

- Pileup creates a multiple alignment of unaligned sequences. The alignment is written to a MSF file which can be imported into many alignment editing tools, such as GeneDoc.

- MEME finds conserved motifs in a group of unaligned sequences .

- Motifs looks for sequence motifs by searching through proteins for patterns defined by PROSITE.

- FindPatterns looks for patterns defined by the user .

Protein Analysis: Browse through the different protein analysis tools to identify which ones may be useful for your work.

- PeptideStructure makes secondary structure predictions including alpha, beta, coil, turn, antigenicity, flexibility, hydrophobicity and surface probability. A very useful exercise on predicting structure and antigenicity of peptides can be found on this page: http://mcf.ahc.umn.edu/Tutorials.htmls/minitutor6.html

- FrameSearch searches a group of protein sequences for similarity to one or more nucleotide query sequences, or searches a group of nucleotide sequences for similarity to one or more protein query sequences. For each sequence comparison, the program finds an optimal alignment between the protein sequence and all possible codons on each strand of the nucleotide sequence. Optimal alignments may include reading frame shifts.

- FrameAlign creates an optimal alignment of the best segment of similarity (local alignment) between a protein sequence and the codons in all possible reading frames on a single strand of a nucleotide sequence. Optimal alignments may include reading frame shifts.

- BackTranslate backtranslates an amino acid sequence into a nucleotide sequence. The output helps you identify areas with fewer ambiguities that might be candidates for synthetic probes.

K. Large-scale Sequence Analysis: BLAST Example

Many sequence analyses in GCG can be performed in a batch pipeline. The sequence search tools FASTA and BLAST are just two of many of those "batch" applications, which query sequences databases that are installed locally on cache.ucr.edu. The application NetBLAST allows you to perform online searches against sequence databases on the NCBI server, but it is limited to one sequence submission at a time.

To run many BLAST and FASTA searches at once on cache.ucr.edu, you must first select the sequences of your choice in the Main List or Editor. For selecting sequences you have several options:

Select individual sequences in Main List or Editor

Select a database or DataSet (see below) in Main List or Editor

Select a list file of "sequence pointers" the Main List or Editor

To start the BLAST search with the selected sequences, you choose Functions -> Database Sequence Searching -> BLAST. In the open BLAST window you need to select whether you want to search a nucleotide/protein database (defines use of BLASTN, BLASTX, TBLASTN, TBLASTX) and the Search Set (specifies database). Under Options you set the search parameters:

here you normally want to reduce the number of sequence hits from the default of 500 (which is a waste of storage space) to a much smaller number

under Format for Alignments you have the choice between many options: standard, XML, tab delimited, etc. Some of these options can often simplify the downstream data parsing.

usage of filters and masks

scoring matrix: default is BLOSUM62, you have the option to change to BLOSUM45, 80, and PAM30, 70 by clicking on Specify Scoring Matrix

Note: When you perform batch operations in GCG, the software names the output after the sequence/query ID#s and their file extensions correspond to the name of the search tool. Example: gi343848.tblastx.

For parsing of BLAST result, you can try to use on the command line our Perl script "blastParse" or this simple Perl one-liner:

perl -ne 'print if (/Query=/ ? ($c=1) : (--$c > 0)) print if (/End of List/ ? ($d = 9) : (--$d > 0))' input.blast > output.parse

List files are a very efficient way to perform analyses of specific sets of sequences. Since they contain only pointers to the sequences, they can save you a lot of storage space (no duplication of large sequence data) and allow very quick selections of defined sequence groups to perform various analyses simultaneously. For instance, one can quickly create a list file for thousands of sequences in a spread sheet program and submit it to the sequence search tools of your choice. The format of a list file looks like this:

One way of creating a list file is to select the sequences of your choice in the Man List window and then save it as *.list under File -> Save List As.

An alternative and often more flexible way of creating list files is to use a spread sheet program or WordPad on your local machine (use file extension *.list). To import a list file into the Main List, there are two options:

File -> Open List -> select *.list file

File -> Add Sequences From -> Sequence Files -> select *.list file

Note: List files with more than 2000 sequences cannot be expanded (viewed) in the Main List .

In addition to specifying query sequences, certain SeqLab application allow you to specify database records that will be used for a search or analysis. Programs that accept user-defined search sets are FastA , FindPatterns, FrameSearch, Overlap, ProfileSearch, SSearch and StringSearch . In all these programs you specify the search set by clicking on the Search Set button of the individual application, which opens a search set builder window. Note: Each application uses its own search set.

N. Creating Personal Sequence Databases with DataSet

To add your personal sequences to the Database Browser , you need to use the application DataSet . For this you first switch to the appropriate working directory (see C.), then you sel ect your sequences or their list file in the Main List window, and choose: Functions -> Utilities -> Databases Utilities -> DataSet . You will be prompted with a dialog window where you assign a name and then press Run . This will add the following three files to your current working directory: *.header, *.ref and *.seq. When finished you should see your personal database in the Database Browser.

Note: A DataSet is different from a BLASTable database, which is explained in the next paragraph.

O. Creating BLASTable Sequence Databases

Create a new directory where you want to store your BLASTable databases and make it your working directory (see C.). Then you select the sequences that you wish to create a BLASTable set from, and choose: Functions -> Utilities -> Databases Utilities -> GCGtoBLAST.

You will be presented with a dialog window that allows you to assign a name to the set. Enter a name and press Run . This operation creates five new files in your current working directory: *.phr, *.pin, *.psd, *.psi and *.psq. All sequence data are contained in this file structure. To save storage space, you can now delete the initial sequence files. Searching the database that you created requires that you first access the Wisconsin Package from the command line so that you can properly modify a configuration file, which is necessary to add a reference to your new BLASTable database to the BLAST database Search Set menu. To do this you would do the following from the UNIX command line after starting the Wisconsin Package there:

$ pico blast.sdbs (if you don't know how to use the pico editor you can update this text file in WordPad)

At the end of the file, add a line like: /path/db-base-name p my own blast database

Here are some notes for editing this line:

Substitute the actual full path to your newly created database for /path/

Substitute the base filename (the name you entered for the BLAST database when you created it) for db-base-name

The second column should be "p" for a protein database and "n" for a nucleotide database

To BLAST against your personal databases, your working directory needs to be the highest level in your home directory (this is a bug in our installation).

Within WinSCP: Create the following directories within the master directory Exercises: Seq, Pep, Database and Analysis. Use these directories to organize the work of the following exercises.

Within SeqLab: Create the same directory structure with the working director manager in SeqLab (see C.).

Import trace files: Download the trace files 09.ab1 & 13.ab1, import them into SeqLab, view trace plus text sequences, export the latter into FASTA or GenBank format and view them with WordPad on your local machine.

Import single sequences: Run in your web browser query "P450 & hydroxylase & acid & human [orgn]" against the NCBI Protein Database. Save the first ten proteins in FASTA and GenBank formats and import them one-by-one into SeqLab. Create alignment with Pileup .

Batch import: Import entire proteome of Halobacterium spec. from ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Halobacterium_sp/AE004437.faa.

Import alignments: Create multiple alignment of sequences from 2.2. using MultAlin. Import alignment in MSF and FASTA formats.

Export: Export in single and batch sequence modes. Export alignment in MSF format.

In sequence: view imported sequence from 2.2. in Editor, display and add features.

In alignment: run Pileup with Lookup list file from 4.1. and transfer alignment annotations into Editor and find heme binding cystein residue, export alignment and view it in GeneDoc (only on PC).

Database searches: Lookup, FASTA, SSearch, BLAST, HMMER

Lookup : run query "CYPIII (All text) & P450 (Def)" in Lookup against SwissProt database.

SSearch, FASTA, BLAST and PSI-BLAST : query with one of these sequences the SwissProt database using SSearch, BLAST and FASTA.

HMMER : Align sequences from 4.1. Retrieve and align remote homologs from SwissProt database with HMMER: HmmerBuild, HmmerCalibrate, HmmerSearch and HmmerAlign.

Create BLASTable database

Create BLASTable database for proteome from Halobacterium spec. (imported under 2.3.).

Motifs : Use Motifs to find PROSITE patterns in protein alignment from 2.2., find pattern with Edit/Find and highlight it in all sequences at once using the Feature function.

FindPattern : find out how many sequences in the SwissProt database share this pattern using FindPattern .

Consensus and FitConsensus : retrieve the corresponding nucleotide sequences, align them, calculate consensus sequence with Consensus and query with it a small nucleotide database using FitConsensus .

MEME and MotifSearch : use MEME to find conserved motifs in your set of unaligned nucleotide sequences. Use the resulting MEME profiles to query a small nucleotide database with MotifSearch .

PAUP : use PaupSearch to generate a bootstrapped tree from alignment under 2.2. Edit tree with PaupDisplay , Treeview (local) and PowerPoint.

Distance Matrix : calculate distance matrix for alignment using Distances and plot its tree with Display .

Molecular tools: Primer design, backtranslate

Primer design : Design primers that amplify the longest ORFs of the two sequences from 2.1.

Restriction map : generate restriction map for one of the sequences from 1.1. استخدام Map .


Reading FASTA files in python3: Tut2

This is the second video tutorial about Python 3 for Biologists, the absolute beginner course. In this lecture, I talk about a method to read fasta files and extract valuable information from the file. One valuable piece of information is the CDS (coding sequence). For that I use several methods to clean the DNA sequence and then find the index values of the CDS. Finally extract the CDS.

Video taken from the channel: Shad Arf


Run AmpliMERGE

Your use of any of these tools is at your own risk. We do not give any representation or warranty nor assume any liability or responsibility for the data nor the results posted (whether as to their accuracy, completeness, quality or otherwise). Access to these data is available free of charge for ordinary use in the course of research. By visiting the site, you accept our use of cookies and you accept that your data and results will be stored in our server.


Guide to editing sequences with Chromas and BioEdit

Chromas has the advantage the you can save all of your chromatograms which can subsequently be used in any other programs unlike Sequencher which saves everything in a project file which cannot be opened by anything else. If I loose my sequence alignment, at least all my chromatograms with the correct edits are still there to rebuild it from. BioEdit can also edit chromatograms, but I find Chromas to be nicer. MEGA also has an alignment editor, but I ve not really used it very much.

Double click on the chromatogram file (usually has the extension ab1). This opens the file in Chromas (see below under installation notes if some other program opens it instead of Chromas). The chromatograms come off the machine with all bases in upper case. I usually make all of my edits as lower case bases as it makes it easier to identify where I have made edits. When I am done I save the chromatogram and export the data to a line file (which is saved with a .seq extension). Alternatively, you can go edit, copy sequence, FASTA format and paste that into BioEdit. One trick I find useful later is to always edit your sequences from the same starting base (unless the starts are all messy), as it makes sequence alignment much easier later.

I ve always used the free Chromas version, Chromas Lite, but there are two other versions with more features that are fairly cheap. http://www.technelysium.com.au/chromas.html Each of the commercial versions have a free 60 day trial should you wish to try them.

Aligning sequences with BioEdit

I use BioEdit to align sequences as it is free and has some handy features. The most annoying aspect is that you have to manually align up each sequence and manually create a consensus sequence (which commercial programs like Sequencher and Geneious are very good at). Aside from that limitation (which isn t as bad as it might sound once you learn a few tricks), I really like its features. It is the only program I know of that allows you to edit, search and replace, and paste over the sequence title names independent of your sequences. I use this feature on nearly every dataset I create. As far as I can tell there is no difference between saving your file as a BioEdit formatted file versus as a fasta file. I would recommend saving everything in fasta format since that is the format I use in order to convert the data to another format or to another person (who probably doesn t have a copy of BioEdit).

One quirk of BioEdit is that if you double click a data file it will open in a new copy of BioEdit, not in an existing one. The regular copy and paste features work between copies of the program, but copying and pasting sequences does not. If you need to copy and paste between copies of the program select the sequences, go Edit, Copy Sequences to clipboard (FASTA Format). In the other copy of BioEdit I usually go File, New from Clipboard. I then select those sequences (control-shift-a), cut (control-shift-c) or copy them (control-a) and paste them (control-s) to the desired BioEdit file. The reason why I paste them to a new file first is that importing from the clipboard (File, Import from Clipboard) will place them at the bottom of your file, which is usually not where I want them be.

Once I have edited all of my chromatograms I copy the .seq files into an empty directory. Open BioEdit from the start menu. Note that I have changed or set many menu short cuts (see BioEdit stuff to change after installation below) to make things quicker, thus these instructions are based on these changes. Create a new BioEdit file. To import .seq files exported from Chromas go File, Import, Sequence alignment file, browse to the correct directory, change file type to all, and select the files (.seq) exported from Chromas (in the open file box it often helps to change the view type to details, then click on type to group them all together). If you wish to keep them in the same order as they are in your directory then click on the bottom sequence file first, then click on the top one while holding the shift key. Make sure your mode is set to edit and insert. It helps if you edit the sequences to start from the same base prior to importing them, that way if you do multiple sequences they are already mostly aligned. And save frequently! There is no auto save function.

I usually import all the forwards and reverses into a new BioEdit file. I first group all the forwards together, then all the reverses. I manually align them and check for obvious missing bases and either correct them or add a gap to preserve the alignment. Before trying to merge the forwards and reverses together, reverse the first reverse sequence (Sequence, Nucleic Acid, Reverse Compliment or control-shift-r) and align it to your forward sequence (usually I have to delete a few bases). Once that is aligned, reverse it back to its original orientation and trim / add to all of the reverse sequence ends so that they are the same length as the first sequence (you can draw a box to select the bases at the end, then hit delete). Then reverse compliment all of them and they should be perfectly aligned relative to the forwards. (otherwise when you reverse compliment them they will all need to be realigned). Note that this works best with coding sequences without indels as every sequence is an identical length, it is all a bit trickier with different length sequences. In that case I try and get them close, but each individual one many require adjustment. Once I am happy with that I ready to create what will become the consensus sequences. I copy all the forwards to a new BioEdit file, select the sequence titles (Edit, Select All Sequences, control-shift-a) and copy them to clipboard (Edit, Copy Sequences, control-a), make the new BioEdit file active and paste them in (Edit, Paste Sequences, control-s). I copy the sequence titles to the clipboard (Edit, Copy sequence titles). I paste these into Microsoft Word and use search and replace to get rid of extra details. My sequence names look like this, PU26226.NVCann.1.Glu31. I trim off the sequence number (search for PU^#^#^#^#^#. and replace with nothing), change the primer name (search for .Glu31 and replace with .cons), that gives me NVCann.1.cons as the sequence name. Select them all (control-a), copy to clipboard (control-c), go back to BioEdit, to paste these names over the existing ones. Go Edit, Paste Over Titles. Now your BioEdit file has all the forwards and reverses, with the .cons sequences in another file. Now comes the painful part as you have to drag and/or cut and paste them all together such that you have the forward, then reverse, then consensus for each individual next to one another. It helps to also have additional individuals from the same population all next to one another too. To correct the consensus sequence I copy and paste the sequences from a population (or individual, group, etc.) to a new BioEdit file. Change the view type (on the lower toolbar (3rd) of the alignment window), select the third colored button from the left (says Shade identities and similarities when you hold the mouse over it). This highlights any columns that have different bases. Depending on how well your reverse sequences overlap with your forwards, scroll right until they overlap with good sequences. Select all the reverse sequences and cut them. This will allow you to see any base pairs that are different in the clean forwards. I check any unique differences by opening the chromatogram. Undo the cut of the reverses (Edit, Undo or control-z) (note that this only works if you haven t made any other edits, otherwise you have to paste them at the bottom and drag them back up to the correct place). Now scroll right again and look for any bases that need checking. Eventually the forwards will start to be a poor match to the reverses. At that point I finish my consensus sequence. I select a point in the reverse, then select sequence to the end (Edit, Select to End, control-e). Copy it (control-c). Now place the cursor in the same place in the consensus sequence. Hit control-e to select to the end, hit delete, move right one base then paste (control-c). Repeat for each consensus. Just be sure to select to end from a different location each time to reduce the chances of pasting the wrong reverse into your consensus. Now I select all the forward sequences and cut them and scroll right to check for any bases changes that need to be checked. Then I undo the cut, select all the sequences (Edit, Select All Sequences, control-shift-a), copy them (control-a--note that copy and pasting sequences is different to any other copy and paste action). Go back to your BioEdit file with all your sequences (which should still have the original sequences highlighted), paste the sequences (control-s), then delete the selected sequences (control-d), thus replacing the newly edited ones and removing the originals. Hit save (control-shift-s) and repeat for each group of sequences. At the end of this phase you have done two data checks, one when you edited your original chromatogram, second when you checked any unique base pair changes.

For each gene within a dataset I usually have this file with the forward, reverse and consensus. I then create a second file which has only the .cons sequences. The .cons sequences can then be trimmed to the target length and then they are ready to convert to the appropriate data file format for analysis. I always keep the BioEdit file with all forwards, reverses and consensus sequences so that if I double check stuff later it is easier to find the relevant chromatograms (I can tell what sequence is from where by the sequence name). I usually add more forwards and reverses to my existing BioEdit files since they are already setup and aligned correctly, otherwise you ll end up with many different, but similar versions of your files and it will be difficult to know which is the correct, most complete version.

All of that probably sounds very confusing, once you have carefully worked through it a couple of times it becomes very easy.

Importing data for phylogenetic analysis

In BioEdit, clean up all the ends and get things to the base pairs you want to analyze. It can be helpful to make sure any missing bases are labeled with an n, only use a - for indels so that you can easily distinguish which is which.

If I wished to create a MEGA files I would select all sequences (control-a), go Edit, copy sequences to clipboard (Fasta format). Open an existing MEGA file in Word. Remove the existing sequences (from the first sequence hit control-shift-end, then hit delete), then paste in the ones you just copied. Do a search for > and replace them with # (MEGA files require each sequence start with #). Note how many replacements it does, this is the number of samples. Enter that information in the header of the MEGA file. Figure out how many base pairs are present (in BioEdit, go to the last base and select it and look at the number). Enter that information in the header of the MEGA file. Save the file as text only and make sure it has the correct file extension (.meg). If the program sticks the .txt on the end manually change it in File Explorer.

Double click the MEGA file and MEGA will open the file and check and report any errors in the data file that are usually easily fixed either in MEGA s editor or in Word/BioEdit (make sure you correct it in the original dataset too, otherwise you ll get the same error next time you export your data). Then I run a NJ analysis to see what is going on with the dataset. I usually set Gaps / Missing data to pairwise deletion, otherwise it excludes all positions that have any ambiguous bases.

Chromas and BioEdit installation notes

When you first install BioEdit and Chromas, the default will be that BioEdit opens the chromatogram files. To fix this, right click on a chromatogram, select properties, it should say opens with BioEdit, hit change, browse to the Chromas executable, select it, choose always open with this program, hit ok. Now when you double click on a chromatogram it will open in Chromas.

BioEdit stuff to change after installation

BioEdit lets you modify just about anything that it does relative to menus and keyboard short cuts as well as the default settings for displaying data. Once you set your preferences on one machine you can copy the bioedit.ini file to any other machine to transfer them. You can download my bioedit.ini file here and save it to your BioEdit directory (rename your existing copy to something else in case you run into any problems). These are my preferences, you can use these or change them whatever you prefer. I hate menus, so anything that I can use the keyboard for I tend to change it. Much editing in BioEdit requires extensive repetitive actions, so using the menus will rather slow. To change settings first create a new alignment (File, New Alignment) or open an existing file. Next go View, Customize Menu Shortcuts. Select the value you wish to change, hit the value on the keyboard and that will reset it.

These are the changes I make.

Save, change to Control+Shift+s

Cut sequences, change to Control+Shift+c

Copy sequences, change to Control+a

Paste sequences, change to Control+s

Delete sequences, change to Control+d

Select all sequences, change to Control+Shift+a

Select to end sequences, change to Control+e

Select to beginning sequences, change to Control+b

Go to Options, Preferences

Under include (far left), select N, move it to don t include.

Go to Options, Color Table

I change all the ambiguous bases to yellow as that makes it much easier to see them.

On the lower toolbar (3rd) of the alignment window, select the first solidly colored button. This changes the way the sequences are displayed.

On the middle toolbar (2nd) in the alignment window change mode to edit, change box next to it to insert.

Go View, save options as default. If you don t hit this option then all of the changes are lost. Close BioEdit, reopen your files and the settings should all be saved.


شاهد الفيديو: 102. دمج عدة ملفات اكسل Excel في ملف واحد باستخدام Power Query - الطريقة 1 (ديسمبر 2022).