معلومة

من معرفات refseq إلى معرفات مصطلح Go

من معرفات refseq إلى معرفات مصطلح Go


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لدي قائمة بأرقام الانضمام إلى Refseq مثل:

YP_009448812 YP_009448725 YP_009448701 NP_659591 حوالي 10000 رقم حساب…

وأنا أبحث عن أدوات في R أو Python من أجل الحصول على معرفات مصطلح Go المقابلة.

جربت الحزم(org.Mm.eg.db)و(الله ب)لكنها لم تعمل.

> المصطلح (get (get (get ("YP_009165174"، org.Mm.egREFSEQ2EG)، org.Mm.egGO))) خطأ في .checkKeys (value، Rkeys (x)، x @ ifnotfound): قيمة لـ "YP_009165174" غير موجود> المصطلح (الأسماء (get (get ("YP_009448701"، org.Mm.egREFSEQ2EG)، org.Mm.egGO))) خطأ في .checkKeys (value، Rkeys (x)، x @ ifnotfound): قيمة لـ " YP_009448701 "غير موجود> المصطلح (الأسماء (get (get (get (" NP_659591 "، org.Mm.egREFSEQ2EG)، org.Mm.egGO))) خطأ في .checkKeys (value، Rkeys (x)، x @ ifnotfound): value لـ "NP_659591" غير موجود> المصطلح (الأسماء (get (get (get ("YP_009448812"، org.Mm.egREFSEQ2EG)، org.Mm.egGO))) خطأ في .checkKeys (القيمة ، Rkeys (x) ، x @ ifnotfound) : قيمة "YP_009448812" غير موجودة

هل يوجد عندكم اي فكرة؟ شكرا لك على وقتك. لا يمكنني العثور على egREFSEQ2EG للفيروسات.


لذلك ، لقد بحثت قليلاً في هذا والطريقة التي تريد إجراء تحليلك بها لن تعمل كما خططت لها. والسبب الرئيسي لذلك هو أن قاعدة بيانات GO لا تحتوي على أي أنواع من الفيروسات (كما أراها). يعد وجود الأنواع التي تريد تحليلها في قاعدة البيانات أمرًا مهمًا ، لأنك تحتاج إلى مجموعة جينات مرجعية أو خلفية لإجراء تحليل الإثراء. حتى إذا كنت مهتمًا فقط بمعرفات الهوية وترغب في إجراء التحليل بنفسك ، فهذا يعني أنه من غير المحتمل أن تجد أي شيء لجيناتك / بروتيناتك في قواعد بيانات GO.

أفضل بديل لك هو استخدام قواعد بيانات التعليقات التوضيحية الأخرى والاعتماد على التعليقات التوضيحية الخاصة بهم أو تعيين التعليق التوضيحي الخاص بهم إلى معرفات مصطلحات GO (فيما يلي قائمة بجميع قواعد البيانات التي تسمح بذلك).

من المحتمل أن يكون أفضل رهان لك على ذلك هو قاعدة بيانات UniProt ، حيث يجب أن تحتوي على إدخالات لمعظم البروتينات الخاصة بك (على الرغم من أنه لن تحتوي جميعها على مصطلحات GO مشروحة). يقدم UniProt أيضًا أداة تعيين المعرف التي يجب أن تكون قادرة على تحويل معرفات RefSeq إلى معرفات uniprot ، كما أنها تأتي مع واجهة برمجة تطبيقات للبيثون. لاحظ أن بعض معرّفاتك (معرّفات YP_) هي إدخالات RefSeq مؤقتة وأن أداة صفحة الويب لا تجدها إلا في قاعدة بيانات UniParc (وليس UniProt KB).

بمجرد حصولك على معرّفات UniProt ، يجب أن تكون قادرًا على تعيين شروط GO المتاحة من هناك (انظر الإدخالات الأخيرة للرابط الأول أعلاه).


من معرفات المرجع إلى معرفات مصطلح الانتقال - علم الأحياء

GOrilla هي أداة لتحديد وتصور مصطلحات GO الغنية في قوائم الجينات المرتبة.
يمكن تشغيله بأحد وضعين:

  1. البحث عن مصطلحات GO المثرية التي تظهر بكثافة في أعلى قائمة مرتبة للجينات أو
  2. البحث عن مصطلحات GO المخصبة في قائمة الجينات المستهدفة مقارنة بقائمة الجينات الخلفية.

إذا اخترت استخدام هذا التطبيق ، فيرجى الاستشهاد بما يلي:

  • عيران إيدن * ، روي نافون * ، إسرائيل شتاينفيلد ، دورون ليبسون وزوهار ياخيني. & مثلGOrilla: أداة لاكتشاف وتصور مصطلحات GO الغنية في قوائم الجينات المصنفة& quot ، BMC Bioinformatics 2009 ، 10:48.
  • عيران إيدن ، دورون ليبسون ، سيفان يوغيف ، زوهار ياخيني. & مثلاكتشاف الدوافع في القوائم المصنفة لتسلسل الحمض النوويs & quot ، PLoS Computational Biology، 3 (3): e39، 2007.

يتم إنشاء الرسومات باستخدام Graphviz.

تم تصميم مكونات نظام GOrilla كجزء من مشروع Multi Knowledge الممول من الاتحاد الأوروبي FP6.


من معرفات المرجع إلى معرفات مصطلح الانتقال - علم الأحياء

مرحبًا بكم في أدوات علم الوجود الجيني التي تم تطويرها ضمن مجموعة المعلوماتية الحيوية في معهد لويس سيجلر.

تقدم صفحة تعليمات GO في SGD الوصف التالي لعلم الوجود الجيني:

"تم إنشاء مشروع علم الوجود الجيني (GO) لتوفير لغة مشتركة لوصف جوانب بيولوجيا منتج الجينات. يسمح استخدام مفردات متسقة بمقارنة الجينات من الأنواع المختلفة بناءً على تعليقات GO التوضيحية. والهدف من GO هو توفر مفردات مضبوطة لوصف العملية البيولوجية والوظيفة الجزيئية والمكون الخلوي للمنتجات الجينية. يجب استخدام هذه المصطلحات كسمات للمنتجات الجينية بواسطة قواعد بيانات الكائن الحي ، مما يسهل الاستعلامات الموحدة عبرها. يتم تنظيم مفردات المصطلحات الخاضعة للرقابة إلى السماح بالتعليق التوضيحي للمنتجات الجينية على مصطلحات GO بمستويات مختلفة من التفاصيل والاستعلام عن منتجات الجينات التي تشارك في عمليات ووظائف ومكونات متشابهة. "

لمزيد من المعلومات حول GO ، يرجى الاطلاع على موارد GO ذات الصلة.


    تجد أداة الويب هذه مصطلحات GO المهمة المشتركة بين قائمة الجينات من الكائن الذي تختاره ، مما يساعدك على اكتشاف ما قد تشترك فيه هذه الجينات.

تطبيق حديث لخوارزميات GO Term Finder التي تتميز بسرعة كبيرة وتحسينات أخرى.

تقوم أداة الويب هذه بتعيين تعليقات GO التوضيحية للجينات في قائمة إلى مجموعة من مصطلحات GO ضئيلة ، مما يسمح لك بتجميع جيناتك في فئات واسعة.


الدورة التعليمية

في صفحة "أدوات GOEAST" ، يمكنك العثور على الأداة المناسبة لمختلف منصات ميكروأري. في الوقت الحالي ، تمتلك GOEAST أدوات لثلاث شركات ميكروأري تجارية (Affymetrix و illumina و Agilent) ولأي مصفوفة ميكروأري مخصصة ، إذا كانت المجسات الموجودة على المصفوفة الدقيقة المخصصة تحتوي على معلومات شرح GO. على سبيل المثال ، إذا استخدمت المصفوفات الدقيقة Affymetrix & # 174 ، فيمكنك العثور على أداة لها في المنطقة المحددة في الشكل 2.

الشكل 2. صفحة أدوات GOEAST

بعد اختيار منصة ميكروأري المناسبة ، يمكنك بسهولة بدء التحليل باتباع الإرشادات الواردة في كل صفحة. على سبيل المثال ، إذا كنت في صفحة أداة GOEAST Affymetrix ، فيجب عليك تحديد الأنواع واسم المصفوفة الدقيقة الذي استخدمته أولاً ، ثم قم بتوفير قائمة الجينات في تنسيق معرف مسبار Affymetrix إما عن طريق طريقة القص واللصق أو عن طريق تحميل ملف نص عادي. يمكن تغيير المعلمات المتعلقة بنتائج التحليل بعد تحديد الخيار "دعني أختار" (الشكل 3). نظرًا لأن بعض التحليلات قد تستغرق ما يصل إلى ساعة ، يلزم وجود عنوان بريد إلكتروني صالح لإرسال النتائج إليك.

الشكل 3. المتغيرات المتقدمة المتاحة لأدوات GOEAST

سيتم عرض نتائج تحليل GOEAST في صفحة المعالجة (الشكل 4). سيتم أيضًا إرسال بريد إلكتروني يحتوي على رابط إلى النتائج إلى المستخدمين (الشكل 5).

الشكل 4. مثال على صفحات انتظار أدوات GOEAST
الشكل 5. مثال على إنهاء البريد الإلكتروني الخاص بأدوات GOEAST
الشكل 6. مثال على نتائج تحليل GOEAST

يوفر الزر "مشاهدة التفاصيل" في جدول HTML معلومات إضافية عن كل مصطلحات GO المخصّصة. قد يختلف محتوى المعلومات التي توفرها هذه الوظيفة بين منصات ميكروأري المختلفة ، وفقًا لتوافر المعلومات المرتبطة بكل منصة ومحدودية المساحة. على سبيل المثال ، تحتوي المعلومات التفصيلية لنتائج تحليل Affymetrix microarray على معرّفات المسبار ، ووصف هدف التحقيق ، ورمز الجين ، ومدخل نسخة REFSEQ ، ومعرف Ensembl ، ومعرف SwissProt ، ومعلومات مسار KEGG. (الشكل 7).

الشكل 7. مثال على تفاصيل مصطلح GO المخصب لمنصة Affymetrix

متى يتم تعيين GeneIDs وكيف يتم تصنيف كل منها؟

عادةً ما يتم تعيين GeneID لما تم شرحه كجين في سجل RefSeq. تشمل الاستثناءات RefSeqs من الجينومات البكتيرية التي تم شرحها في تسلسل بنادق الجينوم الكامل. يمكن أيضًا تعيين GeneID في حالة عدم وجود RefSeq. قد يحدث هذا عندما يقوم مصدر موثوق للجينوم ، مثل قاعدة بيانات نموذجية خاصة بالكائن الحي ، بتعيين معرف لما يسمى الجين أو الموضع أو السمة المعينة ، على الرغم من أن هذا الكيان لم يتم تعريفه بالكامل بالتسلسل. عندما يتم إنشاء سجل في Entrez Gene ، يتم تعيين فئة له (مثل تشفير البروتين ، الجين الكاذب ، الرنا الريباسي ، غير معروف) بما يتوافق مع أنواع الجزيئات المحددة بواسطة INSDC. يتم استخدام المصطلح "غير معروف" عندما تكون الفئة قيد المراجعة بواسطة فريق RefSeq ، كما هو الحال عندما يتم شرح بعض التسلسلات التي تحدد الجين بمناطق الترميز ، ولكن دعم هذا التعليق التوضيحي غير حاسم. يمكن أن تتغير الفئة دون تغيير GeneID.

ممثل كامل السجل

ينقسم السجل الكامل في Entrez Gene إلى أقسام خاصة بالمحتوى كما تم تلخيصه في جدول المحتويات ورؤوس الأقسام (الشكل 2). يمكن طي كل قسم من السجل ، ويحتوي قسم القسم على ارتباط (رمز: علامة استفهام) للوثائق ووظيفة للعودة إلى أعلى الصفحة. لن تحتوي جميع السجلات على محتوى في كل فئة ، ولكن تحتوي جميعها على GeneID وأسماء ومعلومات تدعم إنشاء السجل (إما تسلسل أو ارتباط إلى قاعدة بيانات خارجية أو منشورات). لا تتم مراجعة بعض المحتوى من قبل موظفي NCBI ، ولكن يتم دمجه تلقائيًا. على سبيل المثال ، المحتوى الموجود في قسم التفاعلات ، والعديد من أقسام أقسام معلومات الجينات العامة هي بشكل أساسي من مجموعات خارجية [على سبيل المثال EcoCyc (4) ، Gene Ontology Consortium (5) ، KEGG (6) ، Reactome (7)]. عندما تتوفر RefSeqs الجينومية المشروحة مع الجين ، يتضمن قسم "المناطق الجينومية والنصوص والمنتجات" عرض تسلسل تفاعلي مضمن يمكن توسيعه. لتسريع تحميل صفحات الويب ، غالبًا ما يعرض العرض الافتراضي للسجل الكامل مجموعة فرعية فقط من المعلومات الببليوغرافية والتفاعلية. يتم توفير الروابط داخل هذه الأقسام للتنقل إلى صفحات إضافية. للحصول على التقرير الكامل في صفحة واحدة ، يتيح خيار "إرسال إلى" حفظ السجل كملف نصي.

يتم توفير وثائق شاملة وحديثة لمحتويات هذه الأقسام وصيانتها في كتاب مساعدة الجين على رف كتب NCBI (http://www.ncbi.nlm.nih.gov/books/NBK3839/).

بالإضافة إلى المحتوى الذي يعرضه مباشرة ، يوفر Entrez Gene روابط عديدة لمعلومات من قواعد بيانات أخرى داخل النص وفي قائمة الروابط على اليمين (الشكل 2). على سبيل المثال ، يؤدي النقر فوق "RefSeq protein" أو "RefSeq RNA" أو RefSeqGene في القائمة الموجودة على اليمين إلى نقل المستخدمين إلى قاعدة بيانات Nucleotide حيث يمكن استرداد سجلات RefSeq الخاصة بجين واحد ومراجعتها وتحليلها. وبالمثل ، يمكن للمستخدمين تحديد روابط HomoloGene أو ProteinClusters (8) لتكامل المعلومات حول المتماثلات ، و Map Viewer للسياق الجينومي الموسع والخرائط المقارنة ، و GENSAT ، و UniGene ، و GEO لبيانات التعبير ، وقاعدة بيانات المجال المحفوظة لمحتوى مجال البروتينات ، OMIM (9) ) للاضطرابات البشرية المندلية ، PubMed وكتب المنشورات. يوفر Entrez Gene أيضًا روابط واسعة النطاق لقواعد البيانات الخاصة بالأنواع أو الجينات أو سجلات الجينات في متصفحات أخرى. تستخدم العديد من المجموعات أيضًا طريقة LinkOut (1) لربط مواردها بالمعلومات الموجودة في Entrez Gene. يساهم تكامل روابط المحتوى الصريح في التقارير الخاصة بالجينات في قواعد بيانات NCBI الأخرى ، والروابط إلى الموارد الخارجية في جعل Entrez Gene موقعًا فعالًا لاسترداد المعلومات الخاصة بالجينات.


نظرة عامة على الخطة

في جوهره ، يعد PlanMine مستودعًا قابلًا للتعدين من النسخ النصية الغنية بالشرح التوضيحي للأنواع المستوية.

يوجد حاليًا مصدران للنصوص المودعة في PlanMine. أولاً ، تم تجميع النسخ النصية باستخدام خط أنابيب أنشأه مختبر Rink (راجع دليل المساعدة عبر الإنترنت لـ PlanMine للحصول على التفاصيل ، http://planmine.mpi-cbg.de/planmine/PlanMine_Help.html#assembly). ثانيًا ، ساهم المجتمع في نسخ نصوص متعددة من نوع Smed وتم تجميعها بواسطة استراتيجيات مختلفة (21-27). تُترك تجميعات النسخ المُساهمة دون مساس على مستوى التسلسل ولكن يتم تضمينها في خط أنابيب التعليقات التوضيحية للنسخة اللاحقة لضمان اتساق البيانات. توفر علامة التبويب "مصادر البيانات" في الصفحة الرئيسية نظرة عامة على النصوص والمساهمين. بالنسبة إلى النسخ المجمعة داخليًا ، نقدم أيضًا تقرير تجميع مفصل مع العديد من معايير مراقبة الجودة ، والتي تم شرحها بالتفصيل في دليل المساعدة عبر الإنترنت لـ PlanMine (http://planmine.mpi-cbg.de/planmine/PlanMine_Help.html # تقارير التجميع).

كشرط أساسي لإجراء مقارنات ذات مغزى ، يتم شرح جميع النسخ في PlanMine باستخدام خط أنابيب آلي (الشكل 1A). باختصار ، يشرح خط الأنابيب الخاص بنا contigs بواسطة تجانس BLAST للتسلسلات في قاعدة بيانات بروتين NCBI RefSeq (28) باستخدام BLASTX (29) ، ومجالات البروتين باستخدام مجموعة InterProScan (30) وإطارات القراءة المفتوحة (ORF) باستخدام أداة EMBOSS getorf (31) . بالإضافة إلى ذلك ، يتم شرح contigs المتعامد المحتمل في نسخ PlanMine الأخرى عبر BLASTP المتبادل باستخدام أطول ORF لكل `` جين '' (مجموعة من contigs تنتمي إلى مكون رسم بياني ثلاثي واحد (32) راجع دليل المساعدة عبر الإنترنت لـ PlanMine للحصول على تفاصيل حول معرفات التسلسل http: //planmine.mpi-cbg.de/planmine/PlanMine_Help.html#contig-identifier-naming-scheme). نعلق على مصطلحات علم الجينات (GO) (33) استنادًا إلى مصطلحات GO المرتبطة بالبروتينات المتماثلة ، وبالنسبة للتجمعات الداخلية ، نقوم بمحاذاة بيانات القراءة الأولية على التجميع النهائي لإنشاء مسارات تغطية قراءة لكل contig تم تجميعه. نستخدم التعليقات التوضيحية أيضًا لفلترة التجميعات: فقط contigs التي تحتوي على ORF أطول من 75 من الأحماض الأمينية ، أو مجال مشروح أو لديها تماثل BLAST مهم يتم دمجها في PlanMine. تلخص المادة التكميلية S1 إعدادات المعلمات والمعلومات المرجعية في وقت النشر. سيوفر القسم المقابل من دليل تعليمات PlanMine (http://planmine.mpi-cbg.de/planmine/PlanMine_Help.html#reference-information) دائمًا مرجعًا محدثًا. تتضمن طبقات الشرح الإضافية ، الموصوفة بمزيد من التفصيل أدناه ، تعبيرًا تفاضليًا للنسخة في مجموعات بيانات RNA-Seq المنشورة والمعلومات المنسقة من الخبراء حول الأنواع المستوية التي يتم تمثيلها بواسطة نسخة في PlanMine.

(أ) تم تنفيذ خطوات التعليق التوضيحي على كافة التجميعات في PlanMine. يشير الترميز اللوني للنص إلى إمكانية الوصول إلى نوع تعليق توضيحي معين. (ب) مخطط استخراج البيانات وخيارات التصدير في PlanMine. انظر النص للحصول على التفاصيل.


المرجع

التسلسل المرجعي (المرجع) قاعدة البيانات [1] عبارة عن مجموعة مفتوحة الوصول ، مشروحة ومنظمة من متواليات النوكليوتيدات المتاحة للجمهور (DNA ، RNA) ومنتجاتها البروتينية. تم إنشاء قاعدة البيانات هذه بواسطة المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI) ، وعلى عكس GenBank ، توفر فقط سجلًا واحدًا لكل جزيء بيولوجي طبيعي (مثل DNA أو RNA أو بروتين) للكائنات الرئيسية التي تتراوح من الفيروسات إلى البكتيريا إلى حقيقيات النوى.

المرجع
المحتوى
وصفقاعدة بيانات تسلسل منسقة غير زائدة عن الحاجة من الجينوم.
اتصل
مركز البحثالمركز الوطني لمعلومات التكنولوجيا الحيوية
الاقتباس الأساسيبروت دينار كويتي وأمبير آل. (2005) [1]
وصول
موقع الكترونيhttps://www.ncbi.nlm.nih.gov/RefSeq

لكل كائن نموذجي ، المرجع يهدف إلى توفير سجلات منفصلة ومترابطة للحمض النووي الجيني ، ونصوص الجينات ، والبروتينات الناشئة عن تلك النسخ. المرجع يقتصر على الكائنات الحية الرئيسية التي تتوفر عنها بيانات كافية (أكثر من 66000 كائن "مسمى" مميز اعتبارًا من سبتمبر 2011) ، [2] بينما يتضمن GenBank متواليات لأي كائن حي مقدم (ما يقرب من 250000 كائن مختلف مسمى).


من معرفات المرجع إلى معرفات مصطلح الانتقال - علم الأحياء

NCBI Genome Download Scripts

بعض البرامج النصية لتنزيل الجينومات البكتيرية والفطرية من NCBI بعد إعادة هيكلة FTP منذ فترة.

سرقت الفكرة بلا خجل من نصوص برنامج تنزيل Kraken لـ Mick Watson والتي يمكن العثور عليها أيضًا في Mick's GitHub repo. ومع ذلك ، فإن نصوص Mick مكتوبة بلغة Perl مخصصة لبناء قاعدة بيانات Kraken (كما هو معلن).

إذن هذه مجموعة من البرامج النصية تركز على تنزيل الجينوم الفعلي.

بدلاً من ذلك ، استنساخ هذا المستودع من GitHub ، ثم قم بتشغيله (في بيئة افتراضية من نوع python)

إذا فشل ذلك في الإصدارات الأقدم من Python ، فحاول تحديث أداة pip أولاً:

ثم أعد تشغيل تثبيت ncbi-genome-download.

بدلاً من ذلك ، يتم حزم تنزيل ncbi-genome في conda. ارجع إلى موقع Anaconda / miniconda لتثبيت التوزيع (موصى به بشدة) https://conda.io/miniconda.html مع ذلك التثبيت يمكن للمرء أن يفعل:

تم تطوير واختبار ncbi-genome-download فقط على إصدارات Python التي لا تزال تحت الدعم النشط من قبل مشروع Python. في الوقت الحالي ، هذا يعني الإصدارات 3.5 و 3.6 و 3.7 و 3.8. على وجه التحديد ، لم يتم إجراء أي محاولة للاختبار باستخدام إصدارات Python الأقدم من 3.5.

إذا كان نظامك عالقًا في إصدار أقدم من Python ، ففكر في استخدام أداة مثل Homebrew للحصول على إصدار أكثر حداثة.

كان ncbi-genome-download 0.2.12 هو الإصدار الأخير الذي يدعم Python 2.

لتنزيل جميع جينومات RefSeq البكتيرية بتنسيق GenBank من NCBI ، قم بتشغيل ما يلي:

من الممكن أيضًا تنزيل مجموعات متعددة:

ملحوظة: لمشاهدة جميع المجموعات المتاحة ، راجع ncbi-genome-download --help ، أو استخدم الكل ببساطة للتحقق من جميع المجموعات. ستؤدي تسمية مجموعة أكثر تحديدًا إلى تقليل حجم التنزيل والوقت اللازم للعثور على التسلسلات المراد تنزيلها.

إذا كنت تستخدم اتصالاً سريعًا بشكل معقول ، فقد ترغب في تجربة تشغيل عدة تنزيلات بالتوازي:

لتنزيل جميع جينومات GenBank الفطرية من NCBI بتنسيق GenBank ، قم بتشغيل:

لتنزيل جميع جينومات RefSeq الفيروسية بتنسيق FASTA ، قم بتشغيل:

من الممكن تنزيل تنسيقات متعددة من خلال توفير قائمة بالتنسيقات أو ببساطة تنزيل جميع التنسيقات:

لتنزيل جينومات RefSeq البكتيرية المكتملة فقط بتنسيق GenBank ، قم بتشغيل:

من الممكن تنزيل مستويات تجميع متعددة مرة واحدة عن طريق توفير قائمة:

لتنزيل الجينومات المرجعية البكتيرية فقط من RefSeq بتنسيق GenBank ، قم بتشغيل:

لتنزيل جينومات RefSeq البكتيرية للجنس ستربتوميسيس، يركض:

ملحوظة: هذه سلسلة بسيطة تتطابق مع اسم الكائن الحي المقدم من NCBI فقط.

يمكنك أيضًا استخدام هذا بحيلة بسيطة لتنزيل جينومات أنواع معينة أيضًا:

ملحوظة: الاقتباسات مهمة. مرة أخرى ، هذه سلسلة بسيطة تتطابق مع اسم الكائن الحي المقدم من NCBI.

الأجناس المتعددة ممكنة أيضًا:

يمكنك أيضًا وضع أسماء الأجناس في ملف ، كائن حي واحد في كل سطر ، على سبيل المثال:

بعد ذلك ، قم بتمرير المسار إلى هذا الملف (على سبيل المثال ، my_genera.txt) إلى الخيار --genera ، مثل:

ملحوظة: الأمر أعلاه سوف يقوم بتنزيل الكل ستربتوميسيس و أميكولاتوبسيس الجينوم من المرجع.

يمكنك جعل السلسلة مطابقة غامضة باستخدام الخيار --fuzzy-genus. يمكن أن يكون هذا مفيدًا إذا كنت بحاجة إلى مطابقة قيمة في منتصف اسم كائن NCBI ، مثل:

ملحوظة: سيقوم الأمر أعلاه بتنزيل جميع الجينومات البكتيرية التي تحتوي على "coelicolor" في أي مكان في اسم الكائن الحي من RefSeq.

لتنزيل جينومات RefSeq البكتيرية بناءً على معرف تصنيف الأنواع NCBI ، قم بتشغيل:

ملحوظة: سيقوم الأمر أعلاه بتنزيل جميع جينومات RefSeq التي تنتمي إلى الإشريكية القولونية.

لتنزيل جينومات RefSeq البكتيرية المحددة بناءً على معرف تصنيف NCBI الخاص بها ، قم بتشغيل:

ملحوظة: سيقوم الأمر أعلاه بتنزيل جينوم RefSeq الذي ينتمي إلى Escherichia coli str. K-12 substr. MG1655.

من الممكن أيضًا تنزيل العديد من ضرائب الأنواع أو ضرائب الأنواع من خلال توفير الأرقام في قائمة مفصولة بفواصل:

ملحوظة: سيقوم الأمر أعلاه بتنزيل الجينوم المرجعي للقطط والبشر.

بالإضافة إلى ذلك ، يمكنك وضع تاكسيات أنواع متعددة أو تاكسيات في ملف ، واحد في كل سطر وتمرير اسم الملف هذا إلى معلمات - الأنواع - الضرائب أو - الضرائب ، على التوالي.

بافتراض أن لديك ملف my_taxids.txt بالمحتويات التالية:

يمكنك تنزيل الجينومات المرجعية للقطط والإنسان مثل هذا:

من الممكن أيضًا إنشاء بنية دليل يمكن قراءتها بواسطة الإنسان بالتوازي مع عكس التخطيط المستخدم بواسطة NCBI:

سيستخدم هذا الروابط للإشارة إلى الملفات المناسبة في بنية دليل NCBI ، لذلك يوفر مساحة الملف. لاحظ أن الروابط غير مدعومة في بعض أنظمة ملفات Windows وبعض الإصدارات الأقدم من Windows.

من الممكن أيضًا إعادة تشغيل تنزيل سابق بخيار - يمكن للبشر قراءته. في هذه الحالة ، لن يقوم برنامج ncbi-genome-download بتنزيل أي ملفات جينوم جديدة ، بل يقوم فقط بإنشاء بنية دليل يمكن قراءتها بواسطة الإنسان. لاحظ أنه إذا تم تغيير أي ملفات من جانب NCBI ، فسيتم بدء تنزيل ملف.

يوجد خيار "تشغيل تجريبي" لإظهار الملحقات التي سيتم تنزيلها ، مع مراعاة عوامل التصفية الخاصة بك:

إذا كنت تريد تصفية عمود "العلاقة مع نوع المادة" في ملف ملخص التجميع ، فيمكنك استخدام الخيار --type-materials. القيم المحتملة هي "أي" و "كل" و "نوع" و "مرجع" و "مرادف" و "نوع الوكيل" و / أو "نوع جديد". سيتضمن "أي" التجميعات التي لا علاقة لها بنوع القيمة المادية المحددة ، وسيقوم "الكل" بتنزيل التجميعات ذات القيمة المحددة فقط. يمكن إعطاء قيم متعددة مفصولة بفاصلة:

بشكل افتراضي ، يقوم ncbi-genome-download بتخزين ملفات ملخص التجميع مؤقتًا للمجموعات التصنيفية المعنية ليوم واحد. يمكنك تخطي استخدام ملف ذاكرة التخزين المؤقت باستخدام الخيار - no-cache. يُظهر إخراج --help أيضًا دليل ذاكرة التخزين المؤقت ، إذا كنت تريد إزالة أي من الملفات المخزنة مؤقتًا.

للحصول على نظرة عامة على جميع الخيارات ، قم بتشغيل

يمكنك أيضًا استخدامه كطريقة استدعاء. قم بتمرير وسيطات الكلمات الأساسية المُجمَّعة (_ بدلاً من -) كما هو موضح أعلاه أو في --help:

ملحوظة: لتحديد مجموعة تصنيفية ، مثل بكتيريا، استخدم الكلمة الأساسية للمجموعة.

البرامج النصية المساهمة: gimme_taxa.py

يتيح لك هذا البرنامج النصي معرفة معرّفات الضرائب التي يجب تمريرها إلى ngd ، وسوف تكتب ملفًا بسيطًا مكونًا من عنصر واحد لكل سطر لتمريره إليه. تستخدم مجموعة أدوات ete3 ، لذا ارجع إلى موقعهم لتثبيت التبعية إذا لم تكن راضية بالفعل.

يمكنك الاستعلام عن قاعدة البيانات باستخدام TaxID معين ، أو اسم علمي. تتمثل الوظيفة الأساسية للبرنامج النصي في إرجاع جميع الأصناف الفرعية الخاصة بالتصنيفات الأصلية المحددة. يحتوي البرنامج النصي على خيارات مختلفة لماهية المعلومات المكتوبة في الإخراج.

قد يبدو الاحتجاج الأساسي كما يلي:

عند الاستخدام لأول مرة ، سيتم إنشاء قاعدة بيانات sqlite صغيرة في الدليل الرئيسي الخاص بك افتراضيًا (قم بتغيير الموقع بعلامة --database). يمكنك تحديث قاعدة البيانات هذه باستخدام علامة --update. لاحظ أنه إذا لم تكن قاعدة البيانات موجودة في دليلك الرئيسي ، فيجب عليك تحديدها باستخدام قاعدة بيانات - أو سيتم إنشاء قاعدة بيانات جديدة في دليلك الرئيسي.

تتوفر جميع التعليمات البرمجية بموجب ترخيص Apache الإصدار 2 ، راجع ملف LICENSE للحصول على التفاصيل.


شكر وتقدير

يود المؤلفون أن يشكروا على مساعدتهم أو مشورتهم في مراحل مختلفة من المشروع ، الأشخاص التالية أسماؤهم من INRA-URGI: Véronique Jamilloux ، Joëlle Amselem ، Dorothée Charruaud ، Guillaume Cornut ، Laura Burlot ، Florian Philippe ، Nicolas Francillonne ، Loïc Couderc ، دافني فيرديليت ، بابتيست براولت ، كيرسلي شينن من INRA-GDEC: جاك لو جويس ، جيل شارميت ، فرانسوا بالفورييه ، بيير سورديل ، كاثرين رافيل ، فرانسوا كزافييه أوري ، أودري ديدييه من INRA-DIST: Esther Dzale، Odileie Aubin، من INRA-Agronomie: Arnaud Gauffreteau.

بفضل Isabelle Caugant (IWGSC) و Hélène Lucas (مبادرة القمح) والاتحاد الدولي لتسلسل جينوم القمح ورعاته ومجموعة عمل خبراء WheatIS ومنصة URGI وجميع مقدمي البيانات.

التمويل

تم دعم تطوير نظام المعلومات وتكامل بيانات القمح من قبل INRA والعديد من المشاريع: BreedWheat (ANR-10-BTBR-03 ، France Agrimer ، FSOV) ، Whealbi (EU FP7-613556) ، TriticeaeGenome (EU FP7-KBBE -212019) ، 3BSEQ (ANR-09-GENM-025 ، FranceAgrimer) ، وزرع (EU FP7–283496).

توافر البيانات والمواد

تتوفر بيانات الوصول المفتوح (بما في ذلك جميع بيانات IWGSC) من خلال بوابة Wheat @ URGI [5].


Blast2GO: مجموعة شاملة للتحليل الوظيفي في علم الجينوم النباتي

يعد التعليق التوضيحي الوظيفي لبيانات التسلسل الجديدة مطلبًا أساسيًا لاستخدام مناهج الجينوميات الوظيفية في أبحاث النبات. في هذه الورقة ، نصف مجموعة Blast2GO كأداة معلوماتية حيوية شاملة للتعليق التوضيحي الوظيفي للتسلسلات واستخراج البيانات على التعليقات التوضيحية الناتجة ، استنادًا إلى مفردات علم الجينات (GO). يعمل Blast2GO على تحسين نقل الوظائف من التسلسلات المتماثلة من خلال خوارزمية متقنة تأخذ في الاعتبار التشابه ، وتمديد التناظر ، وقاعدة البيانات المختارة ، وتسلسل GO الهرمي ، وجودة التعليقات التوضيحية الأصلية. تتضمن الأداة وظائف عديدة للتصور والإدارة والتحليل الإحصائي لنتائج التعليقات التوضيحية ، بما في ذلك تحليل إثراء مجموعة الجينات. يدعم التطبيق InterPro ورموز الإنزيم ومسارات KEGG والرسوم البيانية الحلقية المباشرة (DAGs) GO و GOSlim. Blast2GO هي أداة مناسبة لبحوث الجينوميات النباتية نظرًا لتعدد استخداماتها وسهولة تركيبها واستخدامها الودي.

1 المقدمة

توسعت أبحاث الجينوم الوظيفي بشكل هائل & # 13 في العقد الماضي ، وعلى وجه الخصوص ، قام مجتمع أبحاث بيولوجيا النبات & # 13 بتضمين مناهج الجينوميات الوظيفية على نطاق واسع في أبحاثهم الأخيرة ومقترحاتهم رقم 13. عدد نباتات Affymetrix GeneChips ، على سبيل المثال ، تضاعف & # 13 في العامين الماضيين [1] وتوجد اتحادات الجينوميات الدولية الواسعة & # 13 للمحاصيل الرئيسية (انظر تقارير مؤتمر PAG الأخيرة للحصول على انطباع محدث عن & # 13 علم الجينوم النباتي الحالي ، http://www.intl-pag.org). ولا يقل أهمية عن ذلك ، أن العديد من المجموعات البحثية متوسطة الحجم ورقم 13 تقوم أيضًا بإنشاء مشروعات EST للمصنع وإنتاج منصات ميكروأري مخصصة & # 13 [2]. أدى هذا الجيل الهائل من بيانات تسلسل النباتات والانتشار السريع لتقنيات الجينوميات الوظيفية بين مختبرات أبحاث النباتات إلى ظهور طلب قوي على موارد المعلوماتية الحيوية التي تم تكييفها مع الأنواع النباتية رقم 13. من المحتمل أن يكون التعليق التوضيحي الوظيفي لتسلسلات الحمض النووي للنباتات أحد أهم المتطلبات في الجينوميات الوظيفية للنبات لأن هذا يحمل ، إلى حد كبير ، مفتاح التفسير البيولوجي للنتائج التجريبية. كإستراتيجية اختيار & # 13 للتعليق التوضيحي الفعال لوظيفة المنتجات الجينية. يسهل استخدام & # 13 المفردات الخاضعة للرقابة إلى حد كبير تبادل المعرفة البيولوجية & # 13 والاستفادة من الموارد الحسابية التي تدير هذه المعرفة & # 13. من المحتمل أن يكون علم الجينات (GO ، http://www.geneontology.org) & # 13 [3] هو المخطط الأكثر شمولاً اليوم لوصف وظائف الجين & # 13 المنتج وأيضًا الأنظمة الأخرى مثل أكواد الإنزيم [4] ، تُستخدم مسارات KEGG & # 13 [5] أو FunCat [6] أو COG [7] على نطاق واسع داخل قواعد البيانات الجزيئية رقم 13. تم تطوير العديد من أدوات المعلوماتية الحيوية وطرق & # 13 للمساعدة في تعيين المصطلحات الوظيفية للمنتجات الجينية & # 13 (تمت مراجعتها في [8]). ومع ذلك ، تتوفر موارد أقل عندما يتعلق الأمر بالتعليق التوضيحي الوظيفي واسع النطاق لبيانات التسلسل الجديدة لـ & # 13 نوعًا غير نموذجي ، كما هو مطلوب بشكل خاص في العديد من مشاريع الجينوم الوظيفية والنباتية رقم 13. تتضمن الأدوات المستندة إلى الويب للتعليق التوضيحي الوظيفي للتسلسلات الجديدة & # 13 ، AutoFact [9] ، GOanna / AgBase [10] ، GOAnno [11] ، Goblet [12] ، & # 13 GoFigure + GoDel [13] ، GoPET [14] ، مسكتك [15] ، HT-GO-FAT & # 13 (liru.ars.usda.gov/ht-go-fat.htm) ، InterProScan [16] ، JAFA [17] ، OntoBlast [18] ، & # 13 و PFP [19]. بالإضافة إلى ذلك ، عادةً ما يتم تضمين إمكانات التعليقات التوضيحية الوظيفية & # 13 في خطوط أنابيب تحليل EST. بعض الأمثلة ذات الصلة هي & # 13 ESTExplorer، ESTIMA، ESTree. أو JUICE (انظر [2] لاستطلاع الرأي في تحليل EST & # 13). هذه الموارد هي أدوات قيمة & # 13 لتعيين المصطلحات الوظيفية للتسلسلات غير المميزة ولكن & # 13 عادة ما تفتقر إلى الإنتاجية العالية وقدرات استخراج البيانات ، في الحالة الأولى ، & # 13 أو توفر حلولًا تلقائية دون الكثير من تفاعل المستخدم ، في الحالة الثانية. في هذه الورقة & # 13 ، نصف تطبيق Blast2GO (B2G ، www.blast2go.org) للتعليق التوضيحي الوظيفي والإدارة واستخراج البيانات لبيانات التسلسل الجديد رقم 13 من خلال استخدام مخططات المفردات الشائعة الخاضعة للرقابة. كانت الفلسفة الكامنة وراء تطوير # 13 B2G هي إنشاء إطار عمل واسع النطاق وسهل الاستخدام وموجه للبحث & # 13 لتعيينات الوظائف واسعة النطاق. مجال التطبيق الرئيسي رقم 13 للأداة هو الجينوميات الوظيفية للكائنات غير النموذجية & # 13 وهي تهدف في المقام الأول إلى دعم البحث في المعامل التجريبية حيث قد لا يكون دعم المعلوماتية الحيوية قويًا. منذ إصداره في سبتمبر 2005 ورقم 13 [20] ، أصبح أكثر من 100 مختبر في جميع أنحاء العالم من مستخدمي B2G وتمت الإشارة إلى التطبيق & # 13 في أكثر من ثلاثين منشورًا راجعه النظراء & # 13 (www.blast2go.org/citations). على الرغم من أن B2G لها نطاق واسع لتطبيق الأنواع رقم 13 ، إلا أن المشروع نشأ في بيئة بحثية في جينوم المحاصيل وهناك & # 13 هناك بعض الخبرة المتراكمة في استخدام B2G في النباتات ، والتي تشمل & # 13 الذرة والتبغ والحمضيات وفول الصويا والعنب أو الطماطم. تتراوح المشاريع من & # 13 تعيينًا وظيفيًا لـ ESTs [21-24] إلى التعليقات التوضيحية لمصطلح GO للمصفوفات الدقيقة المخصصة أو # 13 للمصنع التجاري [25 ، 26] ، ودراسات التنميط الوظيفي [27-29] ، و & # 13 التوصيف الوظيفي لجين نبات معين العائلات [30 ، 31].

في الأقسام التالية سوف نشرح أكثر & # 13 على نطاق واسع المفاهيم الكامنة وراء Blast2GO. سنصف بالتفصيل الوظائف الرئيسية رقم 13 للتطبيق ونعرض حالة استخدام توضح قابلية تطبيق & # 13 لـ B2G لزرع أبحاث الجينوميات الوظيفية.

2. مميزات Blast2GO

أربعة مفاهيم رئيسية للقيادة تشكل أساس & # 13 برنامج Blast2GO: التوجه البيولوجي ، الإنتاجية العالية ، مرونة التعليقات التوضيحية رقم 13 ، والقدرة على استخراج البيانات.

التوجه البيولوجي. المستخدمون المستهدفون لـ & # 13 Blast2GO هم باحثو الأحياء الذين يعملون في مشاريع الجينوميات الوظيفية في & # 13 المختبرات حيث لا يوجد بالضرورة دعم قوي للمعلومات الحيوية. لذلك ، تم تصميم التطبيق ليكون سهل التثبيت ، وله الحد الأدنى من الإعداد & # 13 ومتطلبات الصيانة ، ولتقديم واجهة مستخدم سهلة الاستخدام. تم تنفيذ B2G & # 13 كتطبيق Java متعدد المنصات لسطح المكتب يمكن الوصول إليه بواسطة تقنية Java Webstart & # 13. يستخدم هذا الحل تنوعًا أعلى لتطبيق & # 13 قيد التشغيل محليًا مع ضمان التحديثات التلقائية بشرط توفر اتصال إنترنت & # 13. لقد أثبت هذا التنفيذ أنه يعمل بكفاءة عالية & # 13 في النقل السريع لمستخدمي الوظائف الجديدة ولإصلاحات الأخطاء & # 13. علاوة على ذلك ، يتم تعزيز الوصول إلى البيانات في & # 13 B2G بواسطة معلمات رسومية تتيح من ناحية سهولة تحديد واختيار التسلسلات في مراحل مختلفة من عملية التعليق التوضيحي & # 13 ، ومن ناحية أخرى ، تسمح بالتصوير المشترك للتعليق التوضيحي & # 13 النتائج وإبراز الميزات الأكثر صلة.

إنتاجية عالية أثناء التفاعل. يسعى Blast2GO إلى أن يكون التطبيق المفضل & # 13 للتعليق التوضيحي للتسلسلات الجديدة في & # 13 مشاريع الجينوم الوظيفي حيث تحتاج آلاف الأجزاء إلى أن تكون مميزة. من حيث المبدأ ، تقبل B2G أي قدر من السجلات ضمن موارد الذاكرة & # 13 لمحطة عمل المستخدم. يمكن بسهولة إضافة تعليقات توضيحية لملفات البيانات النموذجية التي تتراوح من 20 إلى 30 و 13 ألف تسلسل على 2 جيجا بايت من ذاكرة الوصول العشوائي (قد تستخدم المشاريع الأكبر رقم 13 الإصدار المجاني للواجهة الرسومية من Blast2GO). أثناء عملية التعليق التوضيحي & # 13 ، يمكن الوصول إلى النتائج الوسيطة وتعديلها بواسطة المستخدم & # 13 إذا رغبت في ذلك.

شرح مرن. يعتمد التعليق التوضيحي الوظيفي رقم 13 في Blast2GO على نقل التماثل. ضمن هذا الإطار ، & # 13 إجراء التعليق التوضيحي الفعلي قابل للتكوين ويسمح بتصميم & # 13 إستراتيجيات مختلفة للتعليقات التوضيحية. تتضمن معلمات التعليق التوضيحي Blast2GO خيار & # 13 لقاعدة بيانات البحث ، وقوة وعدد نتائج الانفجار ، وامتداد & # 13 لمطابقة نتيجة الاستعلام ، وجودة التعليقات التوضيحية المنقولة ، & # 13 وإدراج التعليقات التوضيحية. المفردات التي يدعمها B2G هي مصطلحات الجينات والأنطولوجيا رقم 13 ، ورموز الإنزيم (EC) ، ومعرفات InterPro ، ومسارات KEGG.

التنقيب في البيانات على نتائج التعليقات التوضيحية. Blast2GO ليس مجرد مصدر للتعليقات التوضيحية الوظيفية & # 13. يتضمن التطبيق مجموعة واسعة & # 13 من الوظائف الإحصائية والرسومية لتقييم إجراء التعليق التوضيحي & # 13 والنتائج النهائية. على وجه الخصوص ، الوفرة (النسبية) للمصطلحات الوظيفية و # 13 يمكن بسهولة تقييمها وتصورها.

غطى الإصدار الأول من B2G التطبيق الأساسي & # 13 وظائف: انفجار عالي الإنتاجية ضد NCBI أو قواعد البيانات المحلية ، & # 13 رسم الخرائط والتعليقات التوضيحية وتحليل مجموعة الجينات المتجهات العددية (SVG) & # 13 الرسوم البيانية المدمجة ومخططات التوزيع الأساسية. الوحدات المحسّنة للانفجار الهائل رقم 13 ، وتعديل كثافة التعليقات التوضيحية ، والتنظيم ، والمفردات الإضافية ، & # 13 الرسوم البيانية عالية الأداء القابلة للتخصيص ومخططات المسار ، واستخراج البيانات ومعالجة التسلسل رقم 13 ، بالإضافة إلى مجموعة واسعة من تنسيقات الإدخال والإخراج & # 13 تم دمجها في مجموعة Blast2GO.

3. تطبيق Blast2GO

يوضح الشكل 1 المكونات الأساسية لمجموعة Blast2GO & # 13. تستمر التعيينات الوظيفية من خلال إجراء شرح تفصيلي & # 13 يشتمل على إستراتيجية مركزية بالإضافة إلى وظائف الصقل. بعد ذلك ، تسمح محركات التنقيب عن البيانات والتصور & # 13 باستغلال نتائج التعليقات التوضيحية & # 13 لاكتساب المعرفة الوظيفية.


شاهد الفيديو: اداه صيد معرفات تليكرام تساعي ثماني سداسي.. (ديسمبر 2022).