معلومة

معنى الأسهم في التمثيل ثلاثي الأبعاد للبروتينات

معنى الأسهم في التمثيل ثلاثي الأبعاد للبروتينات


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

يوجد أدناه تمثيل ثلاثي الأبعاد للبروتين CD4. أود أن أعرف ما تعنيه الأسهم والأسلاك الرفيعة بينهما.


الأسهم المسطحة عبارة عن تمثيل كرتوني لخيوط β (نوع واحد من الهياكل الثانوية العادية المرتبطة بالهيدروجين). اتجاه السهم هو اتجاه تسلسل الأحماض الأمينية (رأس السهم يشير نحو ج- المدة).

الأسلاك الرقيقة هي مناطق ليس بها هيكل منتظم.

يوجد أيضًا شريطان صغيران أخضران حلزونيان في المقدمة يسارًا ويمينًا ، يمثلان α-helices (الهيكل الثانوي العادي الآخر).


الملخص

تحدد بنية البروتين الوظيفة البيولوجية. وبالتالي ، فإن وضع تصور دقيق لهياكل البروتين / الترابط ثلاثي الأبعاد أمر حيوي للبحث العلمي والتعليم. يتيح الواقع الافتراضي (VR) تصور البروتين في صورة مجسمة ثلاثية الأبعاد ، ولكن العديد من برامج التصور الجزيئي VR باهظة الثمن وصعبة الاستخدام فقط على سماعات رأس VR محددة تعتمد على برامج إعداد نموذج معقدة و / أو تتطلب من المستخدم تثبيت برامج منفصلة أو مكونات إضافية . نقدم هنا ProteinVR ، وهو تطبيق قائم على الويب يعمل على إعدادات وأنظمة تشغيل مختلفة للواقع الافتراضي. يعرض ProteinVR الهياكل الجزيئية ضمن بيئات ثلاثية الأبعاد توفر سياقًا بيولوجيًا مفيدًا وتسمح للمستخدمين بوضع أنفسهم في مساحة ثلاثية الأبعاد. يعد تطبيقنا المستند إلى الويب مثاليًا لإنشاء الفرضيات والتعليم في مجال البحث وإعدادات الفصول الدراسية الكبيرة. نصدر ProteinVR بموجب ترخيص BSD-3-Clause مفتوح المصدر. نسخة من البرنامج متاحة مجانًا من http://durrantlab.com/protein-vr/ ، ويمكن الوصول إلى نسخة العمل على http://durrantlab.com/pvr/.


لقد أدى السعي وراء مقولة فرانسيس كريك ، "إذا كنت تريد فهم الوظيفة ، بنية الدراسة" إلى تحقيق تقدم ملحوظ في فهم آليات البروتين (كريك ، 1988). ومع ذلك ، هناك دائما حدود.

كان الهدف الكلاسيكي في علم الأحياء البنيوي هو فهم AAA + ATPases ، وهي عائلة كبيرة ومتنوعة من الإنزيمات التي تقوم بعمل ميكانيكي للخلايا (هاريسون ، 2004). تستخدم مجموعة من AAA + ATPases تسمى تتكشف طاقة التحلل المائي ATP لتكشف ركائز البروتين ، على ما يبدو عن طريق سحب الركيزة عبر المسام المركزي للإنزيم ذي الشكل الحلقي. تم إحياء الجدل حول كيفية عمل هذه الأحداث من خلال تقريرين حديثين في eLife ، أحدهما بقلم جون روبنشتاين ولويس كاي وزملائه في جامعة تورنتو - بما في ذلك زيف ريبستين وسيافاش واهيدي كمؤلفين أول مشتركين (Ripstein et al. ، 2020) - وآخر لروبرت سوير وزملاؤه في معهد ماساتشوستس للتكنولوجيا وكلية الطب بجامعة هارفارد - بما في ذلك Xue Fei كمؤلف أول (Fei et al. ، 2020). أبلغت المجموعتان عن هياكل متشابهة جدًا لـ ClpX تتكشف في معقد مع ClpP ، وهو إنزيم يكسر ركائز البروتين التي تتكشف بواسطة ClpX (الشكل 1). يشار إلى المركب المتكون باسم البروتياز ClpXP. مثل معظم AAA + ATPases ، ClpX هو شكل سداسي ، بينما ClpP يعرض سبعة أضعاف التماثل. على الرغم من التشابه الوثيق بين هياكل ClpXP التي تم الإبلاغ عنها ، تقترح المجموعتان آليات عمل مختلفة جدًا للتكشف.

هيكل مجمع ClpXP.

(أ) الجانب و (ب) عروض من أعلى إلى أسفل لمركب ClpXP المرتبط بركيزة (تظهر باللون البرتقالي). تظهر كل من الوحدات الفرعية الست لـ ClpX بلون مختلف (أرجواني ، أزرق ، سماوي ، أخضر ، أخضر حكيم ، وأصفر) ، مع ATP يظهر باللون الأحمر و ADP باللون الوردي. يتم استخدام نفس الألوان في جميع أنحاء الشكل. (ج) منظر جانبي عن قرب لمنطقة المسام في ClpX مع أسهم تشير إلى التسلسل المقترح (السهم الأخضر الحكيم Ripstein et al. ، 2020) والآليات الاحتمالية (السهم الأرجواني Fei et al. ، 2020). يتم تلوين التيروزينات التي تبطن مسام ClpX وفقًا للوحدة الفرعية ClpX المقابلة لها. خمسة من هذه التيروزينات تربط الركيزة بينما التيروزين للوحدة الفرعية الصفراء ، المرتبط بـ ADP ، لا يتصل بالركيزة. يشار إلى ATP المتحلل بالماء في كل من النماذج بواسطة وميض. في النموذج المتسلسل (Ripstein et al. ، 2020) ، يسمح التحلل المائي لـ ATP في الوحدة الفرعية السفلية له بفك الارتباط عن الركيزة ، والانتقال عبر `` الحالة الصفراء '' ، وتبادل ADP لـ ATP ، وربط المتبقيين التاليين من الركيزة عن طريق الالتحام ضد أعلى وحدة فرعية. نظرًا لأن كل وحدة فرعية تربط بين اثنين من البقايا ، فإن النتيجة الصافية هي ClpX "المشي" لأعلى الركيزة ونقل اثنين من بقايا الركيزة لأسفل باتجاه ClpP. في النموذج الاحتمالي (Fei et al. ، 2020) ، يتسبب التحلل المائي لـ ATP في الموضع العلوي (يسبقه أحيانًا التحلل المائي في مواضع أخرى) في أن تحافظ الوحدة الفرعية العليا على إحكام قبضتها على الركيزة وتحريكها لأسفل باتجاه `` الحالة الصفراء '' ، وبالتالي نقل الركيزة بحوالي ستة مخلفات نحو ClpP.

تم الإبلاغ عن موجة من هياكل AAA + تتكشف مرتبطة بمحاكاة الركيزة أو الركيزة على مدار السنوات الثلاث الماضية (Gates and Martin ، 2020). تُظهر هذه الهياكل وحدات فرعية تتكشف مرتبة في حلزوني مستقر بواسطة ATP. في بعض الحالات ، تشارك جميع الوحدات الفرعية الست في اللولب ، ولكن في معظم الحالات ، يبدو أن وحدة فرعية واحدة أو أكثر مفككة ، كما لو كانت تنتقل من أحد طرفي اللولب إلى الطرف الآخر.

تم اقتراح آلية "تسليم اليد" التسلسلية لغالبية هذه الهياكل غير القابلة للطي. في هذا النموذج ، تربط واحدة أو أكثر من الوحدات الفرعية للافتتاح الركيزة جنبًا إلى جنب مع جزيء ATP أثناء انتقالها بالتتابع من أحد طرفي اللولب إلى الطرف الآخر. يسمح التحلل المائي لـ ATP في الجزء السفلي من اللولب للوحدة الفرعية السفلية بالتحرك إلى موضع انتقالي وتحرير الركيزة. يسمح التبادل اللاحق لـ ADP لـ ATP لهذه الوحدة الفرعية الانتقالية بإعادة الانضمام إلى الطرف العلوي من اللولب وربط المتبقيين التاليين من الركيزة (الشكل 1C). بهذه الطريقة ، يستمر ارتباط ATP والتحلل المائي بالتتابع حول سداسي AAA + ، واعتمادًا على الإطار المرجعي ، يمكن وصف النتيجة على أنها تمشي على طول الركيزة أو الركيزة التي يتم سحبها من خلال مسام التفتح. من كلا المنظور ، يتم نقل اثنين من بقايا الأحماض الأمينية من الركيزة لكل تحلل من ATP.

ريبستين وآخرون. و فاي وآخرون. هياكل تقرير مجمعات ClpXP من النيسرية السحائية و الإشريكية القولونية، على التوالى. الهيكلان متشابهان جدًا مع بعضهما البعض ، ويشبه ClpX hexamer إلى حد كبير العديد من حالات AAA + تتكشف (Gates and Martin ، 2020). تُظهر الهياكل أيضًا كيف يربط ClpX السداسي بالبروتياز ClpP السداسي الشكل على شكل برميل لمحاذاة الركيزة مع الفتحة إلى الغرفة في ClpP حيث يتم تكسير الركيزة. ومع ذلك ، اقترحت المجموعتان آليات مختلفة لتكشف. ريبستين وآخرون. تفضل آلية التسليم بخطوتين البقايا. في المقابل ، فاي وآخرون. اقترح نموذجًا مختلفًا جذريًا يسمح فيه التحلل المائي لـ ATP في الجزء العلوي من اللولب للوحدة الفرعية الأعلى ClpX بالاحتفاظ بقبضتها على الركيزة. ثم تنتقل الوحدة الفرعية إلى الجزء السفلي من اللولب ، وتسحب الركيزة ما يقرب من ستة بقايا من الأحماض الأمينية نحو ClpP قبل إطلاقها (الشكل 1C).

النموذج الذي اقترحه Ripstein et al. له العديد من الميزات الجذابة. أولاً ، إنه مشابه للآليات المماثلة لترجمة الأحماض النووية ذات الصلة البعيدة (Lyubimov et al. ، 2011 Enemark and Joshua-Tor ، 2008). ثانيًا ، يشرح كيف يمكن ربط ومعالجة تسلسلات الركيزة المتباينة على نطاق واسع. وثالثًا ، تشير الطبيعة غير المتماثلة للولب إلى خطوات هيكلية متعددة على طول دورة التفاعل المقترحة. متوازن ضد هذا ، نموذج Fei et al. لديها أيضا ميزات جذابة. أولاً ، يتوافق مع التقديرات المنشورة لحجم الخطوة (أوليفاريس وآخرون ، 2016). وثانيًا ، من خلال السماح أيضًا بالتحلل المائي لـ ATP في الوحدات الفرعية داخل اللولب ، فإنه يشرح كيف يمكن استيعاب مواقع ATPase المتعددة غير النشطة (Martin et al. ، 2005).

تضيف هاتان الدراستان معًا ، جنبًا إلى جنب مع دراسة حديثة أخرى أبلغت عن بنية مختلفة لـ ClpXP (Gatsogiannis et al. ، 2019) ، وقودًا جديدًا للنقاش الذي بدا مستقرًا. تتضمن الأسئلة الرئيسية للدراسات المستقبلية ما يلي: هل تستخدم حالات الكشف عن AAA + المختلفة نفس الآلية لإقران التحلل المائي لـ ATP مع نقل الركيزة؟ هل الآليات متسلسلة؟ أين وكيف يتم تشغيل التحلل المائي ATP؟ كيف يمكن لوحدة فرعية مرتبطة بـ ADP في نموذج Fei et al. ربط الركيزة بإحكام بما يكفي لتمكين النقل؟ وكم عدد بقايا الأحماض الأمينية التي يتم نقلها لكل تحلل ATP المائي؟ علاوة على ذلك ، فإن الاقتراح الإضافي من Ripstein et al. يبدو أن تناوب ClpX و ClpP فيما يتعلق ببعضهما البعض أثناء دورة التفاعل من المحتمل أن يثير المزيد من الجدل. فقط عندما يبدو أن AAA + تكشف عن أسرارها الميكانيكية ، يبدو هذان الهيكلان الجديدان كما هو متوقع ولكن مع ذلك يخلقان مجموعة من الأسئلة الجديدة.


أساسيات VMD

في هذه الوحدة سوف تقوم ببناء صورة جميلة عن ubiquitin بينما تعتاد على أوامر VMD الأساسية. بالإضافة إلى ذلك ، سوف تتعلم كيفية البحث عن الخصائص الهيكلية المثيرة للاهتمام للبروتينات باستخدام VMD.

خطوتنا الأولى هي تحميل الجزيء الخاص بنا. يتم توفير ملف pdb ، 1UBQ.pdb ، يحتوي على إحداثيات ذرة يوبيكويتين مع البرنامج التعليمي.

1 اختر ملف جديد جزيء. عنصر القائمة الشكل 2 (أ) في نافذة VMD الرئيسية. ستظهر نافذة أخرى ، Molecule File Browser (b) ، على شاشتك.

2 استخدم تصفح. (ج) زر للعثور على الملف 1UBQ.pdb في ملفات vmd-tutorial. لاحظ أنه عند تحديد الملف ، ستعود إلى نافذة Molecule File Browser. من أجل تحميل الملف فعليًا ، يجب عليك الضغط على Load (d). لا تنسى أن تفعل هذا!

الآن ، يظهر ubiquitin على شاشتك في نافذة OpenGL Display. يمكنك إغلاق نافذة Molecule File Browser في أي وقت.

1 في شاشة OpenGL ، اضغط على زر الماوس الأول (الأيسر) لأسفل وحرك الماوس. اكتشف ما يحدث. هذا هو وضع دوران الماوس ويسمح لك بتدوير الجزيء حول محور موازٍ للشاشة الشكل. 3 (أ).

3 في نافذة VMD الرئيسية ، انظر إلى قائمة Mouse (الشكل 4). هنا ، ستتمكن من تبديل وضع الماوس من وضعي التدوير إلى وضعي الترجمة أو القياس. 4 سيسمح لك وضع الترجمة بتحريك الجزيء حول الشاشة أثناء الضغط على الزر الأول (الأيسر) لأسفل.

تجدر الإشارة إلى أن الإجراءات السابقة التي يتم إجراؤها بالماوس لا تغير الإحداثيات الفعلية لذرات الجزيء.

خيار آخر مفيد هو عنصر قائمة Mouse Center. يسمح لك بتحديد النقطة التي يتم إجراء التدوير حولها.
6 حدد عنصر قائمة المركز واختر ذرة واحدة في أحد طرفي البروتين يجب أن يعرض المؤشر صليبًا.

7 الآن ، اضغط على r ، قم بتدوير الجزيء بالماوس وشاهد كيف يتحرك الجزيء الخاص بك حول النقطة التي حددتها.

يمكن لـ VMD عرض الجزيء الخاص بك باستخدام مجموعة متنوعة من أنماط الرسم. هنا ، سوف نستكشف تلك التي يمكن أن تساعدك على تحديد الهياكل المختلفة في البروتين.

1 اختر تمثيلات الرسومات. عنصر القائمة. ستظهر نافذة تسمى التمثيلات الرسومية وسترى مظللة باللون الأصفر الشكل 5 (أ) التمثيل الرسومي الحالي المستخدم لعرض الجزيء الخاص بك.

2 في علامة التبويب "رسم النمط" (ب) يمكننا تغيير النمط (د) واللون (ج) للتمثيل. سنركز في هذا القسم على نمط الرسم (الافتراضي هو الخطوط).

3 كل طريقة رسم لها معلماتها الخاصة. على سبيل المثال ، قم بتغيير سمك الخطوط باستخدام عناصر التحكم الموجودة في الجزء السفلي الأيمن (هـ) من نافذة التمثيلات الرسومية.

4 الآن ، اختر VDW (فان دير فال) من طريقة الرسم. يتم الآن تمثيل كل ذرة بواسطة كرة. بهذه الطريقة يمكنك بسهولة رؤية التوزيع الحجمي للبروتين.

5 لمشاهدة ترتيبات الذرات في الجزء الداخلي من البروتين ، استخدم عناصر التحكم الجديدة في الجزء السفلي الأيمن من النافذة (هـ) لتغيير مقياس Sphere إلى 0.5 ودقة Sphere إلى 13. اعلم أنه كلما زادت الدقة ، كان عرض الجزيء أبطأ.

6 ملاحظة في اسم طريقة التلوين ، كل ذرة لها لونها الخاص ، أي: O أحمر ، N أزرق ، C سماوي ، S أصفر.

7 اضغط على الزر الافتراضي. هذا يسمح لك بالعودة إلى الخصائص الافتراضية لطريقة الرسم.

تسمح لك العروض السابقة برؤية تفاصيل الجزيئات الدقيقة للبروتين الخاص بك. ومع ذلك ، يمكن رؤية المزيد من الخصائص الهيكلية العامة باستخدام طرق رسم أكثر تجريدًا.

8 اختر نمط الأنبوب تحت طريقة الرسم ولاحظ العمود الفقري للبروتين الخاص بك. اضبط نصف القطر عند 0.8.

9 بالنظر إلى البروتين الخاص بك في وضع الأنبوب ، هل يمكنك تمييز عدد اللوالب والألواح والملفات الموجودة في البروتين؟

طريقة الرسم الأخيرة التي سنستكشفها هي NewCartoon. يعطي تمثيلًا مبسطًا للبروتين بناءً على هيكله الثانوي. يتم رسم الحلزونات كأشرطة ملفوفة وألواح كسهام صلبة وجميع الهياكل الأخرى كأنبوب. ربما تكون هذه هي طريقة الرسم الأكثر شيوعًا لعرض البنية العامة للبروتين.

10 اختر طريقة الرسم NewCartoon.

11 حدد الآن عدد اللوالب وألواح بيتا والملفات الموجودة في البروتين.

1 الآن ، دعنا نعدل ألوان تمثيلنا. اختر طريقة التلوين إعادة كتابة الشكل 5 (ج). يتيح لك هذا التمييز بين البقايا غير القطبية (الأبيض) ، والمخلفات الأساسية (الزرقاء) ، والمخلفات الحمضية (الحمراء) ، والمخلفات القطبية (الخضراء).

2 حدد بنية طريقة التلوين (ج) وتأكد من أن تمثيل NewCartoon يعرض ألوانًا متسقة مع البنية الثانوية.

دعونا نلقي نظرة على أجزاء مختلفة مستقلة (ومثيرة للاهتمام) من جزيءنا.

1 في إدخال نص Atoms المختارة ، الشكل 5 (و) من نافذة التمثيلات الرسومية ، احذف الكلمة الكل ، واكتب اللولب واضغط على زر تطبيق أو اضغط على مفتاح Enter / Return على لوحة المفاتيح. (افعل هذا في كل مرة تكتب شيئًا ما.) سيُظهر VMD فقط الحلزونات الموجودة في جزيءنا.

2 في نافذة التمثيلات الرسومية ، اختر علامة التبويب التحديدات الشكل 7 (أ). ستجد في القسم الكلمات المنفردة (ب) قائمة بالاختيارات الممكنة التي يمكنك كتابتها. على سبيل المثال ، حاول عرض الأوراق بدلاً من الحلزونات عن طريق كتابة الكلمة المناسبة في إدخال نص Selected Atoms.

يمكن أيضًا استخدام مجموعات العوامل المنطقية عند كتابة تحديد.

3 من أجل رؤية الجزيء بدون حلزونات وصفائح ، اكتب ما يلي في Selected Atoms: (وليس حلزونًا) و (ليس ورقة بيتا)

4 في قسم الكلمة الرئيسية (ج) من علامة التبويب التحديدات (أ) يمكنك رؤية الخصائص التي يمكن استخدامها لتحديد أجزاء من البروتين بقيمها المحتملة. انظر إلى القيم المحتملة لاسم الكلمة الرئيسية (د). اعرض جميع Lysines و Glycines الموجودة في البروتين عن طريق كتابة (resname LYS) أو (resname GLY). تلعب Lysines دورًا أساسيًا في تكوين سلاسل polyubiquitin.

5 الآن ، قم بتغيير طريقة الرسم للتمثيل الحالي إلى نمط CPK وطريقة التلوين إلى ResID في علامة التبويب رسم النمط. ستتمكن من رؤية Lysines و Glycines المختلفة على الشاشة. كم من كل واحد يمكنك رؤيته؟

6 في نوع إدخال نص Atoms المختارة ماء. اختر اسم طريقة التلوين. يجب أن ترى 58 جزيء ماء (في الواقع جزيئات الأكسجين فقط) موجودة في نظامنا.

7 لمعرفة جزيئات الماء الأقرب إلى البروتين ، يمكنك استخدام الأمر بداخله. اكتب الماء وضمن 3 بروتين. يؤدي هذا إلى تحديد جميع جزيئات الماء التي تقع على مسافة 3 أنجستروم من البروتين.

8 أخيرًا ، حاول كتابة التحديدات التالية في Selected Atoms:

اختيار عمل
بروتين يظهر البروتين
الإقامة 1 المخلفات الأولى
(البقايا 76) و (ليس الماء) المخلفات الأولى والأخيرة
(البقايا 23 إلى 34) و (البروتين) الحلزون

توفر لك جميع الخيارات السابقة أداة قوية لاستكشاف أجزاء مختلفة من البروتين أو الجزيء الخاص بك.

يتيح لك الزر إنشاء ممثل الشكل 8 (أ) في نافذة التمثيلات الرسومية إنشاء تمثيلات متعددة. لذلك ، يمكنك الحصول على مزيج من التحديدات المختلفة بأنماط وألوان مختلفة ، يتم عرضها جميعها في نفس الوقت.

1 للتمثيل الحالي ، اضبط طريقة الرسم على NewCartoon وطريقة التلوين على الهيكل.

2 في بروتين نوع الذرات المختارة.

3 اضغط على زر إنشاء مندوب (أ). الآن ، باستخدام عناصر القائمة في علامة التبويب Draw Style وإدخال نص Selected Atoms ، قم بتعديل التمثيل الجديد للحصول على VDW كطريقة الرسم ، و ResType كطريقة التلوين ، وإعادة تسمية LYS على أنه التحديد الحالي.

5 قم بإنشاء تمثيل نهائي بالضغط مرة أخرى على الزر "إنشاء ممثل". حدد طريقة الرسم ، وجزيء طريقة التلوين واكتب البروتين في إدخال الذرات المحددة. بالنسبة لهذا التمثيل الأخير ، اختر في قسم المواد (ج) عنصر القائمة الشفاف.

6 لاحظ أنه باستخدام الماوس ، يمكنك تحديد التمثيلات المختلفة التي قمت بإنشائها وتعديل كل تمثيل بشكل مستقل. أيضًا ، يمكنك تشغيل / إيقاف تشغيل كل واحد من خلال النقر المزدوج عليه أو حذف كل واحد باستخدام الزر Delete Rep (ب). في نهاية هذا القسم ، يجب أن تظهر نافذة التمثيلات الرسومية بالشكل 8.

عند التعامل مع البروتين لأول مرة ، من المفيد جدًا العثور على الأحماض الأمينية المختلفة وعرضها بسرعة. يسمح لك امتداد عارض التسلسل باختيار وعرض واحد أو أكثر من البقايا بسهولة.

1 اختر عنصر القائمة عارض تسلسل تحليل الامتدادات. ستظهر نافذة الشكل 9 (أ) بقائمة بالأحماض الأمينية (هـ) وخصائصها (ب) وأمبير (ج) على شاشتك.

2 بالماوس ، انقر فوق المخلفات المختلفة (هـ) في القائمة وشاهد كيف يتم تمييزها. بالإضافة إلى ذلك ، ستظهر البقايا المميزة في نافذة OpenGL Display باللون الأصفر وطريقة الرسم بالسندات ، بحيث يمكنك تصورها بسهولة. استخدم الزر الأيمن للماوس لإلغاء تحديد البقايا.

3 باستخدام عناصر التحكم في التكبير (و) ، يمكنك عرض قائمة المخلفات بأكملها في النافذة. هذا مفيد بشكل خاص للبروتينات الكبيرة

4 يسمح لك استخدام مفتاح Shift أثناء الضغط على زر الماوس باختيار عدة بقايا في نفس الوقت. انظر إلى المخلفات 48 و 63 و 11 و 29 (هـ).

5 انظر إلى نافذة التمثيلات الرسومية ، يجب أن تجد تمثيلًا جديدًا مع البقايا التي حددتها باستخدام ملحق عارض التسلسل. كما فعلت من قبل ، يمكنك تعديل هذا التمثيل أو إخفاؤه أو حذفه.

المعلومات حول المخلفات مشفرة بالألوان (د) في الأعمدة وتم الحصول عليها من STRIDE. يُظهر عمود القيمة B (ب) حقل القيمة B (عامل درجة الحرارة). يُظهر عمود الهيكل الهيكل الثانوي (د) ، حيث يعني كل حرف:

تي منعطف أو دور
ه التشكل الممتد (الأوراق)
ب جسر معزول
ح ألفا الحلزون
جي 3-10 حلزون
أنا بي الحلزون
ج لفه

يمكن حفظ الصورة التي قمت بإنشائها باستخدام VMD ، إلى جانب جميع التمثيلات التي قمت بإنشائها ، كحالة VMD. تحتوي حالة VMD هذه على جميع المعلومات اللازمة لبدء جلسة VMD جديدة منها ، دون فقدان ما قمت به.

1 في نافذة VMD الرئيسية ، اختر عنصر القائمة File Save State. اكتب اسمًا مناسبًا (على سبيل المثال ، myfirststate.vmd) واحفظه.

سيسمح لك عنصر القائمة File Load State بتحميل حالة VMD محفوظة مسبقًا ، تمامًا مثل الملف الذي قمت بحفظه. على الرغم من أن حالة VMD تسمح لك بالعمل مع الصورة واستكشاف خصائص البروتين باستخدام VMD ، فإنك تحتاج عادةً إلى صور يمكن استخدامها في المقالات أو أي نوع آخر من المستندات. يمكن لـ VMD عرض الصورة التي قمت بإنشائها وإنشاء ملف صورة يمكن استخدامه في تطبيقات أخرى ، كما هو موضح في الخطوات التالية.

2 باستخدام كل ما تعلمته حتى الآن ، ابحث عن عرض مناسب للبروتين عن طريق قياس الجزيء وتدويره وترجمته. قم بتشغيل وإيقاف التمثيلات المختلفة وتحسين الدقة والخصائص المختلفة للتحديدات التي حددتها. إذا كنت تريد صورة عالية الجودة ، فضع اهتمامًا خاصًا على دقة كل تمثيل.

3 كن على علم بالتمثيلات الجديدة التي قمت بإنشائها باستخدام ملحق عارض التسلسل وقم بإخفائها أو حذفها إذا لزم الأمر.

4 قبل تجسيد الصورة ، قم بتغيير لون الخلفية باختيار عنصر قائمة ألوان الرسومات. هناك ، اختر فئة العرض واسم الخلفية واللون 8 الأبيض. يجب أن تكون الخلفية بيضاء الآن.

5 اختر ملف التقديم. عنصر القائمة. ستظهر نافذة تسمى File Render Controls في شاشتك.

6 يمكنك جعل الصورة باستخدام حزم مختلفة. اختر TachyonInternal في Render باستخدام القائمة.

7 اكتب اسم الملف حيث سيتم حفظ الصورة في إدخال نص اسم الملف ، أي picture.tga (الافتراضي هو plot.tga).

8 اضغط على زر بدء التقديم وسيتم إنشاء الملف مع صورتك. لاحظ أن هذا قد يستغرق بعض الوقت. يجب أن ينتهي بك الأمر بملف صورة باسم picture.tga (MacOS X أو Unix) أو picture.bmp (في Windows).

9 أغلق التطبيق الذي فتح ملف الصورة للاستمرار في استخدام VMD.

لقد انتهيت الآن من الوحدة الأولى من البرنامج التعليمي. نأمل أن تكون قد تعلمت الأوامر الأساسية لـ VMD. أيضا ، لقد قمت بإنشاء ملفين. الحالة الأولى هي حالة VMD التي تسمح لك بإعادة تشغيل جلسة VMD ، واستخدام أو تعديل كل ما فعلته في هذه الوحدة. الملف الثاني هو ملف صورة للبروتين الخاص بك يمكن استخدامه في تطبيقات عرض الصور الأخرى.


الحقيقة والجمال في العلم

فيليب بول ، أحد كتّاب العلوم المفضلين لدي ، لديه اجترار عميق حول الصراع المستمر بين الجمال والحقيقة في العلم.

فيليب بول ، أحد كتّاب العلوم المفضلين لدي ، لديه اجترار عميق حول الصراع المستمر بين الجمال والحقيقة في العلم. يجادل بول بأن توقع الجمال كدليل للحقيقة العلمية غير مؤكد وفوضوي تمامًا وأن النجاحات هي قصصية ، وأنا أميل إلى الاتفاق معه. لا شك أن هناك نظريات مثل النسبية العامة والتي أطلق عليها كل من مبدعيها وأتباعهم "جميلة" ، ولكن بالنسبة للعديد من المفاهيم الأخرى في العلم ، يكون التعريف أكثر صعوبة. تثير الكرة مجددًا السؤال الذي طرحه كيتس: هل الجمال حقيقة؟ وهل الحقيقة جمال؟

بادئ ذي بدء ، من الواضح لي أن تعريف الجمال يعتمد على المجال. على سبيل المثال ، في الفيزياء ، من الأسهل بكثير تسمية معادلة ديراك بأنها جميلة استنادًا إلى حقيقة أنه يمكن كتابتها على منديل ويمكن أن تشرح عددًا لا يحصى من الظواهر في سطر واضح من الرموز. ولكن كما أشرت في مقال سابق ، فإن تقدير الجمال في الكيمياء والبيولوجيا أصعب لأن معظم الظواهر الكيميائية والبيولوجية لا يمكن اختزالها في معادلات بسيطة المظهر. في منشور سابق ، لاحظت أيضًا كيف يمكن أن تبدو المعادلات البسيطة في الكيمياء جميلة ومع ذلك تكون تقريبية ومحدودة ، وكيف يمكن أن تبدو المعادلات المعقدة قبيحة ومع ذلك تكون عالمية ، مع إعطاء إجابات دقيقة لست منازل عشرية. ما المعادلة التي تعرفها بعد ذلك بأنها الأكثر "جمالًا"؟

من الواضح أيضًا للكيميائيين أنه في الكيمياء ، يكمن الجمال بشكل كبير في تصور الهياكل الكيميائية. يمكن التعرف على الرسومات الخطية للجزيئات والتمثيلات ثلاثية الأبعاد للبروتينات على أنها جميلة ، حتى بالنسبة لغير الكيميائيين. ومع ذلك ، قد يكون هذا الجمال مغرًا بشكل خادع. على سبيل المثال ، تبدو العديد من الجزيئات "المستحيلة" أو غير المستقرة للغاية جميلة عند رسمها ، والعديد من هياكل البروتين ذات المظهر الجميل هي في الواقع نماذج غير كاملة ، مبنية من بيانات وموضوعات غير مؤكدة وفوضوية إلى أهواء وتحيزات منشئوها.

لطالما شككت في أن "الجمال" هو أكثر من مجرد بطاقة مكان أو وكيل لشيء آخر ، وفي مقالته يقتبس بول عالِم الفيزياء المعروف نعمة أركاني حامد بهذا المعنى. إنه شعور يبدو وكأنه دليل مقنع لتعريف الجمال:

إنها ليست موضة ، وليست علم اجتماع. إنه ليس شيئًا قد تجده جميلًا اليوم ولكنك لن تجده رائعًا بعد 10 سنوات من الآن. الأشياء التي نجدها جميلة اليوم ونعتقد أنها ستكون جميلة إلى الأبد. والسبب هو أن ما نعنيه بالجمال هو في الحقيقة اختصار لشيء آخر. القوانين التي نجدها تصف الطبيعة بطريقة ما لديها شعور بالحتمية تجاهها. هناك عدد قليل جدًا من المبادئ ولا توجد طريقة أخرى ممكنة للعمل بها بمجرد فهمك لها بعمق كافٍ. هذا ما نعنيه عندما نقول إن الأفكار جميلة.

في اقتباسه ، يشير أركاني حامد إلى العديد من معايير الجمال التي يستشهد بها علماء الفيزياء والرياضيات بشكل خاص ، الإيجاز والعالمية والخلود والحتمية. هذه قائمة جديرة بالصفات. لا أحد يتوقع أن تنقلب النظريات الأساسية للنسبية العامة أو ميكانيكا الكم في أي وقت قريب. ومع ذلك ، فإن اقتباس أركاني حامد يجعلني أشك أيضًا في أن ارتباط الجمال بهذه الصفات الأخرى هو بالضبط ما يجعله متاحًا فقط للعقول الأكثر اختراقًا في هذا المجال. على سبيل المثال ، غالبًا ما يتم الاستشهاد بأينشتاين وبول ديراك وعالم الرياضيات هيرمان ويل كمفكرين قاموا بإدامة عواء يعلنون ولائهم للجمال على الحقيقة. لكن هناك طريقة أخرى لتفسير هذه الحكايات وهي التساؤل عما إذا كان ديراك وويل وآينشتاين على وجه التحديد نوع من العقول الفائقة التي يمكن أن ترى الجمال على أنه تجسيد لهذه الصفات الأكثر دقة وعمقًا. إذا كان هذا صحيحًا بالفعل ، فسيكون الاستنتاج العادي هو أن الجمال هو حقًا حقيقة ، ولكن فقط عندما يعلنه أينشتاين أو ويل أو ديراك.

هناك معيار واحد من بين تلك التي وصفها أركاني حامد ينطبق على التمثيلات ثلاثية الأبعاد للبروتينات التي ناقشتها أعلاه - الخلود. على سبيل المثال ، تم منح جوائز نوبل للعديد من الهياكل البلورية للتجمعات الجزيئية الحيوية المهمة مثل الريبوسوم وقناة أيون البوتاسيوم. ليس هناك شك في أن الاستكشافات الأكثر تفصيلاً ستكشف عن تفاصيل غير متوقعة للهياكل ، ولكن من المحتمل ألا تتم مراجعة البنية الأساسية لهذه الآلات الجزيئية الأساسية ، فهي ، للعديد من الأغراض ، صالحة لكل زمان.

يمكن أن تكون الصفات الأخرى التي تكمن وراء الجمال أكثر إثارة للجدل. على سبيل المثال ، يقول بول إن المفهوم الكامل للتناظر الذي لا يعتبر فقط اختبارًا رائعًا للجمال في الفيزياء ولكنه أدى أيضًا إلى العديد من التطورات الأساسية في هذا المجال ، هو أيضًا دليل ضعيف في مجالات أخرى مثل الفن والشعر. هناك العديد من الأمثلة على الفن (بيكاسو) والشعر (T. S. Eliot على سبيل المثال) التي تفتقر إلى عناصر التناظر ، ومع ذلك فهي تعتبر كلاسيكيات مهمة. ولكن هذا هو المكان الذي يشير فيه بول إلى أنه على عكس معادلات النسبية ، فإن الفن والشعر أكثر ذاتية ، وبالتالي أكثر عرضة للتيارات المتغيرة في المجتمع والأزياء. لكن هل هم حقا؟ نحن نعتبر معادلات أينشتاين الميدانية صالحة لكل زمان ، ولكن ماذا عن "الأرض القاحلة"؟

في نهاية المطاف ، ستكون مفاهيم الجمال وارتباطه بالحقيقة دائمًا غامضة ، وجدارة غير مؤكدة ، وحتى مشكوك فيها. ومع ذلك ، أتفق تمامًا مع بول في أنه لا ينبغي للعلماء والفنانين التخلي عن سعيهم لإيجاد الجمال في الطبيعة وفي أعمالهم ، فقط لأنه يعمل على دفع الأفكار إلى الأمام وتحفيزهم على التفكير بطرق جديدة. الشيء الوحيد الذي يسأله هو أنهم يوضحون نواياهم وعمليات تفكيرهم.

رغم كل هذا ، لا أريد أن يتخلى العلماء عن حديثهم عن الجمال. أي شيء يلهم التفكير العلمي هو أمر ذو قيمة ، وإذا كان البحث عن الجمال - وهو مفهوم الجمال الخاص بالعلم ، بعيدًا عن الفن - يفعل ذلك ، فعندئذٍ يجلبه. وإذا كان يمنحهم لغة للتحدث مع الفنانين ، بدلاً من الوقوف على صناديق الصابون وتبادل الإهانات الخارقة مثل C P Snow و F R Leavis ، فهذا أفضل. أتمنى أن يكونوا أكثر صراحة حول حقيقة أنهم (كما عادتهم) يعذبون كلمة فقيرة ، غامضة ، يومية لجعلها تناسب متطلباتهم الخاصة. سيكون من دواعي سروري بالأحرى أن يقول الفنان ، بدلاً من قبول هذا السعي الموحد للجمال (كما فعل إيان ماك إيوان) ، بدلاً من ذلك: "لا ، لسنا حتى في نفس الصفحة. هذا الجمال لك لا يعني شيئا بالنسبة لي.

الآراء المعبر عنها هي آراء المؤلف (المؤلفين) وليست بالضرورة آراء Scientific American.


نموذج خلية حيوانية ثلاثية الأبعاد

المباني مصنوعة من عدة طوب مكونة من ملايين الخلايا. الخلية هي الوحدة الأساسية لجميع الكائنات الحية. تختلف الخلايا في جسمك من حيث الحجم ، يمكن أن يصل طول الخلية العصبية الواحدة إلى متر واحد ، لكن الخلايا الأكثر شيوعًا التي تبطن داخل خدك هي 0.05 ملم. تتكون الخلية من العديد من الأجزاء المهمة ، تسمى العضيات، التي تؤدي وظائف مختلفة

المواد

  • صينية فطيرة أو طاجن مستدير
  • مزيج الجيلاتين الشفاف أو الأصفر
  • كوب القياس
  • ماء
  • ملعقة
  • ثلاجة
  • موقد
  • غلاف بلاستيكي شفاف
  • أصناف طعام متنوعة (انظر الإجراء)

إجراء

  1. اجمع الأطعمة التي ستمثل العضيات في خليتك. يتضمن الجدول التالي ملخصًا لوظيفة العضية و rsquos والمظهر وبعضها اقترحت العناصر. لا تتردد في الاستبدال.

المظهر والوظيفة

العناصر المقترحة

رقيق ، ينظم ما يدخل ويخرج من الخلية

غلاف بلاستيكي شفاف تضعه بين الجيلاتين والطبق

كروي ، مركز التحكم في الخلية

البرقوق أو المشمش أو أي فاكهة كروية ذات حفرة

يشارك في بناء البروتينات الموجودة داخل النواة

رقيقة ، تنظم ما يدخل ويخرج من النواة.

المنطق الإندوبلازمي (ER)

الطيات والأنابيب الملساء والخشنة ، حيث يتم تصنيع مواد الخلايا

فاينز حمراء أو حلوى أخرى تشبه الخيوط

كروي وقضيب الشكل ، يوفر الطاقة للخلية

صغيرة وفي مجموعات ، تصنع البروتينات

دائري ، تفتيت النفايات في الزنزانة.

رقائق الشوكولاتة أو السكيتل أو غيرها من الحلوى الصغيرة المستديرة

طبقات مكدسة بالقرب من النواة ، حزم المواد لإرسالها خارج الخلية

صهاريج تخزين كبيرة ومليئة بالسوائل لمخلفات الخلايا

Gumball ، أو حلوى كروية أخرى أكبر

قد لا يبدو نموذج الخلية الحيوانية ثلاثي الأبعاد الخاص بك مثل المخططات النموذجية للخلية ، ولكن في الواقع سيساعدك بناء نموذج ثلاثي الأبعاد على تصور أجزاء الخلية وتذكرها. يمثل الجيلاتين في نموذج الخلية الخاص بك العصارة الخلوية. العصارة الخلوية هي السائل الصافي داخل الخلية التي تحيط بالعضيات. معا ، العصارة الخلوية والعضيات في العصارة الخلوية تسمى السيتوبلازم. تمامًا مثل الجيلاتين ، يحتوي العصارة الخلوية الحقيقية على بروتينات وسكريات وجزيئات كبيرة أخرى.

إخلاء المسؤولية واحتياطات السلامة

يوفر موقع Education.com أفكار مشروع معرض العلوم للأغراض الإعلامية فقط. لا تقدم Education.com أي ضمان أو إقرار فيما يتعلق بأفكار مشروع Science Fair وليست مسؤولة أو مسؤولة عن أي خسارة أو ضرر ، بشكل مباشر أو غير مباشر ، ناتج عن استخدامك لهذه المعلومات. من خلال الوصول إلى Science Fair Project Ideas ، فإنك تتنازل وتتخلى عن أي مطالبات تنشأ عن موقع Education.com. بالإضافة إلى ذلك ، يتم تغطية وصولك إلى موقع Education.com على الويب وأفكار مشروعات معرض العلوم من خلال سياسة الخصوصية وشروط استخدام الموقع الخاصة بـ Education.com ، والتي تتضمن قيودًا على مسؤولية موقع Education.com.

يُعطى التحذير بموجب هذا أنه ليست كل أفكار المشروع مناسبة لجميع الأفراد أو في جميع الظروف. يجب تنفيذ أي فكرة لمشروع علمي فقط في الأماكن المناسبة وبإشراف من الوالدين أو أي إشراف آخر. تقع مسؤولية قراءة واتباع احتياطات السلامة لجميع المواد المستخدمة في المشروع على عاتق كل فرد. لمزيد من المعلومات ، راجع كتيب ولايتك لسلامة العلوم.


إعادة تشكيل غشاء الخلية بأوتاد جزيئية

تمثيل فنان للبروتينات المعقدة لمحول الخلايا الداخلية كأوتاد ملابس. وتتمثل وظيفتها في إغلاق غشاء الخلية ، الذي يمثله خط الغسيل ، بحيث يمكن ثنيه وإعادة تشكيله. الائتمان: ألكساندرا كروليك / EMBL

غشاء الخلية عبارة عن هيكل ديناميكي للغاية يغير شكله باستمرار. The ability to reshape the membrane – which scientists call ‘remodelling’ – is critical for the fundamental biological process of endocytosis. Endocytosis allows cells to take in external materials, such as nutrients, by surrounding them with an area of cell membrane.

The main endocytic machinery relies on coordination in space and time of numerous proteins that connect the membrane to the cytoskeleton, a network of protein filaments and tubules that gives structure to the cells. An essential piece of this 3D puzzle is to understand how adaptor proteins, which anchor the membrane, manage to grip it with enough strength to reshape it.

In a recent study, the García Alai team at EMBL Hamburg and collaborators used single particle cryo-electron microscopy to solve a part of this puzzle by determining the molecular structure of the protein anchors. They saw that the structure of these anchors resembles clothes pegs. In further experiments, they found that these pegs combine into larger multi-peg clusters, which clasp the membrane tightly and enable it to be remodelled during endocytosis.

“These findings finally enabled us to understand how adaptor proteins, which are not an integral part of the membrane, are able to reshape it,” says María García Alai, the leading scientist in this study. Javier Lizarrondo, the first author adds: “We also saw that these anchors assemble very fast which is crucial for the cell to respond quickly to the changing environment.”

Structure of the endocytic adaptor AENTH complex reveals the basis for efficient membrane anchoring during clathrin-mediated endocytosis. Similarly to a peg, the adaptor complex clasps the membrane to enable it to be remodelled. Credit: Javier Lizarrondo/EMBL


Adjusting width of cartoon

Try varying the following.

For nucleic acid backbones which resemble 'loops' however, are not classified as such by PyMOL (see more about nucleic acid representation settings at bottom of page):


In each case "length" refers to what some might call the width and "width" refers to what some might call the thickness.

Forcing Exact Boundaries in Coloring Secondary Structures

To force PyMOL to respect secondary structural elements color-wise (PyMOL smooths out colors near color chagnes for a prettier image) use the following PyMOL command: set cartoon_discrete_colors, on


ProGen: Using AI to Generate Proteins

In our study [1], we demonstrate that an artificial intelligence (AI) model can learn the language of biology in order to generate proteins in a controllable fashion. Our AI system, ProGen, is a high capacity language model trained on the largest protein database available (

280 million samples). ProGen tackles one of the most challenging problems in science and indicates that large-scale generative modeling may unlock the potential for protein engineering to transform synthetic biology, material science, and human health.

Why proteins?

Let’s start with an example on everyone’s mind today. The coronavirus outbreak (COVID-19), with its contagious spread across continents and high mortality rate, has turned into a global pandemic [2] according to the WHO. To (1) better understand the coronavirus’ pathogenic nature and (2) effectively design vaccines and therapeutics, researchers across the globe are studying البروتينات. Within weeks, researchers were able to characterize the COVID-19 spike protein [3] which enables COVID-19 to gain entry into our human cells. Regarding detection and treatment, antibodies (also proteins) act to neutralize a virus and thereby inactivate it before causing disease.

Broadly stated, proteins are responsible for almost all biological processes critical to life. Hemoglobin carries oxygen to your cells insulin regulates your blood glucose levels and rhodopsin helps you see. It even extends past life itself. Proteins have been used in industrial settings to break down plastic waste and create laundry detergents.

But what is a protein?

A protein is a chain of molecules, named amino acids, bonded together. There are around 20 standard amino acids, the basic building blocks of the primary sequence representation of a protein. These amino acids interact with one another and locally form shapes (e.g. alpha helices or beta sheets) which constitute the secondary structurه. Those shapes then continue to fold into a full three dimensional structure, or tertiary structure. From there, proteins interact with other proteins or molecules and carry out a wide variety of functions.

So what’s the ultimate goal of this work?

Proteins can be viewed as a language, just like English, where we have words in a dictionary (amino acids) that are strung together to form a sentence (protein). It’s impossible for us as humans to gain fluency in the language of proteins (although we dare you to try). But what if we could teach a computer, more precisely an AI model, to learn the language of proteins so it can write (i.e. generate) proteins for us? Our aim is controllable generation of proteins with AI, where we specify desired properties of a protein, like molecular function or cellular component, and the AI model accurately creates/generates a viable protein sequence.

Introducing ProGen, an AI model that can controllably generate protein sequences. ‌‌

Normally we would have to just wait for evolution, through random mutation and natural selection, to leave us with useful proteins. The emerging field of protein engineering attempts to engineer useful proteins through techniques such as directed evolution and من جديد protein design [4,5]. Our dream is to enable protein engineering to reach new heights through the use of AI. If we had a tool that spoke the protein language for us and could controllably generate new functional proteins, it would have a transformative impact on advancing science, curing disease, and cleaning our planet.

In our study, we focus on modeling the primary sequences of proteins. The reason boils down to two things: (1) data scale and (2) language modeling. Advances in technology have enabled an exponential growth of protein sequences available (

280,000,000) compared to protein structures (

160,000) [6]. As machine learning is inherently data-driven, sequence modeling is a great place to start. In addition, if we view protein sequences as a language, we can leverage advances in AI and natural language processing (NLP).

The number of protein sequences available is exponentially increasing.

What type of AI are we talking about here?

A field of artificial intelligence focusing on generative modeling has shown incredible results in image, music, and text generation. As an example, let’s take an image generation task where the objective is to create realistic image portraits of human faces. The idea is to train a high-capacity AI model (a deep neural network) on extremely large amounts of data. After sufficient training, an AI model is able to generate new facial portraits that are incredibly realistic ones that are indistinguishable from real ones. We show a couple examples of generated images by such a model below [7].

StyleGAN generated images [7]

Generative modeling has also shown remarkable success in text generation by utilizing a technique called autoregressive language modeling. At Salesforce Research, we developed CTRL [8], a state-of-the-art method for language modeling that demonstrated impressive text generation results with the ability to control style, content, and task-specific behavior. Again, it involves utilizing a high-capacity AI model trained on a large dataset of natural language. We show a couple novel pieces of text generated by CTRL below.

CTRL generated text [8]

It’s important to underscore for both these examples in image and text generation, the model is not simply performing a search to find a relevant sample in a database. The displayed image and text above are في الواقع generated by the AI model and do not exist in the training data.

Now for proteins, we take a similar approach to NLP by language modeling on protein sequences. Our AI model, ProGen, is given all 280 million protein sequences with their associated metadata, formulated as conditioning tags, to learn the distribution of natural proteins selected through evolution. The end-goal is to use ProGen to controllably generate a new, unique protein sequence that is functional.

But how does ProGen learn to do this?

ProGen takes each training sample and formulates a guessing game per word, more precisely a self-supervision task of next-token prediction. Let’s use an example in natural language. Imagine you were tasked with predicting the probability of the next word in the following sentence that is known to be written in a particular style in brackets:

You would expect a word such as “bats”, “lightning”, or “darkness” to have a higher probability to complete such a sentence than words such as “hello”, “yes”, or “CRMs”. Whereas if you were given the same task for the following sentence:

You would expect that words such as “love”, “sunshine”, or “happiness” to now have a higher probability. In both scenarios, we use our understanding of the previous words in the sentence (context), desired style, and English language as a whole to assign probabilities to next words/tokens.

ProGen uses this next-token prediction objective in training by formulating this game for every amino acid of all protein sequences in the training dataset for multiple rounds of training. Instead of style tags (such as horror and romance above), ProGen utilizes over 100,000 conditioning tags assigned to the protein which span concepts such as organism taxonomic information, molecular function, cellular component, biological process, and more. By the end of training, ProGen has become an expert at predicting the next amino acid by playing this game approximately 1 trillion times. ProGen can then be used in practice for protein generation by iteratively predicting the next most-likely amino acid and generating new proteins it has never seen before.

So how well does ProGen perform?

We demonstrate that ProGen is a powerful language model according to NLP metrics such as sample perplexity along with bioinformatics and biophysics metrics such as primary sequence similarity, secondary structure accuracy, and conformational energy analysis. We refer the reader to the paper for full details on the metrics description and evaluation on the held-out test set. In this post, we’ll touch on two case example proteins, VEGFR2 and GB1.

Generating VEGFR2 proteins

The protein VEGFR2 is responsible for several fundamental processes of our cells ranging from cell proliferation, survival, migration, and differentiation. We hold-out VEGFR2 protein sequences from our training dataset so ProGen never gets a chance to see them. At test time, we provide ProGen with the beginning portion of VEGFR2 along with relevant conditioning tags as input and ask ProGen to generate the remaining portion of the protein sequence.

But how do we evaluate the generation quality by ProGen? In the generative modeling examples above, we showed you image and text generations by an AI model that were visibly realistic. We need to construct an evaluation framework for a successful generation within the protein domain as well.

Again, our goal with ProGen is to generate وظيفي البروتينات. VEGFR2 has a known function and known structure--in fact the full three-dimensional structure of the relevant VEGFR2 domain (at 0.15 nanometer resolution) is available. We know that structure infers function, meaning the shape of the protein gives you a strong signal as to the role of the protein. So if we can show that the ProGen generated portion maintains the structure of the protein, it strongly implies that ProGen has generated a functional protein--a successful generation!

In biophysics, there are known techniques, such as protein threading and energy minimization, that place a given amino acid sequence inside a known structure, or 3D configuration, and examine the overall energy of the protein. Like humans, proteins want to be in a relaxed low-energy state. A high energy state corresponds to the protein wanting to essentially explode indicating that you have fit the sequence to the wrong structure.

To evaluate how high of an energy is too high, we provide baselines for different levels of random mutation. For a given ground-truth (native, natural) sequence, a proportion (25-100%) of amino acids in the sequence is randomly substituted with one of the twenty standard amino acids. A 100% mutation baseline statistically indicates a failed generation. In the ideal case, we would want the energy of our ProGen sequence in the known structure to be closer to the 25% mutation or 0% mutation (native) energy levels. And that’s precisely what we show below:

ProGen generated samples exhibit low-energy levels indicating high-quality generation.

Across differing generation lengths, ProGen generation quality remains steadily near native low-energy levels, indicating a successful generation. Again, ProGen is not simply performing a search within its training database. The generated sequence does not exist within the training data.

We also visualize individual samples from our experiment to examine the energy per amino acid. The ProGen sample exhibits lower energy overall, and energy is highest for amino acids that do not have secondary structure. This suggests that ProGen learned to prioritize the most structurally important segments of the protein. In the figure below, blue is low energy (stable) and red is high energy (unstable).

ProGen generated samples exhibit low energy and conserve secondary structure. Blue is low energy (stable) and red is high energy (unstable).

Identifying functional GB1 proteins

With VEGFR2, we have demonstrated the ability for ProGen to generate structure-preserving (and thereby functional) proteins from a biophysics perspective. For the protein G domain B1, named GB1, we demonstrate ProGen’s abilities with experimentally-verified functional labeled data.

Protein G is important for the purification, immobilization, and detection of immunoglobulins (antibodies)--proteins used by our immune system to neutralize pathogenic viruses and bacteria. Ideally, we would want the ability to generate GB1 proteins that are functional in terms of high binding affinity and stability. We examine a dataset [9] of 150,000 variants of GB1 by mutating four amino acid positions known to be important to overall fitness. For each one of these protein variants, the dataset reports experimentally verified fitness values which correspond to the properties that make a functional protein. Protein sequences with high fitness values are desired.

Without ever seeing the experimental data provided in the study, ProGen can identify which proteins are functional proteins. In the figure below, ProGen selected proteins exhibit a spread of high fitness values. We baseline this with the existing technique of random selection which demonstrates consistently near-zero fitness levels. This indicates that GB1 is highly sensitive to simple mutational changes and demonstrates that selecting functional GB1 proteins is a difficult task--let alone without ever training on the labeled data itself.

Without training on any labels, ProGen can identify functional proteins. High fitness correlates to valid, functional proteins.

The intuition behind this is that ProGen has learned to become fluent in the language of وظيفي proteins, as it has been trained on proteins selected through evolution. If given an unknown sequence, ProGen can recognize whether the sequence is coherent in terms of being a functional protein. Similar to how if you were given a string of text, you could identify if it is coherent or not based on your understanding of the English language.

ماذا بعد؟

This marks an incredible moment where we demonstrate the potential for large-scale generative modeling with AI to revolutionize protein engineering. We aim to engineer novel proteins, whether undiscovered or nonexistent in nature, by tailoring specific properties which could aid in curing disease and cleaning our planet. We hope this spurs more research into the generative space alongside existing work in protein representation learning [10-12]. Lastly, we’d love to partner with biologists to bring ProGen to the real-world. If you’re interested, please check out our paper and feel free to contact us at amadani (at) salesforce.com!

شكر وتقدير

This work is done in collaboration with Bryan McCann, Nikhil Naik, Nitish Shirish Keskar, Namrata Anand, Raphael R. Eguchi, Possu Huang, and Richard Socher.


Sample preparation for light-sheet-based microscopy

The sample preparation for light-sheet techniques is very different from the slide preparations used for conventional microscopy. For ultramicroscopy,the fixed sample is immersed in a clearing solution and illuminated and imaged from outside the chamber. For SPIM, mSPIM and DSLM, the live sample is most often immersed in an aqueous medium. In order to control the position of the sample precisely with respect to the light-sheet and the detection lens, large samples like zebrafish or ذبابة الفاكهة embryos are embedded in a transparent gel, such as agarose, and held in place from the top by micromotors. Single cells and cysts are generally embedded in hollow agarose cylinders or Matrigel enclosed in a small bag of transparent foil(Keller et al., 2006). The embedded sample is then immersed in an aqueous medium appropriate for the particular sample. In a recent mSPIM implementation in the authors'laboratory, the chamber is connected to a computer-controlled perfusion pump and an in-line heater, which provide temperature-controlled fresh medium. This setup allows for the sample under observation to be heat-shocked or treated with drugs for well-defined time periods. Of course, light-sheet microscopy is not limited to samples immersed in a medium setups with air lenses can also be employed.


شاهد الفيديو: الوحدة الثانيةالدرس 04: البنية الفراغية للبروتينات (كانون الثاني 2023).