معلومة

القيم الحدية لـ LD و LOD و D-Prime كمدخلات حسابية

القيم الحدية لـ LD و LOD و D-Prime كمدخلات حسابية


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لقد أنشأت خوارزمية لتوليد تعدد الأشكال لأشخاص عشوائيين من نسل مختلف - بناءً على بيانات HapMap. بينما يعمل هذا بشكل جيد ، هناك شيء آخر أريد أن آخذه في الاعتبار. لذلك إذا كان SNP يحتوي على MAF قدره 0.01 ، مع LD من 1 ، فإن النتائج المتولدة ستكون كافية في معظم الحالات. هذا ليس هو الحال مع MAF من 0.4 و LD من 0.8.

تحتوي ملفات HapMap LD ، إلى جانب بيانات LD ، أيضًا على LOD و D-prime. السؤال هو ، هل هناك مجموعة من المعلمات بحيث يتم تصفية أكبر قدر من LDs ذات الصلة من المجموعة الإجمالية؟

أرغب في تصفية ذلك ، حيث أنه ، على سبيل المثال ، هناك LDs موصوفة بقيمة 0 ، أو LOD <1 ، وإشكالية D-primes.

محاولة إعادة صياغة السؤال:

بالنظر إلى مجموعة ضخمة من معلومات LD (250 جيجابايت) ، والتي لم يتم تصفيتها على أساس القوة الإحصائية ، أريد إجراء اختيار فرعي لمعلومات LD التي تكون وصفية "نسبيًا" للرابط فيما يتعلق بـ SNP آخر. لذلك أنا بحاجة إلى مجموعة من المعلمات لتصفية معلومات LD من HapMap. من القيم الممكنة LD و LOD و D-prime.

بالنظر إلى مجموعة بيانات LD ، فإنه لا يعطي حدًا غريزيًا جيدًا. هناك مشكلة في استخدام البيانات كما هي ، وهي أن كلا من D 'مثل LOD يمكن أن يكون مرتفعًا ومنخفضًا. أعلم أن المعلمات لها ترابط ، لكن ليس تعيين واحد لواحد.

هل لدى أي شخص خبرة في تصفية قيم LD غير الوصفية من (على سبيل المثال) مجموعة بيانات HapMap LD؟


الأساس الجيني لكفاءة استخدام المياه والعائد في الخس

إمدادات المياه تحد من الإنتاجية الزراعية للعديد من المحاصيل بما في ذلك الخس. يعد تحديد الأصناف داخل أنواع المحاصيل التي يمكن أن تحافظ على الإنتاجية مع انخفاض إمدادات المياه تحديًا كبيرًا ، ولكنه أساسي لتطوير محاصيل قادرة على الصمود في مناخات محدودة المياه في المستقبل. قمنا بالتحقيق في السمات المعروفة بأنها مرتبطة بكفاءة استخدام المياه (WUE) والمحصول في الخس ، وهو محصول سلطة مورقة مهم عالميًا ، في مجموعة خس سلالة مؤتلفة (RIL) ، تم إنتاجها من تهجين بين النباتات المزروعة. لاكتوكا ساتيفا سيرة ذاتية. الملاحات وسلفها البري L. serriola ل.

نتائج

اختلف الخس البري والمزروع في WUE ولاحظنا فصلًا منتهكًا في صفات المحصول واستخدام المياه في RILs. حدد تحليل مواضع السمات الكمية (QTL) المناطق الجينومية التي تتحكم في هذه السمات في ظل ظروف جيدة المياه والجفاف. تم اكتشاف QTL للتمييز بين نظائر الكربون ، والنتح ، والتوصيل الثغري ، ودرجة حرارة الأوراق والمحصول ، والتحكم في 4-23 ٪ من التباين الظاهري. تم تحديد نقطة ساخنة في QTL على الكروموسوم 8 الذي يتحكم في التمييز بين نظائر الكربون والتوصيل الثغري والعائد في ظل الجفاف. ارتبطت العديد من الجينات المرشحة الواعدة في هذه المنطقة بـ WUE ، بما في ذلك الأكوابورينات ، والتكوين الجنيني المتأخر والبروتينات الوفيرة ، وبروتين رابط لعنصر الأبسيسيك المستجيب للحمض ، وجلوتاثيون S- المتورطة في استتباب الأكسدة والاختزال بعد إجهاد الجفاف.

الاستنتاجات

لأول مرة ، قمنا بتمييز الأساس الجيني لـ WUE للخس ، وهو محصول مهم تجاريًا ويحتاج إلى المياه. لقد حددنا المناطق الجينومية المرشحة الواعدة التي تحدد WUE والعائد في ظل ظروف جيدة المياه ومحددة للمياه ، مما يوفر بيانات مهمة قبل التكاثر لاختيار الخس في المستقبل والتكاثر حيث ستكون إنتاجية المياه هدفًا رئيسيًا.


الملخص

ال المتصورة المنجلية إن قدرة الطفيل على التكيف مع الضغوط البيئية ، مثل جهاز المناعة البشري والأدوية المضادة للملاريا ، تجعل الملاريا عبئًا دائمًا على الصحة العامة. إن فهم الأساس الجيني لهذه التكيفات أمر بالغ الأهمية للتدخل بنجاح ضد الملاريا. تحقيقا لهذه الغاية ، أنشأنا مجموعة التنميط الجيني عالية الكثافة التي تفحص أكثر من 17000 تعدد أشكال النوكليوتيدات المفردة (∼1 SNP / kb) ، وقمنا بتطبيقها على 57 طفيليًا متكيفًا مع الثقافة من ثلاث قارات. وصفنا التنوع الجيني على مستوى الجينوم داخل وبين السكان وحددنا العديد من المواقع مع إشارات الانتقاء الطبيعي ، مما يشير إلى دورها في التكيف الحديث. بالإضافة إلى ذلك ، أجرينا دراسة ارتباط على مستوى الجينوم (GWAS) ، بحثًا عن مواضع مرتبطة بمقاومة ثلاثة عشر مضادًا للملاريا اكتشفنا كلًا من مواقع المقاومة المعروفة والجديدة ، بما في ذلك موضع مقاومة هالوفانترين جديد ، PF10_0355. من خلال الاختبار الوظيفي أثبتنا ذلك PF10_0355 يقلل الإفراط في التعبير من الحساسية تجاه هالوفانترين ، وميفلوكين ، ولوميفانترين ، ولكن ليس لمضادات الملاريا غير ذات الصلة بنيوياً ، وهذا العدد المتزايد من نسخ الجينات يتوسط المقاومة. يوضح GWAS والتحقق الوظيفي المتابع لدينا إمكانات الدراسات على مستوى الجينوم لتوضيح المواقع المهمة وظيفيًا في جينوم طفيلي الملاريا.


Abiko T، Kotula L، Shiono K، Malik AI، Colmer TD، Nakazono M (2012) تكوين محسن من aerenchyma وتحريض حاجز لفقدان الأكسجين الشعاعي في الجذور العرضية لـ زيا نيكاراغوينسيس المساهمة في تحمل التشبع بالمياه مقارنة بالذرة (Zea mays ssp. ميس). بيئة الخلايا النباتية 35: 1618-1630. دوى: 10.1111 / j.1365-3040.2012.02513.x

Aranzana MJ، Kim S، Zhao K، Bakker E، Horton M، Jakob K، Lister C، Molitor J، Shindo C، Tang C، Toomajian C، Traw B، Zheng H، Bergelson J، Dean C، Marjoram P، Nordborg M (2005) يحدد رسم خرائط الارتباط على مستوى الجينوم في نبات الأرابيدوبسيس وقت الإزهار المعروف سابقًا والجينات المقاومة لمسببات الأمراض. بلوس جينيه 1 (5): e60. دوى: 10.1371 / journal.pgen.0010060

Atwell S، Huang YS، Vilhjalmsson BJ، Willems G، Horton M، Li Y، Meng D، Platt A، Tarone AM، Hu TT، Jiang R، Muliyati NW، Zhang X، Amer MA، Baxter I، Brachi B، Chory J ، Dean C، Debieu M، de Meaux J، Ecker JR، Faure N، Kniskern JM، Jones JD، Michael T، Nemri A، Roux F، Salt DE، Tang C، Todesco M، Traw MB، Weigel D، Marjoram P، Borevitz JO ، Bergelson J ، Nordborg M (2010) دراسة الارتباط على مستوى الجينوم لـ 107 نمطًا ظاهريًا في نبات الأرابيدوبسيس thaliana خطوط فطرية. الطبيعة 465 (7298): 627-631

Barrett JC، Fry B، Maller J، Daly MJ (2005) Haploview: تحليل وتصور خرائط LD والنمط الفرداني. المعلوماتية الحيوية 21 (2): 263-265

Belo A، Zheng P، Luck S، Shen B، Meyer DJ، Li B، Tingey S، Rafalski A (2008) يكشف مسح الجينوم الكامل عن متغير أليلي من بدعة 2 المرتبطة بزيادة مستويات حمض الأوليك في الذرة. المولي جينوميات 279 (1): 1-10

Breseghello F، Sorrells ME (2006) رسم خرائط الجمعية لحجم النواة وجودة الطحن في القمح (Triticum aestivum L.). علم الوراثة 172 (2): 1165-1177

Burgos M ، Messmer M ، Stamp P ، Schmid J (2001) تحمل الإغراق للتهجئة (Triticum spelta L.) مقارنة بالقمح (Triticum aestivum L) - نهج فسيولوجي وجيني. Euphytica 122 (2): 287–295

Ching A ، Caldwell KS ، Jung M ، Dolan M ، Smith OS ، Tingey S ، Morgante M ، Rafalski AJ (2002) تردد SNP ، بنية النمط الفرداني واختلال التوازن في سلالات الذرة الفطرية. BMC Genet 3:19

Cook JP ، McMullen MD ، Holland JB ، Tian F ، Bradbury P ، Ross-Ibarra J ، Buckler ES ، Flint-Garcia SA (2012) العمارة الجينية لتكوين نواة الذرة في رسم الخرائط المتداخل ولوحات الارتباط الفطرية. النبات فيزيول 158 (2): 824-834

Dennis ES ، Dolferus R ، Ellis M ، Rahman M ، Wu Y ، Hoeren FU ، Grover A ، Ismond KP ، Good AG ، Peacock WJ (2000) الاستراتيجيات الجزيئية لتحسين تحمل التشبع بالمياه في النباتات. J Exp Bot 51 (342): 89-97

Devlin B ، Roeder K (1999) التحكم الجينومي لدراسات الارتباط. القياسات الحيوية 55 (4): 997-1004

Ellis MH ، Dennis ES ، Peacock WJ (1999) جذور وبراعم نبات الأرابيدوبسيس لها آليات مختلفة لتحمل الإجهاد الناجم عن نقص الأكسجين. النبات فيزيول 119 (1): 57-64

Elshire RJ، Glaubitz JC، Sun Q، Poland JA، Kawamoto K، Buckler ES، Mitchell SE (2011) نهج قوي وبسيط للتنميط الجيني عن طريق التسلسل (GBS) للأنواع عالية التنوع. بلوس ون 6 (5)

Evanno G، Regnaut S، Goudet J (2005) الكشف عن عدد مجموعات الأفراد باستخدام هيكل البرنامج: دراسة محاكاة. مول ايكول 14 (8): 2611-2620

Falush D ، Stephens M ، Pritchard JK (2003) استدلال بنية السكان باستخدام بيانات النمط الوراثي متعدد التركيز: مواضع مرتبطة وترددات أليل مرتبطة. علم الوراثة 164 (4): 1567-1587

Good AG، Johnson SJ، DePauw M، Carroll RT، Savidov N (2007) يستخدم النيتروجين الهندسي الكفاءة مع alanine aminotransferase. كان جي بوت 85: 252-262

Hardy OJ ، Vekemans X (2002) SPAGEDi: برنامج كمبيوتر متعدد الاستخدامات لتحليل التركيب الجيني المكاني على مستوى الفرد أو السكان. ملاحظات مول Ecol 2 (4): 618-620

Hattori Y، Nagai K، Furukawa S، Song XJ، Kawano R، Sakakibara H، Wu J، Matsumoto T، Yoshimura A، Kitano H، Matsuoka M، Mori H، Ashikari M (2009) عوامل استجابة الإيثيلين SNORKEL1 و SNORKEL2 تسمحان بالأرز للتكيف مع المياه العميقة. طبيعة 460 (7258): 1026-1030

Huang X و Wei X و Sang T و Zhao Q و Feng Q و Zhao Y و Li C و Zhu C و Lu T و Zhang Z و Li M و Fan D و Guo Y و Wang A و Wang L و Deng L و Li W ، Lu Y، Weng Q، Liu K، Huang T، Zhou T، Jing Y، Lin Z، Buckler ES، Qian Q، Zhang QF، Li J، Han B (2010) دراسات الارتباط على مستوى الجينوم لـ 14 سمة زراعية في الأرز السلالات. نات جينيه 42 (11): 961-967

Huang X و Zhao Y و Wei X و Li C و Wang A و Zhao Q و Li W و Guo Y و Deng L و Zhu C و Fan D و Lu Y و Weng Q و Liu K و Zhou T و Jing Y و Si L ، Dong G ، Huang T ، Lu T ، Feng Q ، Qian Q ، Li J ، Han B (2012) دراسة الارتباط على مستوى الجينوم لوقت الإزهار وخصائص محصول الحبوب في مجموعة عالمية من الأصول الوراثية للأرز. نات جينيه 44 (1): 32-39

Ingvarsson PK، Street NR (2011) رابطة علم الوراثة للسمات المعقدة في النباتات. فيتول جديد 189 (4): 909-922

Knapp SJ ، Stroup WW ، Ross WM (1985) فترات الثقة الدقيقة للتوريث على أساس متوسط ​​النسل. علوم المحاصيل 25: 192–195

Kump KL ، Bradbury PJ ، Wisser RJ ، Buckler ES ، Belcher AR ، Oropeza-Rosas MA ، Zwonitzer JC ، Kresovich S ، McMullen MD ، Ware D ، Balint-Kurti PJ ، Holland JB (2011) دراسة الارتباط على مستوى الجينوم للمقاومة الكمية إلى مرض اللفحة الورقية الجنوبية في مجموعة خرائط تجمع الذرة المتداخلة. نات جينيه 43 (2): 163–168

Li HH، Ye GY، Wang JK (2007) خوارزمية معدلة لتحسين رسم الخرائط الفاصلة المركبة. علم الوراثة 175 (1): 361–374

Li H ، Vaillancourt R ، Mendham N ، Zhou M (2008) رسم خرائط مقارن لمواقع السمات الكمية المرتبطة بتسامح التشبع بالمياه في الشعير (Hordeum vulgare L.). علم الجينوم BMC 9: 401

Li HM ، Liang H ، Tang ZX ، Zhang HQ ، Yan BJ ، Ren ZL (2012) تحليل QTL للحبوب البنتوزان ومؤشر الصلابة في صليب قمح صيني 1RS.1BL × non-1RS.1BL. تقرير مصنع مول بيول. دوى: 10.1007 / s11105-012-0517-4

Liu K، Muse SV (2005) PowerMarker: بيئة تحليل متكاملة لتحليل العلامات الجينية. المعلوماتية الحيوية 21 (9): 2128-2129

Liu YZ، Tang B، Zheng YL، Ma KJ، Xu SZ، Qiu FZ (2010) طرق الفرز لتحمل التشبع بالمياه في الذرة (زيا ميس L.) مرحلة الشتلات. Agric Sci China 9 (3): 362–369

Lu Y، Zhang S، Shah T، Xie C، Hao Z، Li X، Farkhari M، Ribaut JM، Cao M، Rong T، Xu Y (2010) يعد رسم خرائط عدم توازن الارتباط المشترك أسلوبًا قويًا لاكتشاف مواقع السمات الكمية تحمل الجفاف الكامن في الذرة. Proc Natl Acad Sci USA 107 (45): 19585-19590

ماكاي تي إف (2009) علم الوراثة. تنوع الذرة. علم 325 (5941): 688-689

Mano Y، Omori F (2008) التحقق من QTL الذي يتحكم في تكوين الجذور الهوائية في الذرة × teosinte "زيا نيكاراغوينسيس"تقدم عكسي السكان. تربية الخيال 58: 217-223

Mano Y، Omori F (2009) خريطة ربط عالية الكثافة حول موضع الجذور الهوائية قير 1.06 في المجموعات المتقاطعة الخلفية للذرة Mi29 × teosinte "زيا نيكاراغيزيس". تربية الخيال 59: 427-733

Mano Y، Muraki M، Komatsu T، Fujimori M، Akiyama F، Takamizo T (2002) الاختلاف المتنوع في تحمل الفيضانات قبل الإنبات وتحمل التشبع بالمياه في مرحلة الشتلات في سلالات الذرة الفطرية. Jpn J Crop Sci 71 (3): 361–367

Mano Y، Muraki M، Fujimori M، Takamizo T، Kindiger B (2005a) خرائط AFLP-SSR للذرة × teosinte والذرة × الذرة: مقارنة طول الخريطة وتشويه الفصل. تربية النبات 124: 432-439

Mano Y، Muraki M، Fujimori M، Takamizo T، Kindiger B (2005b) تحديد QTL الذي يتحكم في تكوين الجذر العرضي أثناء ظروف الفيضانات في teosinte (Zea mays ssp. huehuetenangensis) الشتلات. Euphytica 142: 33-42

Mano Y ، Omori F ، Muraki M ، Takamizo T (2005c) رسم خرائط QTL لتشكيل الجذور العرضي في ظل ظروف الفيضانات في الذرة الاستوائية (زيا ميس L.) الشتلات. تربية علوم 55 (3): 343–347

Mano Y ، Muraki M ، Takamizo T (2006) تحديد QTL الذي يتحكم في تحمل الفيضانات في تقليل ظروف التربة في الذرة (زيا ميس L.) الشتلات. النبات Prod Sci 9 (2): 176–181

Mano Y، Omori F، Takamizo T، Kindiger B، Bird RM، Loaisiga CH، Takahashi H (2007) رسم خرائط QTL لتشكيل الجذور الهوائية في شتلات الذرة × teosinte نادر "زيا نيكاراغوينسيس" تعبر. تربة النبات 295: 103-113

Mano Y، Omori F، Kindiger B، Takahashi H (2008) A linkage map of maize × teosinte زيا الفخريون وتحديد QTLs التي تتحكم في تكوين الجذور الهوائية. تربية المول 21: 327 - 337

Mano Y، Omori F، Loaisiga CH، Bird RM (2009) رسم خرائط QTL للجذور العرضية فوق الأرض أثناء الفيضانات في الذرة × teosinte "زيا نيكاراغوينسيس"عكسي السكان. جذر النبات 3: 3-9

Mano Y ، Omori F ، Takeda K (2012) إنشاء خرائط ربط غير محددة ، واكتشاف انقلاب الكروموسوم ، ورسم خرائط QTL لتشكيل الجذور التكوينية في منطقة teosinte "زيا نيكاراغوينسيس". تربية مول 29: 137-146

Morita-Yamamuro C، Tsutsui T، Sato M، Yoshioka H، Tamaoki M، Ogawa D، Matsuura H، Yoshihara T، Ikeda A، Uyeda I، Yamaguchi J (2005) يتحكم جين Arabidopsis CAD1 في موت الخلية المبرمج في الجهاز المناعي للنبات ويرمز بروتين يحتوي على مجال MACPF. فيسيول الخلية النباتية 46 (6): 902-912

Nielsen R (2004) فيضان الذرة في أواخر الموسم. رؤى فنية رائدة 342: 1-5

Noutoshi Y، Kuromori T، Wada T، Hirayama T، Kamiya A، Imura Y، Yasuda M، Nakashita H، Shirasu K، Shinozaki K (2006) فقدان الآفات المرقطة النخرية 1 يرتبط بموت الخلية واستجابات الدفاع في نبات الأرابيدوبسيس thaliana. مصنع مول بيول 62 (1-2): 29-42

Palaisa KA ، Morgante M ، Williams M ، Rafalski A (2003) التأثيرات المتناقضة للاختيار على تنوع التسلسل واختلال التوازن في موقعين من phytoene synthase. الخلية النباتية 15 (8): 1795-1806

Palaisa K ، Morgante M ، Tingey S ، Rafalski A (2004) تشير الأنماط طويلة المدى للتنوع واختلال التوازن المحيط بجين الذرة Y1 إلى اكتساح انتقائي غير متماثل. Proc Natl Acad Sci USA 101 (26): 9885-9890

باترسون إن ، برايس أل ، رايش د (2006) الهيكل السكاني والتحليل الذاتي. بلوس جينيتكس 2 (12): e190

Price AL ، Patterson NJ ، Plenge RM ، Weinblatt ME ، Shadick NA ، Reich D (2006) يصحح تحليل المكونات الرئيسية التقسيم الطبقي في دراسات الارتباط على مستوى الجينوم. نات جينيه 38 (8): 904-909

Pritchard JK، Stephens M، Rosenberg NA، Donnelly P (2000) رسم خرائط جمعية في مجموعات سكانية منظمة. آم جيه هوم جينيه 67 (1): 170-181

Purcell S، Cherny SS، Sham PC (2003) حاسبة الطاقة الجينية: تصميم دراسات الربط والترابط الجيني للسمات المعقدة. المعلوماتية الحيوية 19 (1): 149-150

Qiu F، Zheng Y، Zhang Z، Xu S (2007) رسم خرائط QTL المرتبط بتحمل التشبع بالمياه أثناء مرحلة الشتلات في الذرة. آن بوت 99 (6): 1067-1081

رافالسكي أ (2002) تطبيقات تعدد أشكال النوكليوتيدات المفردة في وراثة المحاصيل. نبات العملة بالعملة بيول 5 (2): 94-100

Rafalski JA (2010) رابطة علم الوراثة في تحسين المحاصيل. نبات العملة بالعملة بيول 13 (2): 174-180

Remington DL، Thornsberry JM، Matsuoka Y، Wilson LM، Whitt SR، Doebley J، Kresovich S، Goodman MM، Buckler ES (2001) هيكل اختلال التوازن والجمعيات المظهرية في جينوم الذرة. Proc Natl Acad Sci USA 98 (20): 11479-11484

Rohlf FJ (2000) NTSYS-pc نظام التصنيف العددي والتحليل متعدد المتغيرات. الإصدار 21 Exeter Software: New York

Saghai-Maroof MA ، Soliman KM ، Jorgensen RA ، Allard RW (1984) تعدد الأشكال طول مباعد الحمض النووي الريبوزومي في الشعير: الوراثة المندلية ، موقع الكروموسومات ، وديناميات السكان. Proc Natl Acad Sci USA 81 (24): 8014-8018

Salavati A، Khatoon A، Nanjo Y، Komatsu S (2012) تحليل التغيرات البروتينية في جذور شتلات فول الصويا أثناء التعافي بعد الفيضانات. J Proteomics 75 (3): 878-893

Schnable PS و Ware D و Fulton RS و Stein JC و Wei F و Pasternak S و Liang C و Zhang J و Fulton L و Graves TA و Minx P و Reily AD و Courtney L و Kruchowski SS و Tomlinson C و Strong C و Delehaunty K ، Fronick C، Courtney B، Rock SM، Belter E، Du F، Kim K، Abbott RM، Cotton M، Levy A، Marchetto P، Ochoa K، Jackson SM، Gillam B، Chen W، Yan L، Higginbotham J، Cardenas M، Waligorski J، Applebaum E، Phelps L، Falcone J، Kanchi K، Thane T، Scimone A، Thane N، Henke J، Wang T، Ruppert J، Shah N، Rotter K، Hodges J، Ingenthron E، Cordes M، Kohlberg S، Sgro J، Delgado B، Mead K، Chinwalla A، Leonard S، Crouse K، Collura K، Kudrna D، Currie J، He R، Angelova A، Rajasekar S، Mueller T، Lomeli R، Scara G، Ko A ، Delaney K، Wissotski M، Lopez G، Campos D، Braidotti M، Ashley E، Golser W، Kim H، Lee S، Lin J، Dujmic Z، Kim W، Talag J، Zuccolo A، Fan C، Sebastian A، Kramer M، Spiegel L، Nascimento L، Zutavern T، Miller B، Ambroise C، Muller S، Spooner W، Narechania A، Ren L، Wei S، Kumari S، Faga B، Levy MJ، McMahan L ، Van Buren P، Vaughn MW، Ying K، Yeh CT، Emrich SJ، Jia Y، Kalyanaraman A، Hsia AP، Barbazuk WB، Baucom RS، Brutnell TP، Carpita NC، Chaparro C، Chia JM، Deragon JM، Estill JC، Fu Y، Jeddeloh JA، Han Y، Lee H، Li P، Lisch DR، Liu S، Liu Z، Nagel DH، McCann MC، SanMiguel P، Myers AM، Nettleton D، Nguyen J، Penning BW، Ponnala L، Schneider KL ، شوارتز دي سي ، شارما أ ، سودرلوند سي ، سبرينغر إن إم ، صن كيو ، وانغ إتش ، ووترمان إم ، ويسترمان آر ، وولفجروبر تي كيه ، يانغ إل ، يو واي ، تشانغ إل ، زهو إس ، تشو كيو ، بينيتزن جي إل ، داوي آر كيه ، جيانغ J، Jiang N، Presting GG، Wessler SR، Aluru S، Martienssen RA، Clifton SW، McCombie WR، Wing RA، Wilson RK (2009) جينوم الذرة B73: التعقيد والتنوع والديناميكيات. العلوم 326 (5956): 1112-1115

Setter TL، Yan J، Warburton M، Ribaut JM، Xu Y، Sawkins M، Buckler ES، Zhang Z، Gore MA (2011) يحدد رسم خرائط الارتباط الجيني الأشكال المتعددة للنيوكليوتيدات المفردة في الجينات التي تؤثر على مستويات حمض الأبسيسيك في أنسجة أزهار الذرة أثناء الجفاف. J أكسب بوت 62 (2): 701-716

شابيرو إس إس ، ويلك إم بي (1965) تحليل اختبار التباين للحالة الطبيعية (عينات كاملة). Biometrika 52: 591-611

Sharma A ، Chauhan RS (2012) تحديد وتحليل الارتباط للعلامات الجينية المرشحة المقوَّمة لفول الخروع لمحتوى الزيت العالي في جاتروفا كركاس. مصنع Mol Biol Rep 30 (4): 1025-1031. دوى: 10.1007 / s11105-011-0408-0

Shrawat AK ، Carroll RT ، DePauw M ، Taylor GJ ، Good AG (2008) الهندسة الوراثية لتحسين كفاءة استخدام النيتروجين في الأرز من خلال التعبير الخاص بالأنسجة عن alanine aminotransferase. التكنولوجيا الحيوية النباتية J 6: 722-732

Su Z ، Li X ، Hao Z ، Xie C ، Li M ، Weng J ، Zhang D ، Liang X ، Wang Z ، Gao J ، Zhang S (2011) تحليل جمعية nced و رب 28 الجينات ذات الصفات المظهرية تحت الإجهاد المائي في الذرة. مصنع Mol Biol Rep 29 (3): 714-722. دوى: 10.1007 / s11105-010-0279-9

Tenaillon MI ، Sawkins MC ، Long AD ، Gaut RL ، Doebley JF ، Gaut BS (2001) أنماط تعدد أشكال تسلسل الحمض النووي على طول الكروموسوم 1 للذرة (Zea mays ssp. mays L.). Proc Natl Acad Sci USA 98 (16): 9161-9166

Tian F ، Bradbury PJ ، Brown PJ ، Hung H ، Sun Q ، Flint-Garcia S ، Rocheford TR ، McMullen MD ، Holland JB ، Buckler ES (2011) دراسة الارتباط على مستوى الجينوم حول بنية الأوراق في مجموعة خرائط تجمع الذرة المتداخلة. نات جينيه 43 (2): 159-162

Van Ooijen JW، Voorrips RE (2001) JoinMap 3.0 ، برنامج لحساب خرائط الارتباط الجيني. المنظمة الدولية لبحوث النبات فاغينينغن ، هولندا

VanToai T، St Martin S، Chase K، Boru G، Schnipke V، Schmitthenner A، Lark K (2001) تحديد QTL المرتبط بتحمل فول الصويا للتشبع بالمياه في التربة. علوم المحاصيل 41 (4): 1247-1252

Visser EJW ، Voesenek LACJ ، Vartapetian BB ، Jackson MB (2003) الفيضانات ونمو النبات. آن بوت-لندن 91 (2): 107-109

Wang M، Zhang X، Zhao J، Song W، Zheng Y (2011) تقييم التنوع الجيني واختلال التوازن على مستوى الجينوم في سلالات الذرة الصينية الفطرية. Aust J Crop Sci 5: 1790–1795

Wisser RJ و Kolkman JM و Patzoldt ME و Holland JB و Yu JM و Krakowsky M و Nelson RJ و Balint-Kurti PJ (2011) يشير التحليل متعدد المتغيرات لمقاومة أمراض الذرة إلى أساس وراثي متعدد الاتجاهات ويشير إلى جين GST. Proc Natl Acad Sci USA 108 (18): 7339-7344

Xu K و Xu X و Fukao T و Canlas P و Maghirang-Rodriguez R و Heuer S و Ismail AM و Bailey-Serres J و Ronald PC و Mackill DJ (2006) Sub1A هو جين شبيه بعامل الإيثيلين الذي يمنح الغمر التسامح مع الأرز. الطبيعة 442 (7103): 705-708

Yan J، Shah T، Warburton ML، Buckler ES، McMullen MD، Crouch J (2009) تقدير الخصائص الجينية واختلال التوازن لمجموعة الذرة العالمية باستخدام علامات SNP. بلوس واحد 4 (12): e8451. دوى: 10.1371 / journal.pone.0008451

يان جي ، كانديانيس سي بي ، هارجيس سي ، باي إل ، كيم إي إتش ، يانغ إكس ، سكينر دي جي ، فو زي ، ميتشل إس ، لي كيو ، فرنانديز إم جي ، زاهارييفا إم ، بابو آر ، فو واي ، بالاسيوس إن ، لي جي ، ديلابينا د ، Brutnell T ، Buckler ES ، Warburton ML ، Rocheford T (2010a) تباين وراثي نادر في زيا ميس crtRB1 يزيد بيتا كاروتين في حبوب الذرة. نات جينيه .42 (4): 322-327

Yan J ، Yang X ، Shah T ، Sanchez-Villeda H ، Li J ، Warburton M ، Zhou Y ، Crouch JH ، Xu Y (2010b) التنميط الجيني SNP عالي الإنتاجية باستخدام اختبار GoldenGate في الذرة. تربية مول 25: 441-451

يان جي ، واربرتون إم ، كراوتش جي (2011) رسم خرائط جمعية لتحسين الذرة (زيا ميس L.) التحسين الوراثي. علوم المحاصيل 51. دوى: 10.2135 / Cropsci2010.04.0233

Yang X و Yan J و Shah T و Warburton ML و Li Q و Li L و Gao Y و Chai Y و Fu Z و Zhou Y و Xu S و Bai G و Meng Y و Zheng Y و Li J (2010) التحليل الجيني و توصيف لوحة رسم خرائط رابطة الذرة الجديدة لتشريح موقع الصفات الكمية. Theor Appl Genet 121 (3): 417-431

Yang X ، Gao S ، Xu S ، Zhang Z ، Prasanna BM ، Li L ، Li J ، Yan J (2011) توصيف مجموعة الأصول الوراثية العالمية واستخدامها المحتمل لتحليل الصفات الكمية المعقدة في الذرة. تربية المول .28 (4): 511-526. دوى: 10.1007 / s11032-010-9500-7

Yu JM ، Pressoir G ، Briggs WH ، Bi IV ، Yamasaki M ، Doebley JF ، McMullen MD ، Gaut BS ، Nielsen DM ، Holland JB ، Kresovich S ، Buckler ES (2006) طريقة نموذج مختلط موحد لرسم خرائط الارتباط الذي يمثل مستويات متعددة من الترابط. نات جينيه 38 (2): 203-208

Zaidi PH، Rafiquea S، Rai PK، Singha NN، Srinivasanb G (2004) تحمل الرطوبة الزائدة في الذرة (زيا ميس L.): مراحل المحاصيل الحساسة وتحديد الطرز الوراثية المقاومة. دقة المحاصيل الحقلية 90 (2-3): 189-202

Zhang N و Gibon Y و Gur A و Chen C و Lepak N و Hohne M و Zhang Z و Kroon D و Tschoep H و Stitt M و Buckler E (2010a) رسم خرائط لمواقع الصفات الكمية الدقيقة لأنشطة إنزيم استقلاب الكربون والنيتروجين والكتلة الحيوية للشتلات في رسم خرائط IBM للذرة. النبات فيزيول 154 (4): 1753-1765

Zhang Z و Ersoz E و Lai CQ و Todhunter RJ و Tiwari HK و Gore MA و Bradbury PJ و Yu J و Arnett DK و Ordovas JM و Buckler ES (2010b) نهج النموذج الخطي المختلط الذي تم تكييفه لدراسات الارتباط على مستوى الجينوم. نات جينيه .42 (4): 355-360

Zhao KY و Aranzana MJ و Kim S و Lister C و Shindo C و Tang CL و Toomajian C و Zheng HG و Dean C و Marjoram P و Nordborg M (2007) مثال على رسم خرائط الارتباط في عينات منظمة. بلوس جينيتكس 3 (1)

Zhu C ، Yu J (2009) يصحح القياس غير المتري متعدد الأبعاد للبنية السكانية في رسم الخرائط المرتبطة بأنواع عينات مختلفة. علم الوراثة 182 (3): 875-888

Zondervan KT، Cardon LR (2004) التفاعل المعقد بين العوامل التي تؤثر على الارتباط الأليلي. نات ريف جينيه 5 (2): 89-100

Zou X ، Jiang Y ، Liu L ، Zhang Z ، Zheng Y (2010) تحديد النسخ المستحثة في جذور شتلات الذرة في المرحلة المتأخرة من التشبع بالمياه. مصنع بيول BMC 10: 189


مقدمة

يعد تسلسل الجيل التالي (NGS) الآن أسلوبًا شائعًا لتحديد المتغيرات النادرة الجديدة التي يحتمل أن تكون مرتبطة بالأمراض. غالبًا ما يتطلب تحليل بيانات NGS تكامل الموارد المختلفة ، وبالتالي ، تم تطوير العديد من خطوط أنابيب التحليل لتسهيل هذه العملية. تم تكريس جهود بحثية كبيرة حتى الآن لتطوير خطوط الأنابيب أو تدفقات العمل لأتمتة محاذاة التسلسل ، والاستدعاء المتغير ، والتعليقات التوضيحية. على سبيل المثال ، تم تحديد 25 مسار عمل وخطوط أنابيب تخدم هذه الأغراض بواسطة Pabinger et al. [1]. ومع ذلك ، فقد تم تصميم عدد أقل من خطوط الأنابيب خصيصًا لدراسات الأمراض. وتشمل تلك الموجودة أدوات متغيرة [2] ، والتي تنفذ العديد من اختبارات الارتباط الإحصائي الشائعة ، و VAAST 2.0 [3] ، والتي تستند إلى اختبار نسبة احتمال المركب الموسعة لتحديد أولويات المتغيرات.

يتم إجراء الدراسات الأسرية بشكل متزايد لتحديد متغيرات القابلية للإصابة بالأمراض النادرة لأنه يمكن ملاحظة عدد كافٍ من الأليلات النادرة التي تنفصل مع المرض في النسب [4]. وبالتالي ، تم تطوير العديد من الأدوات أو خطوط الأنابيب لتحليل بيانات NGS القائمة على الأسرة. بالنسبة للاضطرابات المندلية ، يمكن تحديد متغيرات المرض على أساس قواعد الوراثة المندلية (على سبيل المثال ، تغاير الزيجوت الصبغي الجسدي أو المتنحي أو المركب). تم تصميم أدوات مثل VAR-MD [5] و FamAnn [6] و VariantDB [7] لتحديد المتغيرات مع نماذج الوراثة المندلية. ومع ذلك ، لا تأخذ هذه الأدوات في الاعتبار أخطاء التسلسل التي يمكن أن تؤدي إلى انتهاكات لقواعد الميراث المندلية لمتغيرات المرض. تنفذ MendelScan [8] درجات الفصل التي يمكن أن تفسر أخطاء التسلسل لتحديد أولويات المتغيرات. من ناحية أخرى ، تهدف طريقة المقطع الجينومي المشترك (SGS) إلى تحديد الأنماط الفردانية التي يتم مشاركتها بشكل متماثل عن طريق النسب بين الأفراد المتأثرين داخل الأسرة [9 & # x0201311] وقد تم إثبات أن الطريقة فعالة للعثور على متغيرات الأمراض النادرة [12]. يمكن حساب إحصائيات الهوية حسب النسب (IBD) لتحليل SGS باستخدام أدوات مثل Merlin [13] و MORGAN [14]. نظرًا لأن إنشاء ملفات الإدخال الخاصة بـ Merlin و MORGAN يمكن أن يصبح معقدًا ، فقد تم تطوير العديد من الأدوات للمساعدة في إعداد الملفات للتحليلات باستخدام البرنامجين [15 & # x0201317]. يمكن اعتماد ملفات مخرجات Merlin بشكل أكبر بواسطة Olorin [18] لتحليل SGS. تشمل الميزات الرئيسية في Olorin تصور هياكل النسب ، وتحديد الأنماط الفردانية المشتركة بين أفراد الأسرة المتأثرين ، والتصفية المتغيرة في منطقة المشاركة بناءً على معلومات التعليقات التوضيحية المتنوعة التي يقدمها المستخدم. RVsharing يحسب الاحتمالات الدقيقة للمشاركة من قبل العديد من الأقارب المتأثرين في المتغيرات تحت خالي من عدم الارتباط وعدم الارتباط [19]. يتم استخدام استراتيجية اختبار تعتمد على القيمة الاحتمالية المحتملة ، وهي أعلى احتمالية دقيقة من الاحتمالات لجميع العائلات ، لتقييم أهمية الاحتمالات الدقيقة.

بالإضافة إلى ذلك ، يوفر تحليل الارتباط دليلًا إحصائيًا يدعم أدوار المتغيرات في الأمراض ويمكن أن يصبح نهجًا قويًا لتحليل بيانات التسلسل [20]. يمكن لبعض الأدوات مثل Merlin إجراء حساب دقيق لتحليل الارتباط استنادًا إلى خوارزمية Lander-Green [21] ولكنها تقتصر على استخدام النسب الصغيرة. ومن ثم ، يجب تقسيم النسب الكبيرة من أجل التحليل [16]. بعض الأدوات الأخرى مثل MORGAN تستخدم أسلوب ماركوف المتسلسل-مونت كارلو (MCMC) الذي يمكن أن يستوعب النسب الكبيرة وبالتالي لا يتطلب تقسيم النسب [22].

علاوة على ذلك ، تتوفر أدوات لاختبارات الارتباط الأسري. هو وآخرون. [23] النسب المقترحة - VAAST (pVAAST) ، والتي تستخدم اختبار نسبة الاحتمالية المركبة الذي يتضمن إشارة الربط في العائلات ، والضوابط الخارجية ، والتنبؤات الوظيفية للمتغيرات لتحديد المتغيرات ذات الارتباطات المهمة إحصائيًا بالمرض. ومع ذلك ، فإن تطبيق pVAAST مقيد بافتراض الاختبار أن عناصر التحكم الخارجية من نفس المجموعة مثل أفراد العائلة وأن هذه العينات تم ترتيبها على نفس النظام الأساسي للحفاظ على معدل الخطأ الصحيح من النوع الأول ، وكذلك حسب متطلبات الاختبار لمجموعة كبيرة من الضوابط الخارجية لتحقيق طاقة كافية (على سبيل المثال ، تم إنشاء 1000 عنصر تحكم خارجي في دراسات المحاكاة التي أجراها Hu et al. [23]). توفر إحصائية المجموع الموزون [24] أيضًا اختبارًا إحصائيًا للجينات المرتبطة بالاضطرابات المندلية. يتطلب الاختبار أيضًا عددًا كبيرًا من الضوابط لتحقيق قوة إحصائية. بدلاً من استخدام عناصر التحكم الخارجية ، تتوفر أدوات مثل OVPDT [25] ، والتي تمثل كل من المتغيرات الشائعة والنادرة ذات الاتجاهات المختلفة للتأثيرات على المرض ، و FBAT [26] ، التي تنفذ نهج المجموع المرجح [27] ، متاحة لـ تحليل الارتباط القائم على الأسرة عندما يكون حجم العينة كبيرًا. يمكن العثور على مراجعة للعديد من أدوات الارتباط الأخرى القائمة على الأسرة في Lee et al. [28].

أخيرًا ، يوفر احتساب المتغيرات غير المصنفة استنادًا إلى مجموعة فرعية من أفراد الأسرة المتسلسل ومجموعة أكبر من أفراد الأسرة الذين لديهم بيانات صفيف SNP (على سبيل المثال ، البيانات من دراسات الارتباط على مستوى الجينوم (GWAS)) نهجًا فعالاً من حيث التكلفة لزيادة أحجام العينات [ 29]. يمكن أن يؤدي الجمع بين بعض الوظائف المذكورة أعلاه إلى تكوين تحليل قوي قائم على الأسرة. على سبيل المثال ، يمكن استخدام درجات الفصل في ترتيب المتغيرات في المناطق المحددة بواسطة تحليل SGS عند البحث عن المتغيرات المسؤولة عن الاضطرابات المندلية [8]. علاوة على ذلك ، إذا تم تسلسل مجموعة فرعية فقط من أفراد العائلة بينما تم التنميط الجيني لمجموعة أكبر من أفراد الأسرة باستخدام مصفوفات SNP ، فإن اختبارات الارتباط القائمة على الأسرة باستخدام الأنماط الجينية المفترضة يمكن أن تزيد بشكل كبير من القوة مقارنة بالاختبارات التي تستخدم البيانات المرصودة فقط [30]. ومع ذلك ، فإن أحد التحديات الرئيسية التي يواجهها الباحثون الذين يجرون تحليلات بيانات NGS القائمة على الأسرة هو أنه بدون خط أنابيب تلقائي يدمج هذه الوظائف ، يجب تنفيذ العديد من الخطوات المملة وغير الفعالة باستخدام البرامج النصية المطورة داخليًا. على سبيل المثال ، المواقع الجينية من الموارد مثل الخريطة الجينية لروتجرز [31] وترددات أليل السكان الخارجية من موارد مثل مشروع 1000 جينوم [32] مطلوبة لميرلين ومورغان. البرامج النصية مطلوبة أيضًا لتحويل ملفات الإخراج من برنامج احتساب إلى ملفات إدخال لأداة تحليل الارتباط.

لمواجهة التحدي الذي يواجهه تحليل NGS المستند إلى الأسرة لدراسات الأمراض ، قمنا بتطوير خط أنابيب ، FamPipe ، والذي يمكن تطبيقه على تحليل الاضطرابات المندلية أو الأمراض المعقدة. على وجه الخصوص ، تم دمج Merlin و MORGAN في FamPipe لحساب إحصائيات IBD أو ربط درجات LOD لتحديد مناطق الربط. لتحديد المتغيرات المسؤولة عن الاضطرابات المندلية ، تم تنفيذ ثلاث طرق في وحدة تعريف نموذج المرض (DMI) في FamPipe بما في ذلك درجات الفصل [8] ، والتي يمكن استخدامها لتحديد الطفرات الخاصة بالعائلة في متغيرات المرض ، إحصائية المجموع الموزون [24] ، وهو مثالي لتحديد الطفرات في متغيرات الأمراض المتعددة داخل الجين ، وقواعد الترشيح لتغاير الزيجوت المركب [33]. بالنسبة لدراسات الأمراض المعقدة ، يمكن إجراء اختبارات الارتباط القائمة على الأسرة في مناطق الارتباط أو عبر الجينوم بأكمله. علاوة على ذلك ، تم دمج أداتي احتساب تستند إلى الأسرة ، وهما Merlin [34] و GIGI [29] ، في FamPipe لتحليل التضمين عندما تتكون البيانات من كل من بيانات التسلسل وبيانات مصفوفة SNP.


استنتاج

استخدام السلالات الفطرية من الفئران لرسم خرائط QTL له مزايا عديدة مقارنة بالطرق التقليدية. ومع ذلك ، هناك أيضًا قيود مقارنة بتحليل الارتباط التقليدي من خطوط F2 و RI ، ويتطلب تطبيق هذه الأساليب دراسة متأنية للخيارات الحسابية بناءً على كل من العوامل النظرية والعملية. هنا ، أظهرنا أن الاختيار الأمثل لإحصاء الاختبار يعتمد على بنية كل من البيانات المظهرية والجينية ، وأن استخدام نوافذ متعددة SNP لاستنتاج بنية النمط الفرداني المحلي أمر ضروري عند استخدام هذه المجموعة المتنوعة من سلالات الماوس الفطرية ، وأن نهج gFWER هو وسيلة فعالة للتحكم في أخطاء الاختبار المتعددة مع الحفاظ على الحساسية.


العروض الشفهية

6 FUN-LDA: نموذج تخصيص Dirichlet الكامن للتنبؤ بالآثار الوظيفية الخاصة بالأنسجة للتباين غير المشفر

دانيال باكنروث 1 ، كرزيستوف كيريلوك 1 ، فالنتينا بويفا 2 ، زيهواي هو 1 ، لين بيتوكوفا 1 ، إكتا كورانا 3 ، أنجيلا كريستيانو 1 ، جوزيف بوكسباوم 4 ، يوليانا إيونيتا لازا 1

1 جامعة كولومبيا ، نيويورك ، نيويورك ، الولايات المتحدة الأمريكية 2 معهد كوري ، ماينز باريس تك ، جامعة أبحاث PSL ، F-75005 ، باريس ، فرنسا 3 كلية طب وايل ، جامعة كورنيل ، نيويورك ، نيويورك ، الولايات المتحدة الأمريكية 4 كلية طب جبل سيناء ، نيويورك ، نيويورك ، الولايات المتحدة الأمريكية

نقترح نموذج تخصيص Dirichlet الكامن للتنبؤ بالآثار الوظيفية للمتغيرات الجينية غير المشفرة (FUN-LDA) من خلال دمج التعليقات التوضيحية اللاجينية المتنوعة لأنسجة وأنواع خلايا معينة من مشاريع الجينوميات واسعة النطاق مثل ENCODE و Roadmap Epigenomics. يسمح نهجنا بالنمذجة المشتركة للبيانات من أنسجة متعددة ويمكن توسيعه بسهولة للبيانات من الأنسجة الإضافية ، ولا يتم استخدامه لتدريب النموذج. باستخدام هذا النهج غير الخاضع للإشراف ، نتوقع تأثيرات وظيفية خاصة بالأنسجة لكل موضع في الجينوم البشري. نوضح فائدة تنبؤاتنا باستخدام العديد من تجارب التحقق من الصحة. على وجه الخصوص ، نحن نقدم رؤية عالمية لمشاركة المتغيرات الوظيفية المتوقعة عبر عدد كبير من الأنسجة وأنواع الخلايا ، ونوضح أن المتغيرات الوظيفية في المحفزات من المرجح أن يتم مشاركتها عبر العديد من الأنسجة مقارنة بالمتغيرات التي تقع في المعززات. باستخدام بيانات تعبير مواضع السمات الكمية (eQTL) من مشروع التعبير الجيني للأنسجة (GTEx) ، نظهر أن eQTLs في أنسجة GTEx محددة تميل إلى أن تكون أكثر إثراءً بين المتغيرات الوظيفية المتوقعة في الأنسجة ذات الصلة في خريطة الطريق. علاوة على ذلك ، نوضح كيف يمكن استخدام هذه الدرجات الوظيفية المتكاملة لاشتقاق نوع الأنسجة / الخلية السببية الأكثر احتمالًا لسمات معقدة باستخدام إحصائيات موجزة من دراسات الارتباط على مستوى الجينوم. أخيرًا ، باستخدام المتغيرات الوظيفية التي تم التحقق من صحتها تجريبياً من الأدبيات ، نظهر أن طريقتنا المقترحة تتمتع بدقة ودقة أفضل في التنبؤ بالمتغيرات الوظيفية مقارنةً بأحدث الأساليب مثل ChromHMM و GenoSkyline.

7 اختبارات اقتران موحدة قائمة على التسلسل تسمح بتعليقات توضيحية وظيفية متعددة وتطبيقات للتحليل التلوي للتباين غير المشفر في بيانات Metabochip

Zihuai He 1، Bin Xu 2، Seunggeun Lee 3، Iuliana Ionita-Laza 1

1 قسم الإحصاء الحيوي ، جامعة كولومبيا ، نيويورك ، نيويورك ، الولايات المتحدة الأمريكية 2 قسم الطب النفسي ، جامعة كولومبيا ، نيويورك ، نيويورك ، الولايات المتحدة الأمريكية 3 قسم الإحصاء الحيوي ، جامعة ميشيغان ، آن أربور ، ميشيغان ، الولايات المتحدة الأمريكية

تم إحراز تقدم كبير في الشرح الوظيفي للتنوع الجيني في الجينوم البشري. قد يساعد التحليل التكاملي الذي يدمج مثل هذه التعليقات التوضيحية الوظيفية في دراسات التسلسل في اكتشاف المتغيرات الجينية المرتبطة بالأمراض ، خاصة بالنسبة لأولئك الذين لديهم وظيفة غير معروفة والذين يقعون خارج مناطق ترميز البروتين. يمكن أن يؤدي التضمين المباشر لتعليق وظيفي واحد كأوزان في اختبارات التشتت / العبء الحالية إلى فقد كبير في الطاقة عندما لا يكون التعليق التوضيحي الوظيفي ينبئ بحالة الخطر لمتغير. هنا ، نقوم بتطوير اختبارات موحدة يمكنها الاستفادة من التعليقات التوضيحية الوظيفية المتعددة في وقت واحد لتحليل الارتباط التكاملي باستخدام تقنيات حسابية فعالة. من خلال عمليات المحاكاة المكثفة ، نوضح أن الاختبارات المقترحة تعمل على تحسين الطاقة بشكل كبير عندما يمكن التنبؤ بحالة الخطر المتغير من خلال التعليقات التوضيحية الوظيفية. الأهم من ذلك ، عندما لا تكون التعليقات التوضيحية الوظيفية تنبؤية لحالة الخطر ، فإن الاختبارات المقترحة تحمل أيضًا قوة محسّنة بالنسبة لاختبارات التشتت / العبء الحالية من خلال تعلم وزن يقارب نموذج المرض الأساسي بطريقة تكيفية مع البيانات. يمكن إنشاء الاختبارات باستخدام إحصائيات موجزة لاختبارات التشتت / العبء الحالية لتسلسل البيانات ، وبالتالي السماح بالتحليل التلوي لدراسات متعددة دون مشاركة بيانات المستوى الفردي ، مما يؤدي إلى تحسينات حسابية كبيرة.نطبق الاختبارات المقترحة على التحليل التلوي للمتغيرات النادرة غير المشفرة في بيانات Metabochip على 12281 فردًا من ثماني دراسات لصفات الدهون. من خلال دمج النتيجة الوظيفية Eigen ، نكتشف ارتباطات مهمة بين المتغيرات النادرة غير المشفرة في جين SLC22A3 و LDL (البروتين الدهني منخفض الكثافة) الكوليسترول ، والكوليسترول الكلي ، الارتباطات التي غاب عنها التشتت القياسي واختبارات العبء.

8 SEQSpark: أداة تحليل كاملة لدراسات جمعية المتغيرات النادرة واسعة النطاق باستخدام بيانات تسلسل الجينوم الكامل وإكسوم

Di Zhang 1، Linhai Zhao 1، Biao Li 1، Zongxiao He 1، Gao T. Wang 2، Dajiang J. Liu 3، Suzanne M. Leal 1

1 مركز علم الوراثة الإحصائية ، قسم الوراثة الجزيئية والبشرية ، كلية بايلور للطب ، هيوستن ، تكساس ، الولايات المتحدة الأمريكية 2 قسم الوراثة البشرية والإحصاء ، جامعة شيكاغو ، شيكاغو ، إلينوي ، الولايات المتحدة الأمريكية 3 الإدارة العامة العلوم الصحية ، كلية الطب ، جامعة ولاية بنسلفانيا ، هيرشي ، بنسلفانيا ، الولايات المتحدة الأمريكية

توفر تقنيات التسلسل المتوازي على نطاق واسع فرصًا كبيرة لاكتشاف متغيرات الحساسية النادرة المتضمنة في مسببات الأمراض المعقدة من خلال دراسات التضمين واسعة النطاق ، والإكسوم ، ودراسات الارتباط القائمة على تسلسل الجينوم الكامل. نظرًا لأحجام التأثير المتواضعة ، فإن أحجام العينات الكبيرة من عشرات إلى مئات الآلاف من الأفراد مطلوبة لإجراء دراسات تعمل بالطاقة الكافية. الأدوات التحليلية الحالية عفا عليها الزمن عندما يتعلق الأمر بالتعامل مع مجموعات البيانات الكبيرة هذه. لتسهيل تحليل الدراسات واسعة النطاق القائمة على التسلسل ، قمنا بتطوير SEQSpark الذي ينفذ معالجة متوازية استنادًا إلى Spark لزيادة سرعة وكفاءة أداء مراقبة جودة البيانات والتعليقات التوضيحية وتحليل الارتباط. لإثبات تنوع وسرعة SEQSpark ، قمنا بتحليل بيانات تسلسل الجينوم الكامل من UK10K ، واختبار الارتباطات بنسب الخصر إلى الورك. تم الانتهاء من التحليل في 1.5 ساعة ، وشمل تحميل البيانات ، والتعليقات التوضيحية ، وتحليل المكونات الرئيسية ، والمتغير الفردي ، والمتغير النادر ، وتحليل الارتباط الكلي لمتغير & GT9 مليون متغير. للتحليل التجميعي المتغير النادر ، هناك ارتباط مهم على مستوى exome (ص& lt2.5 × 10 6) مع CCDC62 [SKAT-O (ص = 6.89 × 10 7) ، الانهيار متعدد المتغيرات المشترك (ص = 1.48 × 10 6) وعبء المتغيرات النادرة (ص = 1.48 × 10 −6)]. تم استخدام SEQSpark أيضًا لتحليل 50000 exomes محاكاة وتطلب 1.75 ساعة لتحليل سمة كمية باستخدام العديد من طرق التجميع التجميعية المتغيرة النادرة. بالإضافة إلى ذلك ، تمت مقارنة أداء SEQSpark بأدوات رابطة المتغيرات و PLINK / SEQ. كان SEQSpark دائمًا أسرع وفي بعض الحالات تم تقليل الحساب إلى مائة من الوقت. ستعمل SEQSpark على تمكين الدراسات الوبائية الكبيرة القائمة على التسلسل لتوضيح التباين الجيني المتضمن في مسببات السمات المعقدة بسرعة.

9 تقييم الدور السببي لمؤشر كتلة الجسم على صحة القلب والأوعية الدموية لدى الشباب: التوزيع العشوائي المندلي وتحليلات التذكر حسب النوع الجيني

Kaitlin H. Wade 1،2، Scott T. Chiesa 3، Alun D. Hughes 4، Nish Chaturvedi 4، Marietta Charakida 3، Alicja Rapala 3، Vivek Muthurangu 3، Tauseef Khan 3، Nicholas Finer 3، Naveed Sattar 5، Laura D . Howe 1،2، Abigail Fraser 1،2، Debbie A. Lawlor 1،2، George Davey Smith 1،2، John E.Deanfield 3، Nicholas J. Timpson 1،2

1 وحدة علم الأوبئة التكاملي بمركز MRC في جامعة بريستول ، بريستول ، المملكة المتحدة 2 كلية الطب الاجتماعي والمجتمع ، كلية العلوم الصحية ، جامعة بريستول ، بريستول ، المملكة المتحدة 3 وحدة فسيولوجيا الأوعية الدموية ، معهد علوم القلب والأوعية الدموية ، الجامعة كوليدج لندن ، لندن ، المملكة المتحدة 4 مجموعة التنميط الظاهري لأمراض القلب ، معهد علوم القلب والأوعية الدموية ، جامعة كوليدج لندن ، لندن ، المملكة المتحدة 5 معهد القلب والأوعية الدموية والعلوم الطبية ، مركز أبحاث القلب والأوعية الدموية BHF غلاسكو ، جامعة غلاسكو ، غلاسكو ، المملكة المتحدة

يرتبط مؤشر كتلة الجسم (BMI) وصحة القلب والأوعية الدموية ارتباطًا سببيًا في أواخر العمر ، ولكن لم يتم استكشاف هذا في الأعمار الأصغر. باستخدام منهجيات Mendelian randomization (MR) و "الاسترجاع حسب النمط الجيني" (RbG) ، قدرنا التأثير السببي لمؤشر كتلة الجسم على صحة القلب والأوعية الدموية لدى الشباب في دراسة Avon الطولية للآباء والأطفال. لتحليلات MR ، تم استخدام درجة المخاطر الجينية (GRS) التي تضم 97 متغيرًا وراثيًا مستقلًا لاختبار التأثير السببي لكل وحدة زيادة في مؤشر كتلة الجسم (كجم / م 2) على أنماط ظاهرية للقلب والأوعية الدموية تم قياسها في سن 17 (ن = 7909). شاركت عينة مستقلة من نفس المجموعة في دراسة RbG في سن 21 ، مما أتاح المزيد من الأنماط الظاهرية للقلب والأوعية الدموية (ن = 418191/227 من أدنى / أعلى 30٪ من GRS على مستوى الجينوم). كان الفرق في متوسط ​​مؤشر كتلة الجسم بين مجموعات RbG 3.85 كجم / م 2 (95 ٪ CI: 2.53 ، 4.63 ص = 6.09 × 10 11). في كل من تحليلي MR و RbG ، أشارت النتائج إلى أن ارتفاع مؤشر كتلة الجسم يؤدي إلى ارتفاع ضغط الدم وكتلة البطين الأيسر (مؤشر إلى الارتفاع 2.7 ، LVMI) لدى الشباب (على سبيل المثال ، الفرق في LVMI لكل كجم / م 2 باستخدام MR: 1.07 جم / م 2.7 95 ٪ CI: 0.62 ، 1.52 ص = 3.87 × 10 −06 ولكل 3.58 كجم / م 2 باستخدام RbG: 1.65 جم / م 2.7 95٪ CI: 0.83 ، 2.47 ص = 0.0001). أشارت نتائج RbG إلى دور سببي لمؤشر كتلة الجسم الأعلى في ارتفاع حجم السكتة الدماغية (الفرق لكل 3.58 كجم / م 2: 1.49 مل / م 2.04 95٪ CI: 0.62 ، 2.35 ص = 0.001) والناتج القلبي (الفرق لكل 3.58 كجم / م 2: 0.11 لتر / دقيقة / م 1.83 95٪ CI: 0.03 ، 0.19 ص = 0.01). تمشيا مع الجهود المبذولة لمنع أو عكس السمنة لدى الشباب ، أظهرت منهجيات MR و RbG التكميلية السببية أن ارتفاع مؤشر كتلة الجسم من المحتمل أن يتسبب في تدهور صحة القلب والأوعية الدموية حتى عند الشباب.

10 مقارنة بين طرق حصر النسخ من خلال التطبيق على مرضين معقدين شائعين

جيمس ج.فريت 1 ، أندرو ب.موريس 2 ، هيذر ج.كورديل 1

1 معهد الطب الوراثي ، جامعة نيوكاسل ، نيوكاسل أبون تاين ، المملكة المتحدة 2 قسم الإحصاء الحيوي ، جامعة ليفربول ، ليفربول ، المملكة المتحدة

أصبح تضمين النسخ طريقة شائعة لدمج بيانات التركيب الوراثي والتعبير للتحقيق في الدور السببي للتعبير الجيني في السمات المعقدة. هنا ، نقارن ثلاث طرق (PrediXcan و MetaXcan و TWAS / FUSION) عبر التطبيق لبيانات دراسة الارتباط على مستوى الجينوم (GWAS) من Wellcome Trust Case Control Consortium ، مع التركيز على مرض كرون ومرض السكري من النوع الأول (T1D). نحن نحقق في كيفية مقارنة الجينات التي تم تحديدها على أنها مهمة من خلال كل نهج مع بعضها البعض ومع تلك التي تم تحديدها من خلال تحليل GWAS القياسي ، وكيف تقارن التأثيرات المستخدمة بواسطة نماذج التنبؤ بالتأثيرات المعروفة للنمط الجيني على التعبير. نجد أن جميع الأساليب تؤدي إلى نتائج مماثلة عند تطبيقها على نفس البيانات ، على الرغم من أن الأساليب تختلف بشدة بالنسبة لمجموعة فرعية صغيرة من الجينات (غالبًا في MHC). نلاحظ أيضًا أن معظم الارتباطات المكتشفة بواسطة هذه الأساليب تحدث بالقرب من مواقع مخاطر GWAS المعروفة ، مع اكتشاف القليل من الاكتشافات الجديدة. نماذج PrediXcan و MetaXcan للتنبؤ بالتعبير الجيني تلخص بشكل أكثر اتساقًا التأثيرات المعروفة للنمط الجيني على التعبير ، مما يشير إلى أنها أكثر قوة من TWAS / FUSION. يكتشف تطبيق هذه الأساليب لإحصاءات موجزة من التحليلات التلوية الحديثة في مرض كرون و T1D 53 ارتباطًا مهمًا للتعبير الجيني مع Crohn's و 170 مع T1D ، مما يوفر نظرة ثاقبة للآليات البيولوجية الكامنة وراء هذه الأمراض. نستنتج أنه على الرغم من أن عمليات التنفيذ الحالية لضمانات النسخ تكتشف عادةً ارتباطات أقل من GWAS ، إلا أنها توفر طريقة مثيرة للاهتمام لفحص نتائج GWAS لتحديد الجينات السببية ، وأن PrediXcan و MetaXcan هما حاليًا أكثر الطرق موثوقية لتنفيذ تضمين النسخ.

11 التخطيط الدقيق المشترك لأمراض متعددة ذات صلة يزيد من القوة من خلال استغلال البنية المتغيرة السببية المشتركة

جينيفر إل أسيميت 1 ، ماري دي فورتشن 1 ، 2 ، كريس والاس 1 ، 2

1 وحدة الإحصاء الحيوي MRC جامعة كامبريدج ، كامبريدج ، المملكة المتحدة 2 قسم الطب ، جامعة كامبريدج ، كامبريدج ، المملكة المتحدة

تم التحقيق في المساهمة الجينية الأساسية للعديد من الأمراض والسمات المعقدة بنجاح كبير من خلال دراسات الارتباط على مستوى الجينوم (GWAS) ، والتي أدت إلى اكتشاف مئات المتغيرات المرتبطة بطيف من الأمراض. يؤدي اختلال التوازن الموسع للارتباط (LD) وأحجام العينات المحدودة إلى تعقيد التخطيط الدقيق للمتغيرات السببية. غالبًا ما يتم التعامل مع رسم الخرائط الدقيقة للمتغيرات السببية المتعددة من خلال التدرج أو ، في كثير من الأحيان ، من خلال عمليات البحث العشوائية لفضاء نموذج المتغير السببي المحتمل. نحن نقارن هذين النهجين ونقدم أمثلة حيث ، مع زيادة حجم العينة ، تتقارب عمليات البحث العشوائية مع الحل الصحيح ولكن لا يتم ذلك بشكل تدريجي على سبيل المثال ، قد يحدث هذا عندما يكون هناك SNP واحد في صعوبة التعلم المعتدلة مع كلا المتغيرين السببيين المتميزين. يتم استكشاف هذا السلوك من خلال النظرية الرياضية ودراسات المحاكاة المكثفة ، ونقدم العديد من أمثلة البيانات الحقيقية.

ومع ذلك ، تظل أحجام العينات الحالية عاملاً مقيدًا لأي استراتيجية بحث عالية الأبعاد. نقترح الاستفادة من المعلومات بين الأمراض من خلال التحليل المشترك للبيانات من الأمراض ذات الصلة في إطار بحث عشوائي متعدد الحدود من Bayesian ، حيث يتم صياغة احتمالات النموذج السابق لتفضيل مجموعات من النماذج بدرجة من مشاركة المتغيرات السببية بين الأمراض. نحن نستخدم المحاكاة وأمثلة البيانات الحقيقية لتوضيح القوة المحسنة بالمقارنة مع التحليل الهامشي لكل مرض.

12 تقدير التأثير غير المباشر عندما يكون الوسيط متغيرًا خاضعًا للرقابة في نموذج الوساطة

جيان وانغ 1 ، سانجاي شيتي 1 ، 2

1 قسم الإحصاء الحيوي ، مركز إم دي أندرسون للسرطان بجامعة تكساس ، هيوستن ، تكساس ، الولايات المتحدة الأمريكية 2 قسم علم الأوبئة ، مركز إم دي أندرسون للسرطان بجامعة تكساس ، هيوستن ، تكساس ، الولايات المتحدة الأمريكية

نموذج الوساطة هو طريقة إحصائية تستكشف التأثيرات المباشرة وغير المباشرة لمتغير أولي (X) على نتيجة (ص) بتضمين وسيط واحد أو أكثر (م) ، والذي تم تطبيقه على نطاق واسع في العديد من المجالات المختلفة. في الممارسة العملية ، يمكن للمحققين مراقبة البيانات الخاضعة للرقابة. حاليًا ، تركز معظم مناهج تحليل الوساطة مع البيانات الخاضعة للرقابة على الخاضعين للرقابة ص لكن لا تخضع للرقابة م. في هذه الدراسة ، اقترحنا نهجًا لتقدير التأثير غير المباشر في نموذج الوساطة عندما يكون الوسيط متغيرًا خاضعًا للرقابة ، بناءً على نموذج وقت الفشل المتسارع ونهج احتساب متعدد. باستخدام دراسات المحاكاة ، أنشأنا أولاً التحيز في تقدير معاملات المسارات المختلفة في نموذج الوساطة ، بما في ذلك تأثيرات X تشغيل م [أ]، من م تشغيل ص [ب] وبناءا على X تشغيل ص وسيط معين م [ج ′] ، وكذلك التأثيرات غير المباشرة عند استخدام الأساليب الحالية ، بما في ذلك النهج الساذج ، وتحليل الحالة الكاملة ، ونموذج توبيت للوساطة. لقد أجرينا دراسات محاكاة للتحقيق في أداء النهج المقترح ومقارنته مع الأساليب الحالية. يقدّر النهج المقترح بدقة معاملات المسارات المختلفة والتأثيرات غير المباشرة والنسب المئوية للتأثيرات الإجمالية التي يتم التوسط فيها. طبقنا النهج المقترح ، بالإضافة إلى الأساليب الحالية ، للتحقيق في نموذج التوسط لـ SNPs والعمر عند انقطاع الطمث ومستويات الجلوكوز الصيام.

13 تحديد الاختيار الإيجابي المرتبط بمقاومة الأدوية المضادة للملاريا في المتصورة المنجلية باستخدام تحليل الهوية حسب النسب

ليندال هندن 1،2 ، ستيوارت لي 1،2 ، إيفو مولر 1،2 ، أليسا باري 1،2 ، ميلاني باهلو 1،2

1 قسم صحة السكان والمناعة ، معهد والتر وإليزا هول للبحوث الطبية ، باركفيل فيكتوريا ، أستراليا 2 قسم البيولوجيا الطبية ، جامعة ملبورن ، باركفيل فيكتوريا ، أستراليا

تعتبر مقاومة الكائنات الحية الدقيقة للأدوية أزمة صحية عالمية ، ويعد تحديد الآليات الكامنة وراء هذه المقاومة أمرًا بالغ الأهمية في تعزيز جهود مكافحة الأمراض والقضاء عليها. تتعرض الجينات المرتبطة بالمقاومة لضغوط انتقائية ، مما يؤدي إلى إنشاء إشارات وراثية قوية في جينوم الكائن الدقيق. نقدم هنا طريقة جديدة لتحديد المواقع الخاضعة للاختيار الإيجابي الأخير في الكائنات الحية الدقيقة باستخدام الهوية عن طريق تحليل النسب. نطبق طريقتنا على بيانات تسلسل الجينوم الكامل لأكثر من 2000 المتصورة المنجلية من أفريقيا وجنوب شرق آسيا وبابوا غينيا الجديدة. من خلال القيام بذلك ، نحن قادرون على تحديد العديد من الإشارات المعروفة المرتبطة بمقاومة الأدوية المضادة للملاريا بالإضافة إلى العديد من المواقع الجديدة التي يُشتبه في ارتباطها بالمقاومة. يتيح لنا تحليل الهوية حسب النسب أيضًا استكشاف البنية السكانية من خلال شبكات الترابط ، مما يوفر أدلة على عدد الأنماط الفردية التي تساهم في إشارة الاختيار وتوزيع هذه الإشارات داخل البلدان وفيما بينها. علاوة على ذلك ، نحن قادرون على تحديد ما إذا كان النمط الفرداني الذي يمنح مقاومة للأدوية قد نشأ بشكل مستقل بين المواقع الجغرافية أو ما إذا كان قد انتشر من مواقع أخرى.

14 مسح جمعية بايز المستنيرة للأمراض يكشف عن روابط جديدة مرتبطة بعمر الإنسان والعلامات الحيوية المرتبطة

آرون إف ماكديد 1،2 ، بيتر ك.جوشي 3 ، نينون مونييه 1،2 ، إليونورا بوركو 2،4 ، أندريا كوملينوفيتش 2،5 ، بارت ديبلانك 2،6 ، مارك روبنسون-ريكافي 2،5 ، يوهان أويركس 7 ، جيمس ف.ويلسون 3،8 ، زولتان كوتاليك 1،2

1 معهد الطب الاجتماعي والوقائي (IUMSP) ، مستشفى جامعة لوزان ، لوزان ، سويسرا 2 المعهد السويسري للمعلوماتية الحيوية ، لوزان ، سويسرا 3 مركز أبحاث الصحة العالمية ، معهد أوشر لعلوم صحة السكان والمعلوماتية ، جامعة إدنبرة ، تيفيوت بليس ، إدنبرة ، المملكة المتحدة 4 مركز علم الجينوم التكاملي ، جامعة لوزان ، لوزان ، سويسرا 5 قسم البيئة والتطور ، جامعة لوزان ، لوزان ، سويسرا 6 مختبر بيولوجيا النظم وعلم الوراثة ، معهد الهندسة الحيوية ، مدرسة البوليتكنيك فيديرال دي لوزان وسويسرا معهد المعلوماتية الحيوية ، لوزان ، سويسرا 7 مختبر فسيولوجيا النظم والتكامل ، معهد الهندسة الحيوية ، مدرسة البوليتكنيك الاتحادية في لوزان (EPFL) ، لوزان ، سويسرا 8 MRC وحدة الوراثة البشرية ، معهد علم الوراثة والطب الجزيئي ، جامعة إدنبرة ، الغربية العامة مستشفى ، إدنبرة ، المملكة المتحدة

ترجع الاختلافات الهائلة في عمر الإنسان جزئيًا إلى عدد لا يحصى من متغيرات التسلسل ، والتي تم الكشف عن القليل منها فقط حتى الآن. نظرًا لأن العديد من أحداث تقصير العمر مرتبطة بالأمراض ، فقد طورنا طريقة Mendelian القائمة على التوزيع العشوائي (MR) التي تجمع بين 58 دراسة GWA ذات الصلة بالأمراض لاشتقاق مقدمات طول العمر المستنيرة للأمراض لجميع أشكال تعدد الأشكال على مستوى الجينوم. مسح الارتباط البايزي الخاص بنا ، الذي تم إخطاره من قبل هؤلاء ، لمعرفة سن وفاة الوالدين في دراسة البنك الحيوي في المملكة المتحدة (ن = 116،279) كشف 16 SNPs مستقلًا مع عامل Bayes مهم بمعدل اكتشاف خاطئ 5 ٪ (FDR) ، 12 منها جديدة. أحد عشر منهم يتكرر (5 ٪ FDR) في خمس دراسات طول العمر المستقلة مجتمعة. في حين أن معظمها له تأثيرات متعددة الاتجاهات ، إلا أن ثلاثة منها لم ترتبط بأي سمة بشرية حتى الآن. ومن المثير للاهتمام ، أن جميعهم باستثناء ثلاثة منهم لديهم أليلات تقصر الحياة والتي يتم استنفادها في المشاركين في Biobank الأكبر سنًا. كشف تحليل MR الإضافي في هذه المواقع الـ 16 أن مستويات التعبير المنخفضة لـ RBM6 ، SULT1A1 و CHRNA5 في الدماغ قد يكون متورطًا سببيًا في طول العمر. أظهرت تجربتنا على الحيوانات المتابعة ، بما يتوافق مع النتائج البشرية ، أن مستوى الرنا المرسال المنخفض يبلغ RBM6 في قشرة الفص الجبهي عند 72 يومًا من العمر كان مؤشرًا قويًا على عمر أقصر في خطوط الماوس LXS (r2 = 0.45, ص = 4 × 10−4). علاوة على ذلك ، وجدنا ذلك SULT1A1 يتم تنظيم مستويات التعبير وفقًا للنظام الغذائي المقيّد للسعرات الحرارية الذي يطيل من العمر. أخيرًا ، كشف التحليل على مستوى الجينوم عن إثراء كبير لمسار استقلاب البروتين الدهني (ص = 3 × 10−6) والجينات المشتركة إلى حد كبير مع طول العمر الشديد (انحدار درجة LD rg = 0.73).

15 DoriTool: أداة تكاملية للمعلومات الحيوية للتعليق التوضيحي الوظيفي بعد الارتباط

إيزابيل مارتن أنطونيانو 1 ، 2 ، لولا ألونسو 1 ، ميغيل مدريد 3 ، إيفانجيلينا لوبيز دي ماتورانا 1 ، نوريا مالاتس 1

1 مجموعة الوبائيات الجينية والجزيئية ، المركز الإسباني الوطني لأبحاث السرطان ، مدريد ، إسبانيا 2 معهد الطب الطبي الجزيئي Aplicada ، كلية الطب ، جامعة سان بابلو ، مدريد ، إسبانيا 3 مجموعة البيولوجيا الحاسوبية الهيكلية ، المركز الإسباني الوطني لأبحاث السرطان ، مدريد ، إسبانيا

أدى ظهور البيانات عالية الإنتاجية في علم الأحياء إلى زيادة الحاجة إلى التحليل الوظيفي "في السيليكو" وعزز تطوير أدوات المعلوماتية الحيوية المتكاملة لتسهيل الحصول على بيانات ذات مغزى بيولوجيًا.

في هذا البحث نقدم DoriTool ، وهو عبارة عن خط أنابيب شامل وسهل وودود يدمج البيانات البيولوجية من أدوات وظيفية مختلفة. تم تصميم الأداة بهدف زيادة قابلية التكاثر وتقليل وقت عمل الباحثين ، وخاصة أولئك الذين لديهم مهارات معلوماتية حيوية محدودة ، ومساعدتهم في تفسير النتائج.

يعتمد DoriTool على استراتيجية تكاملية يتم تنفيذها باتباع نمط تصميم معياري. يجمع DoriTool بين البيانات الوظيفية والجينومية الحديثة بالإضافة إلى أدوات المعلوماتية الحيوية التابعة لجهات خارجية في خط أنابيب لإجراء تحليل "في silico" للتعليقات التوضيحية عند مستويات الطفرات / المتغيرات والجينات والمسار والشبكة باستخدام البرامج النصية المكتوبة بلغة bash و Perl و ولغة البرمجة R. يستخدم DoriTool التجميع البشري GRCh37 ووضع الاتصال بالإنترنت. يوفر DoriTool أيضًا تقارير مرئية لطيفة بما في ذلك التعليقات التوضيحية المتغيرة ، ووكلاء عدم توازن الارتباط ، والتعليق التوضيحي للجينات ، وتحليل الأنطولوجيا الجينية ، ونتائج المواضع الكمية للتعبير (eQTL) من التعبير الجيني للأنسجة (GTEx) والمسارات الملونة. نعرض هنا أيضًا وظائف DoriTool من خلال تطبيقه على مجموعة بيانات من 13 نوعًا مختلفًا مرتبطة بسرطان البروستاتا. يتم استضافة تطوير المشروع ، ومكتبات الأكواد الصادرة ، ومستودع GitHub (https://github.com/doritool) والوثائق على https://doritool.github.io/.

DoriTool هو ، على حد علمنا ، أداة المعلوماتية الحيوية الأكثر اكتمالا التي تقدم شرحًا توضيحيًا وظيفيًا "في السيليكو" للمتغيرات المرتبطة سابقًا بسمات الاهتمام ، وتسليط الضوء على البيولوجيا الأساسية ومساعدة الباحثين في تفسير ومناقشة النتائج.

16 المربعات الصغرى المعممة البايزية في رسم الخرائط المتعددة الأعراق الدقيقة

كان وانغ 1 ، ديفيد ف.كونتي 1

1 قسم الطب الوقائي ، جامعة جنوب كاليفورنيا ، لوس أنجلوس ، كاليفورنيا ، الولايات المتحدة الأمريكية

لمتابعة المناطق التي تم تحديدها من خلال GWAS ، يمكن لرسم الخرائط الدقيقة متعددة الأعراق تحسين القدرة على تحديد متغير سببي أساسي من خلال الاستفادة من هياكل اختلال التوازن المختلفة (LD) عبر مجموعات سكانية متنوعة. في هذا السياق ، يظل التحليل التلوي للتأثير الثابت (FE) هو النهج الأكثر استخدامًا لسهولة تفسيره وقدرته على تحديد SNP السببي ، خاصة في ظل افتراض وجود تأثير مشترك عبر السكان. تعتمد الأساليب البديلة في الغالب على نهج FE وتزيد من عدم التجانس أو دمج المعلومات الوظيفية. ومع ذلك ، عند تطبيقها عمليًا عبر العديد من تعدد أشكال النيوكلوتايد في منطقة ما ، غالبًا ما تؤدي هذه الأساليب إلى وضوح أقل حيث تتم مقارنة الأدلة من تعدد الأشكال مع تأثيرات شائعة مع تعدد الأشكال مع عدم تجانس كبير. هنا ، نتوسع في FE ونقترح المربعات الصغرى المعممة Bayesian (BGLS) التي تفسر صراحة التباين في التقديرات داخل كل مجموعة. يتم تحديد السبب الأكثر ترجيحًا للـ SNP من خلال نهج متوسط ​​النموذج الذي يحقق في جميع تركيبات SNP لإنتاج احتمالات التضمين الخلفي الخاصة بـ SNP. نقدم دراسة محاكاة توضح أنه بالنسبة لأحجام التأثير الواقعية ، فإن BGLS تتفوق على FE بهامش كبير. التحسن هو الأكثر دراماتيكية عندما يكون LD بين السببية SNP و SNPs المحيطة متواضعة إلى عالية. نحن نحقق في أداء تصميمات الدراسة المختلفة بأعداد متفاوتة من السكان ، وأحجام عينات غير متساوية ، وتعدد أشكال تعدد الأشكال السببية في منطقة واحدة. بالإضافة إلى ذلك ، نوضح كيف يمكن أيضًا دمج المعلومات الوظيفية الخارجية في BGLS لزيادة تحسين دقتها في تحديد أولويات تعدد الأشكال الوظيفية.

17 مقارنة فعالية الطرق الحالية لقياس درجة Polygenic

الكسندروس راموس 1،2 ، كيفن ج.ميتشل 1 ، كريستين ك.نيكوديموس 2،3

1 معهد سمورفيت لعلم الوراثة ومعهد علم الأعصاب ، كلية ترينيتي دبلن ، أيرلندا 2 مركز الطب الجينومي والتجريبي ، معهد علم الوراثة والطب الجزيئي ، جامعة إدنبرة ، المملكة المتحدة 3 مركز الشيخوخة المعرفية وعلم الأوبئة الإدراكي ، جامعة إدنبرة ، الولايات المتحدة مملكة

تم تقديم درجات المخاطر متعددة الجينات (PRS) كوسيلة لحساب التباين المشترك الإضافي واستخدمت على نطاق واسع في أبحاث الاضطرابات النفسية. على مر السنين تم اقتراح العديد من الطرق المختلفة لحساب PRS ، ولكن لم يتم التوصل إلى توافق في الآراء بشأن الطريقة المثلى لالتقاط التباين بينما تكون في نفس الوقت قوية بيولوجيًا وإحصائيًا. باستخدام مجموعات البيانات المحاكاة استنادًا إلى مجموعة فرعية غير ذات صلة من مجموعة بيانات Generation Scotland (N = 7500) ، حاولنا مقارنة المنهجيات التي يتم استخدامها حاليًا لحساب PRS بما في ذلك تقليم الربط (LD) وتكتل LD و PRS الموزون على أساس True Discovery Rate وأخيراً برنامج العتبة التلقائي PRSice. لاستقصاء الاختلافات بين الطرق وداخلها ، طبقنا عددًا من المعلمات المختلفة ، بما في ذلك حجم العينة وهيكل صعوبة التعلم وعدد الأليلات السببية. كان أداء جميع الطرق ضعيفًا ولم تكن قادرة على إنتاج تقديرات قريبة من القيمة الحقيقية. تشذيب LD عند مستوى منخفض ص تجاوزت القيمة المقطوعة أداء LD التكتل والترجيح. تفوقت PRSice على الطرق الأخرى ولكن بعد التصحيح للاختبارات المتعددة فشلت في الوصول إلى المستويات التقليدية ذات الأهمية الإحصائية. حجم العينة وهيكل صعوبة التعلم وعدد الأليلات السببية أثرت بشدة على تقديرات الدرجة. تم تحقيق التقديرات المثلى في المناطق الغنية بصعوبة التعلم مع أحجام عينات أكبر وعدد أقل من الأليلات السببية ذات التأثيرات الأكبر. تشير هذه النتائج إلى أن استراتيجية الحد من الفقر ، كما يتم حسابها حاليًا ، قد تقلل من أهمية تأثيرات التباين الإضافي الشائع.

18 النموذج الخطي المعمم متعدد المتغيرات لتعدد الأشكال الوراثي

دانيال ج.شيد ​​1 ، زينغوي تونغ 2 ، أنتوني باتزلر 1 ، جايسون ب. سينويل 1 ، جيانغ كينغ 2 ، جوانا إم بيرناكا 1

1 قسم أبحاث العلوم الصحية ، Mayo Clinic ، روتشستر ، مينيسوتا ، الولايات المتحدة الأمريكية 2 كلية الإحصاء ، جامعة بكين نورمال ، بكين ، الصين

عندما يؤثر جين واحد على أكثر من سمة واحدة ، تُعرف باسم تعدد الأشكال ، فمن المهم اكتشاف تعدد الأشكال لتحسين الفهم البيولوجي للجين. ومع ذلك ، فإن معظم الأساليب الحالية متعددة المتغيرات لتقييم تعدد الأشكال تختبر الفرضية الصفرية القائلة بأن أياً من السمات لا ترتبط بحالات متغيرة من الصفات يمكن أن تكون مدفوعة بسمة واحدة مرتبطة فقط. يجب أن يفترض الاختبار الرسمي لتعدد الأشكال وجود فرضية صفرية مفادها أن سمة واحدة أو أقل مرتبطة بمتغير جيني. لقد طورنا طرقًا إحصائية لتحليل تعدد الأشكال لتحليل السمات الثنائية أو الترتيبية أو الكمية ، أو مزيج من هذه الأنواع من السمات ، بناءً على النماذج الخطية المعممة وتقدير المعادلات. يوفر إطار العمل الخاص بنا نهجًا تسلسليًا لاختبار الفرضية الصفرية ك+ 1traits مرتبطة ، بالنظر إلى أن قيمة خالية من ك تم رفض السمات المرتبطة بها. يوفر هذا طريقة لتحديد عدد السمات المرتبطة بالمتغير الجيني ، وكذلك السمات أثناء حساب الارتباطات بين السمات. من خلال عمليات المحاكاة ، نوضح معدل الخطأ من النوع الأول وقوة أساليبنا الجديدة ، ونصف كيف تتأثر بحجم العينة ، وعدد السمات ، وارتباطات السمات ، ونطبق الطرق الجديدة على دراسة ارتباط على نطاق الجينوم سمات متعددة المتغيرات. يوفر نهجنا الجديد تقييمًا كميًا لتعدد الأشكال ، مما يعزز الممارسة التحليلية الحالية.

19 اكتشاف ورسم خرائط دقيقة لمراكز القابلية للإصابة بالسكري من النوع 2 عبر مجموعات سكانية متنوعة

Jennifer E. below 1 و Hidetoshi Kitajima 2 و Anubha Mahajan 2 و Xueling Sim 3 و Maggie Ng 4 و Weihua Zhang 5 و Daniel Taliun 6 و Kyle J. Gaulton 7 و Andrew P Morris 1،8 نيابة عن اتحاد DIAMANTE

1 معهد فاندربيلت الوراثي ، فاندربيلت ، مركز العلوم الصحية بجامعة تكساس في هيوستن ، تكساس ، الولايات المتحدة الأمريكية 2 مركز ويلكوم ترست للوراثة البشرية ، جامعة أكسفورد ، أكسفورد ، المملكة المتحدة 3 مدرسة سو سوي هوك للصحة العامة ، الوطنية جامعة سنغافورة ، سنغافورة ، مركز سنغافورة 4 لبحوث الجينوم والطب المخصص ، كلية ويك فورست للطب ، ونستون سالم ، نورث كارولينا ، الولايات المتحدة الأمريكية 5 كلية الصحة العامة ، إمبريال كوليدج لندن ، لندن ، المملكة المتحدة 6 مركز الوراثة الإحصائية ، جامعة ميشيغان ، آن أربور ، ميشيغان ، الولايات المتحدة الأمريكية 7 قسم طب الأطفال ، جامعة كاليفورنيا سان دييغو ، لا جولا ، كاليفورنيا ، الولايات المتحدة الأمريكية 8 قسم الإحصاء الحيوي ، جامعة ليفربول ، ليفربول ، المملكة المتحدة

أجرينا التحليل التلوي العابر للعرق لدراسات الارتباط على مستوى الجينوم لمرض السكري من النوع 2 (T2D) في 99265 حالة و 545.212 عنصر تحكم من مجموعات سكانية متنوعة. حددنا 110 موقعًا ذات أهمية على مستوى الجينوم (ص& lt5 × 10 −8) ، بما في ذلك رسم خرائط 37 خارج المناطق التي سبق تورطها في المرض ، مع أقوى الارتباطات الجديدة في / بالقرب من INHBB (rs58884021 ، ص = 2.8 × 10 −12 ), PLEKHA1 (rs2421016 ، ص = 3.2 × 10 −12) ، و EIF5A2 (rs6804915 ، ص = 3.8 × 10 12). حددنا 156 إشارة ارتباط مميزة (ص& lt10 −5) عبر 110 مواقع ، بما في ذلك 11 في KCNQ1، 5 في INS-IGF2، و 4 لكل منهما في CDKN2A-B و CCND2. في حين أن التأثيرات الأليلية على خطر T2D لمتغيرات المؤشر كانت متسقة في الغالب عبر السكان ، لاحظنا لأول مرة دليلًا قويًا على عدم التجانس الذي ارتبط بالأصل في LEP (rs7778167 ، صHET = 8.2 × 10 16 ، خاص بشرق آسيا) ، UBE2E2 (rs35352848 ، صHET = 4.2 × 10 11 ، التأثير الأقوى في شرق آسيا) ، و KCNQ1 (rs11819853 ، صHET = 2 × 10 −10 ، متفاوتة الاتجاه وحجم التأثير بين المجموعات العرقية). تحليلات رسم الخرائط الدقيقة المحسنة بشكل كبير توطين المتغيرات السببية المحتملة مقارنة بالجهود السابقة ، مع تسليط الضوء على 17 إشارة يمثل لها متغير واحد & gt99 ٪ من الاحتمال اللاحق لقيادة الارتباط ، مع دقة أكثر دقة عند JAZF1 (rs10226758) ، CDC123-CAMK1D (rs11257655) ، TCF7L2 (rs7903146) و KCNQ1 (rs2237884 و rs2237895). كشف تكامل بيانات الخرائط الدقيقة والشرح التوضيحي عن الاحتمال الخلفي (π) لإثرائه بشكل كبير في ترميز exons (ص = 1.4 × 10 −5) ، لأول مرة بما في ذلك متغير المؤشر في APOE-TOMM40 مكان APOE ص Cys130Arg (rs429358 ، π = 99.2٪). بعد احتساب تباين الترميز ، تم أيضًا إثراء الاحتمال اللاحق بشكل مشترك لمواقع ربط عامل النسخ لـ PDX1 (ص = 2.6 × 10 6) و FOXA2 (ص = 1.8 × 10 −5) ، وتسليط الضوء على التوقيعات التنظيمية المحتملة التي تنبئ بالمتغيرات السببية لـ T2D في تسلسل غير مشفر.

20 دور الترميز والمتغيرات منخفضة التردد التي تساهم في قياس الأنثروبومترية

Anne E. Justice 1 بالنيابة عن GIANT و CHARGE و BBMRI-NL و GoT2D Consortia

1 قسم علم الأوبئة ، جامعة نورث كارولينا في تشابل هيل ، تشابل هيل ، نورث كارولينا ، الولايات المتحدة الأمريكية

السمات الأنثروبومترية ، مثل مؤشر كتلة الجسم (BMI) ، ونسبة الخصر إلى الورك (WHR) ، والطول ، هي سمات متعددة الجينات وراثية للغاية. هناك ما يقرب من 1000 متغير شائع (تردد أليل ثانوي [MAF] و gt5٪) متغيرات GWAS عبر هذه الصفات ، لكن الأسس الجينية قد تشمل متغيرات نادرة ومتغيرات ترميز البروتين مع تأثيرات كبيرة. لقد هدفنا إلى تحديد تغيير البروتين (الترميز / الربط) ، والمتغيرات منخفضة التردد (LFVs) (MAF & lt5٪) ، والجينات التي تؤثر على هذه الصفات الأنثروبومترية الثلاث باستخدام بيانات صفيف exome. قمنا بتحليل نتائج الارتباط الخاصة بالدراسة بالتحليل التلوي لـ 216،883 LF ، متغيرات الترميز من ما يصل إلى 526،508 فردًا. أخذنا المتغيرات إلى الأمام مع ص القيمة & lt2 × 10 6 للتحقق من صحتها في دراستين مستقلتين (deCODE ، UKBiobank) وبعد ذلك تم تحليل جميع العينات تلويًا (Nالأعلى = 718.734 ، ∼89٪ أوروبي). لقد أجرينا اختبارات قائمة على الجينات باستخدام طريقة SKAT بما في ذلك 16222 جينًا تم تحديدها بواسطة LFV وتوقع أنها ضارة. حددنا 83 (72 رواية) LFV مرتبطة بالارتفاع ، و 16 (11 رواية) بمؤشر كتلة الجسم ، و 13 (تسعة روايات) مع WHR التي حققت أهمية على مستوى المجموعة (ص القيمة & lt2 × 10 −7 ، 0.05 / # متغيرات). بشكل عام ، تُظهر LFV تقديرات تأثير أكبر مما تم تسجيله سابقًا ، وفي بعض الحالات تظهر زيادة قدرها 10 أضعاف في تقديرات التأثير مقارنة بمتوسط ​​GWAS SNP المشترك. حددنا 10 جينات مرتبطة بالطول وواحد ، GIPR، المرتبطة بمؤشر كتلة الجسم. بالنظر إلى أحجام العينات المتاحة لهذه الدراسات ، فليس من المستغرب أن نقدم أكبر مجموعة من الترميز المعتمد و LFVs المرتبطة بسمات بشرية معقدة. في ضوء العينة الكبيرة جدًا وتصميم الدراسة الشامل ، سوف نفكر في الوعد والقيود المحتملة لمزيد من الدراسات التي تبحث في دور الترميز و LFV للسمات المعقدة.

21 جمعية الكروموسوم X على بيانات الميكروبيوم

Osvaldo Espin-Garcia 1،2 ، Wei Xu 1،3

1 قسم الإحصاء الحيوي ، كلية دالا لانا للصحة العامة ، جامعة تورنتو ، تورنتو ، كندا 2 معهد أبحاث لونينفيلد-تانينباوم ، نظام سيناء الصحي ، تورنتو ، كندا 3 قسم الإحصاء الحيوي ، مركز الأميرة مارغريت للسرطان ، تورنتو ، كندا

تم إهمال تحليل الكروموسوم X (X-chr) إلى حد كبير في الدراسات الجينية بسبب الآليات البيولوجية المعقدة الأساسية. نقترح نهجًا جديدًا لاستنتاج الارتباط بين بيانات الميكروبيوم التي تحتوي على فائض من الأصفار والمتغيرات الجينية المضيفة في X-chr. تفسر الطريقة تعطيل X-chr (XCI) ، وهروب XCI (XCI-E) وانحراف XCI (XCI-S). يتم إجراء الاستدلال من خلال الاحتمال الأقصى شبه المعياري (SPML) حيث يتم التعامل مع الآلية البيولوجية "الحقيقية" على أنها فئة مفقودة غير ملحوظة. يتم تنفيذ خوارزمية تعظيم التوقع (EM) على نماذج متضخمة صفرية لتقدير التأثيرات الجينية. نقوم بإجراء عمليات محاكاة لتقييم أداء نهج SPML مقارنة بتحليلات Clayton-like (CL) أو PLINK-like (PL). باختصار ، يفترض CL XCI لكل علامة وراثية في X-chr ، أي رموز الذكور كإناث متماثلة اللواقح ، بينما تحلل PL كل علامة وراثية تحت XCI-E ، أي رموز الذكور كإناث متغايرة الزيجوت. تشير النتائج الأولية إلى أن الطريقة المقترحة يمكن أن تقدم تحيزًا أقل مقارنةً بـ CL أو PL. نحن نهدف إلى مزيد من استكشاف اختبارات الفرضية في ظل إحصائية درجة فعالة. الطريقة المقترحة لها تطبيقات بعيدة المدى. على وجه الخصوص ، نوضح استخدامه في دراسة ميكروبيوم بشري واسعة النطاق ، مشروع GEM ، لاستكشاف الارتباط الجيني الواسع لـ X-chr.

22 نموذج هرمي بايزي لتحليل المسار مع الاستدلال المتزامن على بنية Pathway-Gene-SNP

Lei Zhang 1 ، Pankaj K. Choudhary 1 ، Swati Biswas 1

1 قسم العلوم الرياضية ، جامعة تكساس في دالاس ، ريتشاردسون ، تكساس ، الولايات المتحدة الأمريكية

تحليل المسار هو نهج يسمح بالتفكير المشترك في تعدد أشكال النيوكلوتايد التي تنتمي إلى جينات متعددة ، والتي بدورها تنتمي إلى مسار محدد بيولوجيًا. عادةً ما يكون هذا التحليل أقوى من تحليلات SNP الأحادية للكشف عن التأثيرات المشتركة لمتغيرات متعددة في المسار ، ولكل منها تأثير متواضع. نحن نطور نموذجًا هرميًا بايزي الذي يصمم بشكل كامل التسلسل الهرمي ثلاثي المستويات ، أي مسار الجين SNP المتأصل بشكل طبيعي في بنية المسارات ، على عكس الأساليب الحالية التي تستخدم طرقًا مخصصة لدمج هذه المعلومات. للتعامل مع الأبعاد العالية التي تنطوي عليها مثل هذه النمذجة ، نقوم بتنظيم التأثيرات في كل مستوى من خلال الاختيار المناسب للمسابقات الهرمية. تتمثل الميزة الرئيسية للنمذجة المشتركة في أنه لا يمكننا فقط العثور على مسارات مرتبطة ولكن أيضًا الجينات المرتبطة بها داخل المسارات المهمة ، و SNPs المرتبطة بها داخل الجينات المهمة. مثل هذه الآلية الرسمية لاختبار مكونات مسار مهم ليست متاحة في الأساليب الحالية ولكنها مفيدة لدراسات المتابعة. علاوة على ذلك ، يمكننا اختبار مسارات متعددة من خلال نموذج مشترك واحد. نستخدم معدل الاكتشاف الخاطئ الهرمي لتعديل تعدد إجراء الاستدلال بأكمله. لدراسة النهج المقترح ، نجري عمليات محاكاة مع عينات تم إنشاؤها في ظل أنماط اختلال توازن واقعية تم الحصول عليها من مشروع HapMap. وجدنا أن طريقتنا تتمتع بقوة أعلى من بعض الأساليب الحالية لتحديد المسارات ذات المتغيرات المتعددة ذات الحجم المتواضع. في بعض الإعدادات ، تتمتع بقدرة معقولة على اكتشاف الجينات المرتبطة ، وهي ميزة غير متوفرة في طرق أخرى.

23 تحسين احتساب النمط الجيني في المناطق ذات الصلة بالمرض مع تضمين بيانات تسلسل المريض: دروس من التليف الكيسي

نعيم بانجواني 1 ، بوي شياو 1 ، ليزين شو 2 ، جيافين جونج 1 ، كاثرين كينان 3 ، فان لين 1 ، جينجمينج هي 1 ، زينب باسكورت 1 ، لين زانج 4 ، سانجوك كيم 5 ، محسن إسماعيلي 1 ، سكوت بلاكمان 6 ، هارييت كورفول 7،8 ، ميتشل درام 9،10 ، مايكل نولز 11 ، جاري كتنج 6،12 ، جوانا إم رومينز 1،13 ، لي سون 4،5 ، ليزا ج.ستروج 1،2،4

برنامج واحد في علم الوراثة وبيولوجيا الجينوم ، مستشفى الأطفال المرضى ، تورنتو ، كندا 2 مركز علم الجينوم التطبيقي ، مستشفى الأطفال المرضى ، تورنتو ، كندا 3 برنامج في علم وظائف الأعضاء والطب التجريبي ، مستشفى الأطفال المرضى ، تورنتو ، كندا 4 قسم الإحصاء ، جامعة تورنتو ، تورنتو ، كندا 5 قسم الإحصاء الحيوي ، كلية دالا لانا للصحة العامة ، جامعة تورنتو ، تورنتو ، كندا 6 قسم طب الأطفال ، كلية الطب بجامعة جونز هوبكنز ، بالتيمور ، ماريلاند ، الولايات المتحدة الأمريكية 7 قسم أمراض الرئة للأطفال ، مستشفى تروسو ، مساعدة Publique-Hôpitaux de Paris (AP-HP) ، المعهد الوطني للصحة والبحوث الطبية (INSERM) ، U938 ، باريس ، فرنسا 8 جامعة بيير وماري كوري - باريس 6 ، باريس ، فرنسا 9 قسم طب الأطفال ، جامعة كيس ويسترن ريزيرف ، كليفلاند ، أوهايو ، الولايات المتحدة الأمريكية 10 قسم علم الوراثة ، جامعة كيس ويسترن ريزيرف ، كليفلاند ، أوهايو ، الولايات المتحدة الأمريكية merica 11 مركز أبحاث وعلاج التليف الكيسي الرئوي ، جامعة نورث كارولينا ، تشابل هيل ، نورث كارولينا ، الولايات المتحدة الأمريكية 12 معهد ماكوسيك ناثانز للطب الوراثي ، كلية الطب بجامعة جونز هوبكنز ، بالتيمور ، ماريلاند ، الولايات المتحدة الأمريكية 13 قسم الوراثة الجزيئية ، جامعة تورنتو ، تورنتو ، كندا

يُحسِّن تضمين النمط الجيني رسم الخرائط الدقيقة ويتيح التحليل التلوي للأتراب المكوّن من مجموعات وراثية على منصات مختلفة. يستخدم التضمين التقليدي اللوحات المرجعية لتسلسل الجينوم الكامل (WGS) ، على سبيل المثال 1000 مشروع جينوم (1KGP ، ن = 2504). ومع ذلك ، فشل التضمين باستخدام 1KGP في تحديد المتغيرات في منظم توصيل الغشاء عبر التليف الكيسي (CF) (CFTR) من أجل الاتحاد الدولي لمعدلات الجينات CF ، تم التنميط الجيني على Illumina Human660W-Quad BeadChip (العدد = 1،995). CFTR يعرض تباينًا أليليًا كبيرًا ويرتبط بالمراضات المشتركة للتليف الكيسي للوراثة المعقدة مثل انسداد الأمعاء. قد يكون من الأفضل استخدام لوحات مرجعية أكبر مثل الاتحاد المرجعي للنمط Haplotype (HRC n = 32،470) ، أو البدائل التي تتضمن WGS في العينة. قارنا التضمين في CFTR باستخدام HRC إلى مرجع مركب يجمع بين 1KGP و WGS من 101 مريض CF ، هذا الأخير يثري المرجع بأنماط فردية خاصة بالدراسة. يوفر المرجع 1KGP و HRC والمرجع المركب ، على التوالي ، 1438 و 2،164 و 2439 متغيرات biallelic للتضمين في CFTR. ينتج عن المرجع المركب المزيد من المتغيرات المنسوبة إلى توافق أكبر بين الطفرات المسببة للطفرات المعروفة والمسببة للتليف الكيسي ، على سبيل المثال W1282X بنسبة 98.3٪ مقابل 96.6٪ في HRC واحتساب طفرة CF الأكثر شيوعًا (p. والجدير بالذكر أن المرجع المركب أظهر قدرة أكبر على اكتشاف وجود ارتباط بين CFTR وانسداد معوي فوق ألواح 1KGP أو HRC. تشير النتائج إلى أن التضمين التقليدي يمكن أن يحذف الأنماط الجينية الأكثر صلة بالمرض عندما يكون هناك عدم تجانس أليلي في المواقع السببية ، ولكن دمج WGS في مجموعة فرعية من مجتمع الدراسة يمكن أن يحسن التضمين وتحديد المتغير السببي.

24 ملخص إحصائي إعادة تحليل مشترك GWAS عبر أكثر من 30 سمة

كارلا لاسري 1 ، فينسينت غيليموت 1 ، بيير ليتشات 1 ، هيرفيه مينيجر 1 ، بي جيه فيلجالمسون 2،3 ، هيوز أشارد 1،3

1 Département de Génomes et Génétique، Centre de Bioinformatique، Biostatistique et Biologie Intégrative، Institut Pasteur، Paris، France 2 Bioinformatics Research Centre، Aarhus University، Aarhus، Denmark 3 Department of Biostatistique، Harvard T.H. مدرسة تشان للصحة العامة ، بوسطن ، ماساتشوستس ، الولايات المتحدة الأمريكية

أثبتت دراسات الارتباط على مستوى الجينوم (GWAS) نجاحها في تحديد الآلاف من الارتباطات الجينية المهمة لصفات وأمراض متعددة. يرجع هذا النجاح إلى حد كبير إلى الزيادة الهائلة في حجم العينة التي حققتها اتحادات التحليل التلوي GWAS ، مما يسمح الآن باكتشاف المتغيرات الجينية التي تشرح ما يصل إلى 0.02 ٪ من النتائج الكمية. ومع ذلك ، فقد حظيت التحليلات التلوية لـ GWAS عبر الأمراض والسمات المختلفة باهتمام محدود ، على الرغم من أن التحليلات متعددة المتغيرات لديها القدرة على تحسين اكتشاف المتغيرات الجينية. نقترح هنا التحليل المشترك للإحصائيات الموجزة (JASS) ، وهو إطار فعال حسابيًا للتحليل المشترك للأنماط الظاهرية المتعددة بناءً على إحصائيات ملخص GWAS. يحل إطار عملنا العديد من القضايا العملية والمنهجية التي تم التغاضي عنها في الدراسات السابقة. على وجه الخصوص ، نحدد المواقف الواقعية التي تؤدي إلى تقديرات التغاير المتحيزة لـ GWAS ، ونوضح كيف يمكن أن يؤدي ذلك إلى زيادة المعدل الإيجابي الخاطئ في الممارسة ، ونقترح مجموعة من الإرشادات والإحصاءات لتجنب مثل هذه المزالق. طبقنا JASS للتحليل المشترك لـ GWAS المتاحة للجمهور لأكثر من 30 نمطًا ظاهريًا ، تمامًا ، أو باستخدام مجموعات فرعية من الأنماط الظاهرية بناءً على سماتها السريرية أو المرضية. اكتشفنا العشرات من المتغيرات المهمة على مستوى الجينوم التي غاب عنها الفحص أحادي المتغير. تتضمن المتغيرات التي تم تحديدها عددًا من المرشحين المعينين و SNPs المكتشفة مؤخرًا في حجم عينة أكبر من تلك المتوفرة في تحليلنا ، مما يؤكد قدرات وصلاحية نهجنا. أخيرًا ، نقدم تطبيقًا متاحًا عبر الإنترنت لـ JASS ، مما يسمح للباحثين بإجراء تحليل مشترك لأي مجموعة فرعية محددة من الأنماط الظاهرية.

25 التحليل التلوي متعدد الأنماط الجينية على مستوى الجينوم لمستويات الدهون ومؤشر كتلة الجسم في 64736 أوروبيًا يقترح العمارة الجينية المشتركة

ماريكا كاكينن 1 ، 2 ، ريديك ماجي 3 ، فاسيليكي لاجو 4 ، 5 ، أنيك كلارينجبولد 6 ، كايل غولتون 7 ، بيوس كونسورتيوم ، كريستا فيشر 3 ، أندرو موريس 8 ، إنجا بروكوبينكو 1 ، لاتحاد إنجيج

1 قسم الطب ، قسم الطب التجريبي وعلم السموم ، إمبريال كوليدج لندن ، المملكة المتحدة 2 قسم علم جينوم الأمراض الشائعة ، إمبريال كوليدج لندن ، المملكة المتحدة 3 مركز الجينوم الإستوني ، جامعة تارتو ، تارتو ، إستونيا 4 مركز في آي بي للدماغ و أبحاث الأمراض ، لوفين ، بلجيكا 5 KU لوفين ، قسم الأحياء الدقيقة والمناعة ، لوفين ، بلجيكا 6 قسم علم الوراثة ، المركز الطبي الجامعي جرونينجن ، جرونينجن ، هولندا 7 قسم علم الوراثة ، جامعة ستانفورد ، ستانفورد ، كاليفورنيا ، الولايات المتحدة الأمريكية 8 معهد الطب التحويلي ، جامعة ليفربول ، ليفربول ، المملكة المتحدة

تشترك مستويات الدهون في الدم والسمنة في المسارات الكيميائية الحيوية ، مما يشير إلى العوامل الوراثية المشتركة. يمكن إجراء دراسات الارتباط على مستوى الجينوم (GWAS) للأنماط الظاهرية المرتبطة في وقت واحد لتحديد هذه التأثيرات الجينية المشتركة بقوة متزايدة. أجرينا GWAS متعدد النمط الظاهري (MP-GWAS) على ثلاثة شحوم في الدم (كوليسترول البروتين الدهني عالي / منخفض الكثافة والدهون الثلاثية [HDL-C / LDL-C / TG]) ومؤشر كتلة الجسم (BMI). قمنا بحساب كل دراسة من 22 دراسة مساهمة من أصل أوروبي في اللوحة المرجعية لـ 1000 جينوم (المرحلة 1). لقد أجرينا MP-GWAS لما يصل إلى 64736 فردًا من خلال تركيب نموذج "الانحدار العكسي" بين كل SNP والمزيج الخطي من HDL-C / LDL-C / TG ​​ومؤشر كتلة الجسم باستخدام برنامج SCOPA ، أي SNPأنا = β1 ط × HDL-C + β2 ط × LDL-C + β3 ط × تيراغرام + β4 ط × مؤشر كتلة الجسم + εأنا، أين أنا = 1 ، ... ، n ، و n هو الحد الأقصى لعدد SNPs المختبرة و εأنا∼N (0، ơ 2). تم دمج مصفوفات التباين المشترك الخاصة بالدراسة لكل متغير في تحليل تلوي باستخدام برنامج META-SCOPA. معززًا بالقوة المحسّنة من التحليل المشترك ، حددنا 14 موقعًا متغيرًا مشتركًا جديدًا في أهمية الجينوم على نطاق واسع (ص& lt5 × 10 −8) ، واكتشفت 41/9 موقعًا ثابتًا للدهون / مؤشر كتلة الجسم ، على التوالي. ال SDC1, SLC8A1, EPHA6, سباتا 4, ماجي 2, CTSB ، BC014119 ، SMCO4 و CNTN5 أظهر loci تأثيرات على كل من الدهون ومؤشر كتلة الجسم في نموذج المفصل ، مما يشير إلى العمارة الجينية المشتركة. لقد دعمنا هذه الملاحظة من خلال تحليل الكتلة الهرمي ، مما أدى إلى ثلاث مجموعات تمثل مزيجًا من المتغيرات المرتبطة بالدهون ومؤشر كتلة الجسم. اكتشفنا تأثيرات مواضع كمية التعبير (eQTL) في الدم الكامل (N = 2،114) في ستة مواقع جديدة وإثراء إشارات الارتباط في مواقع ربط HDAC6 ، مما يشير إلى الدور الحاسم للمواقع المرتبطة في الأحداث الخلوية المختلفة. يتيح MP-GWAS الكشف عن تأثيرات النمط الظاهري المتعددة ويزيد من القوة مقارنة بالنمط الظاهري الفردي GWAS.

26 إطار التقسيم التجميعي الجديد لتقليل أبعاد مجموعات البيانات الجينومية عالية الأبعاد

جوشوا ميلستين 1 ، دنكان توماس 1 ، يانغ يو 1 ، ويندي كوزين 1

1 قسم الطب الوقائي ، كلية كيك للطب بجامعة جنوب كاليفورنيا ، لوس أنجلوس ، كاليفورنيا ، الولايات المتحدة الأمريكية

السمة المشتركة عبر أنواع البيانات الجينومية ، بما في ذلك الجينوم ، الإبيجينوم ، الترنسكريبتوم ، الميكروبيوم ، الأيض ، إلخ ، هي التبعيات بين المتغيرات. أدت التحسينات في التقنيات الجينية مصحوبة بتناقص التكاليف إلى زيادة كبيرة في كميات المعلومات التي تم جمعها من عينات الأنسجة الفردية. ومع ذلك ، غالبًا ما تكون هذه الزيادة في المعلومات مصحوبة بزيادة التبعية بين المتغيرات. لقد غذت هذه الديناميكية الحاجة إلى طرق لتقليل أبعاد مجموعات البيانات من خلال تلخيص المتغيرات التابعة المتعددة في متغيرات أقل وأقل اعتمادًا. تقليل الأبعاد له فوائد متعددة بما في ذلك انخفاض الطلبات الحسابية ، وتقليل تحدي الاختبارات المتعددة ، وبيانات التصرف الأفضل. ومع ذلك ، هناك عدد قليل من طرق تقليل الأبعاد الحالية التي تفي بالعديد من المعايير الهامة ، (1) الحد الأدنى من فقدان المعلومات ، (2) تؤدي كل مجموعة من المتغيرات التابعة في مجموعة البيانات الكاملة إلى متغير واحد في مجموعة البيانات المخفضة ، (3) الحد الأقصى من فقدان المعلومات من تكوين متغير واحد من متغيرات متعددة يمكن للباحث تحديده ، و (4) النهج قابل للتطوير إلى أبعاد عالية. نقترح إطارًا رسميًا يستوعب هذه المعايير. تم وصف خوارزميتين جديدتين فعالتين من الناحية الحسابية على أساس استراتيجية تكتلية ، وتشكيل قسم من المتغيرات وتلخيص كل منها في متغير جديد مع فقدان محدود للمعلومات. في البيانات المحاكاة ذات التبعيات ، وجدنا أن تقليل الأبعاد أدى إلى حد كبير زيادة القدرة على اكتشاف الارتباطات بالمتغيرات الخارجية. حدد تطبيق لبيانات ميكروبيوم الأمعاء البشرية الحقيقية الارتباطات بالنظام الغذائي وأظهر قابلية عالية للتفسير للمتغيرات الموجزة.

27 JEM: اختبار مشترك لتقدير تأثير المتغيرات الجينية المتعددة على مثيلة الحمض النووي

Chloé Sarnowski 1، Tianxiao Huan 2،3، Chunyu Liu 2،3، Chen Yao 2،3، Roby Joehanes 2،3،4، Daniel Levy 2،3، Josée Dupuis 1،2

1 قسم الإحصاء الحيوي ، كلية الصحة العامة بجامعة بوسطن ، بوسطن ، ماساتشوستس ، الولايات المتحدة الأمريكية 2 دراسة فرامنغهام للقلب ، فرامنغهام ، ماساتشوستس ، الولايات المتحدة الأمريكية 3 فرع علوم السكان ، المعهد القومي للقلب والرئة والدم ، الوطني معاهد الصحة ، بيثيسدا ، ماريلاند ، الولايات المتحدة الأمريكية 4 الحياة العبرية لكبار السن ، كلية الطب بجامعة هارفارد ، بوسطن ، ماساتشوستس ، الولايات المتحدة الأمريكية

حققت العديد من الدراسات في تأثير تعدد الأشكال الفردية على مثيلة الحمض النووي (DNAm) عبر الجينوم. ومع ذلك ، فقد استكشفت طرق قليلة التنظيم المشترك للحمض النووي من خلال تعدد أشكال تعدد الأشكال في موقع واحد من مواقع CpG.

قمنا بتوسيع نموذج هرمي يعتمد على احتمال زائف بايزي مختلط لاقتراح اختبار جديد قائم على CpG (JEM) لتقييم التأثيرات المجمعة لـ SNPs على DNAm. قمنا بتقييم أداء JEM باستخدام البيانات المحاكاة بناءً على ستة مجسات كروموسوم 21. قمنا بأخذ عينات عشوائية لقيم مثيلة حقيقية لـ 2000 فرد من 2639 مشاركًا في دراسة فرامنغهام للقلب (FHS) لكل محاكاة تتكرر لتشكيل 450 عائلة نووية وأنماط وراثية مقلدة تعتمد على 1000 نمط فرداني من الجينوم. قمنا بتقييد تحليلاتنا على تعدد الأشكال الشائعة والمنخفضة التردد واستخدمنا نافذة 10 كيلو بايت لتعيين تعدد الأشكال لتحقيقات. تحت H1، تم اختيار 5٪ من النيوكلوتايد بشكل عشوائي لتكون سببية لكل مسبار. تمت مقارنة أداء حركة العدل والمساواة مع فامسكات. قمنا أيضًا بتطبيق JEM على الجينات الميثيلية المرشحة في عائلات FHS.

كلتا الطريقتين بها أخطاء صحيحة من النوع الأول وقوة عالية إجمالية للسيناريوهات المحاكية. كانت العروض قابلة للمقارنة بالنسبة للتحقيقات التي تحتوي على عدد كبير من SNPs (N≥100) ، لكن JEM تفوقت على famSKAT للتحقيقات مع عدد قليل من SNPs (N & lt30). كان تحيز JEM المقدر منخفضًا (متوسط ​​الخطأ التربيعي = 2.4 × 10 5).

يوفر JEM اختبارًا عالميًا للارتباط ويقدر المساهمة الفردية لكل SNP في DNAm. إنه نهج مرن للسمات الثنائية والكمية التي يمكن أن تتضمن المتغيرات المشتركة وميزات التعليق التوضيحي. يشمل العمل المستقبلي تقييم أداء حركة العدل والمساواة في ظل سيناريوهات مختلفة.

28 يكشف تسلسل الجينوم الكامل على مستوى السكان في مجموعة منعزلة عن أعباء متغيرة نادرة مرتبطة بسمات كمية متعددة

آرثر جيلي 1 ، نيابة عن هيليك محققو 2

1 قسم الوراثة البشرية ، معهد ويلكوم ترست سانجر ، حرم ويلكوم جينوم الجامعي ، هينكستون ، المملكة المتحدة 2 قائمة باحثي HELIC متاحة على https://www.helic.org/team.html

يمكن أن يوفر التسلسل المنخفض العمق والتضمين صورة دقيقة للتنوع المشترك على مستوى الجينوم ، في حين أن التسلسل منخفض العمق على مستوى السكان يمكن أن يزيد من استجواب التباين منخفض التردد. ومع ذلك ، هناك حاجة إلى بيانات أعمق لتسلسل الجينوم الكامل لإبلاغ دراسات الارتباط الجيني بشكل كامل في الطرف النادر من الطيف الأليلي. تقدم المجموعات السكانية المعزولة مكاسب قوة في اكتشاف الارتباطات في المتغيرات النادرة ومنخفضة التردد. هنا ، قمنا بتسلسل 1،457 فردًا بمتوسط ​​عمق 22.6 × من مجموعة معزولة من جزيرة كريت باليونان حيث يتوفر أيضًا تسلسل جينوم كامل منخفض العمق ومنخفض للغاية. قمنا باختبار 13،449،852 SNPs مع عدد أليل طفيف (MAC) و gt10 للارتباط مع 48 سمة كمية ، ونبلغ عن 29 إشارة مستقلة عبر 24 سمة عند مستوى أهمية 5 × 10 8 ، بما في ذلك 6 ارتباطات تم الإبلاغ عنها سابقًا مع سمات الدم والدهون. بالنسبة للنهج القائمة على الجينات ، نقوم باختبار المتغيرات الخارجية والتنظيمية المرتبطة بـ 19025 جينًا لترميز البروتين تم الإبلاغ عنها بواسطة GENCODE V25 (GRCh38). نحن نقيس 12 خط أنابيب مختلفًا باستخدام مناطق اهتمام مختلفة (exonic ، exonic ، تنظيمية وتنظيمية فقط) ، أوزان وفلاتر متغيرة. أبلغنا عن 29 أهمية على مستوى الجينوم (ص& lt1.3 × 10 −7) إشارات عبء متغيرة نادرة لا يقودها SNP واحد ، بما في ذلك المواقع المعروفة ، مثل ADIPOQ لأديبونيكتين (ف = 9.1 × 10 −8 ), APOA1 و APOC3 لـ HDL (ص = 2.12 × 10 20 و 3.96 × 10 20 على التوالي) ، UGT1A10 للبيليروبين (ف = 1.2 × 10 8) وكذلك HBB و HBE1 لصفات الدم المتعددة (ص& lt10 −50). يؤدي تغيير المنطقة محل الاهتمام إلى ظهور إشارات مختلفة ، مما يبرز أهمية إجراء اختبارات عبء الجينوم على نطاق واسع في ظل ظروف متعددة والتي تحتاج إلى إعادة إنتاجها بعناية عند البحث عن تكرار في مجموعات خارجية.

29 طرق شبه معلمة لتقدير علاقة التعرض غير الخطي والنتيجة باستخدام المتغيرات الآلية في التوزيع العشوائي المندلي

جيمس ر ستالي 1،2 ، ستيفن بورغيس 2،3

1 وحدة علم الأوبئة التكاملي بمركز MRC ، كلية الطب الاجتماعي والمجتمعي ، جامعة بريستول ، بريستول ، المملكة المتحدة 2 وحدة وبائيات القلب والأوعية الدموية ، قسم الصحة العامة والرعاية الأولية ، جامعة كامبريدج ، كامبريدج ، المملكة المتحدة 3 وحدة الإحصاء الحيوي في مركز البحوث الطبية ، معهد كامبريدج الصحة العامة ، كامبريدج ، المملكة المتحدة

يمكن للعشوائية المندلية ، استخدام المتغيرات الجينية كمتغيرات مفيدة (IV) ، اختبار وتقدير التأثير السببي للتعرض على النتيجة. تفترض معظم طرق IV لتقدير الارتباط بين التعرض والنتيجة ضمنيًا أن العلاقة خطية. ومع ذلك ، من الناحية العملية ، قد لا يصح هذا الافتراض. في الواقع ، غالبًا ما يكون السؤال الأساسي الذي يثير الاهتمام هو تقييم شكل هذه العلاقة. نقدم طريقتين جديدتين للرابع للتحقيق في شكل علاقة التعرض والنتيجة في البيانات المصاحبة على المستوى الفردي: طريقة متعددة الحدود الكسرية وطريقة خطية متعددة التعريفات. تعتمد هذه الطرق على تقسيم السكان إلى طبقات باستخدام توزيع التعرض ، وتقدير التأثير السببي ، المشار إليه باسم متوسط ​​التأثير السببي المحلي (LACE) ، في كل طبقة من السكان. تقوم طريقة كثير الحدود الكسري بإجراء الانحدار التلوي عبر تقديرات LACE هذه. تقدر الطريقة الخطية متعددة التعريف دالة خطية مستمرة متعددة التعريفات ، يكون تدرجها هو تقدير LACE في كل طبقة. كان أداء كل من نهج النمذجة جيدًا في عمليات المحاكاة ، مما أسفر عن نموذج معقول يناسب مجموعة متنوعة من نماذج توليد البيانات الأساسية. باستخدام هذه الطرق ، حددنا التأثيرات السببية غير الخطية القوية لمؤشر كتلة الجسم على ضغط الدم الانبساطي والانقباضي في البنك الحيوي في المملكة المتحدة. باختصار ، يمكن استخدام هذه الأساليب IV الجديدة للتحقيق في شكل علاقات التعرض والنتيجة في سياق العشوائية المندلية ، وهي متوفرة في حزمة nlmr R (https://github.com/jrs95/nlmr).

30 تحليلاً لتغير رقم النسخ في الورم الميلانيني الجلدي يوضح دوره الوظيفي في تنظيم التعبير الجيني

Feifei Xiao 1 و Xizhi Luo 1 و Jeffrey E. Lee 2 و Qingyi Wei 3 و Guoshuai Cai 4 و Christopher I. Amos 5

1 قسم علم الأوبئة والإحصاء الحيوي ، جامعة ساوث كارولينا ، كولومبيا ، ساوث كارولينا ، الولايات المتحدة الأمريكية 2 قسم جراحة الأورام ، مركز إم دي أندرسون للسرطان بجامعة تكساس ، هيوستن ، تكساس ، الولايات المتحدة الأمريكية 3 قسم الطب ، المدرسة الطب ، جامعة ديوك ، دورهام ، نورث كارولينا ، الولايات المتحدة الأمريكية 4 قسم علم الوراثة ، كلية جيزل للطب في كلية دارتموث ، لبنان ، نيو هامبشاير ، الولايات المتحدة الأمريكية 5 قسم العلوم الطبية الحيوية ، كلية جيزل للطب في كلية دارتموث ، لبنان ، نيو هامبشاير ، الولايات المتحدة الأمريكية

سرطان الجلد (CM) هو أكثر أشكال سرطان الجلد عدوانية ويمثل غالبية الوفيات الناجمة عن سرطان الجلد في جميع أنحاء العالم. حددت دراسات الارتباط على مستوى الجينوم تعدد أشكال حساسية النيوكليوتيدات المفردة من أجل CM ولكن لا يُعرف الكثير عن الدور المحتمل لتغيرات رقم النسخ (CNVs). تعد CNVs مصدرًا مهمًا للاختلاف الجيني وقد تورطت أدوارها المهمة بشكل مباشر في العديد من أنواع السرطان مثل سرطان البنكرياس المتقطع. في هذه الدراسة ، نفترض أن بعض التباين في الورم الميلانيني الجلدي ناتج عن الاختلاف الجيني بوساطة CNVs. أولاً ، قمنا بفحص الإمكانات التنظيمية لأرقام النسخ الشاذة كمحرك لمخاطر CM. نختبر هذا باستخدام بيانات الشدة الوراثية والنمط الظاهري من دراسة حالة وضبط كبيرة مؤلفة من 2830 أمريكيًا أوروبيًا. تم استدعاء CNVs على مستوى الجينوم من خلال طريقة إحصائية تعتمد على نموذج نقطة التغيير لتحديد CNV القائم على الصفيف ، modSaRa. باستخدام اختبار الانهيار المعتمد على الجينات ، اكتشفنا عدد CNVs في العديد من الجينات المتورطة سابقًا في مسارات إصلاح CM أو DNA ، بما في ذلك CELF1, ASXL3, CYP26B1, PLA2G6 و FANCC. ثانيًا ، لتوضيح الإمكانات التنظيمية لأرقام النسخ ، استخدمنا بيانات سرطان الجلد TCGA لفحص أنماط التعبير عن هذه الجينات في أنسجة الورم. عينات الورم مع الحذف في CYP26B1 تم تنظيم الجين بشكل ملحوظ في التعبير الجيني مقارنة مع أولئك الذين لديهم ثنائي الصبغة. على حد سواء PLA2G6 و FANCC عرض التنظيم الأعلى للعينات مع زيادة رقم النسخ والتنظيم السفلي لفقدان رقم النسخ. بالإضافة إلى توفير تحليل شامل للعلاقة بين CNVs و CM في هذه الفئة من السكان ، توفر دراستنا مصدرًا فريدًا للمعلومات حول الأدوار الوظيفية الهامة للتنوعات في النسخ في مسببات السرطان من خلال تنظيم التعبير الجيني.

31 تأثير جينات تطور الرئة على وظيفة الرئة عند البالغين: تطبيق نموذج بايزي على بيانات البنك الحيوي في المملكة المتحدة

ميغيل بيريرا 1 ، جون آر تومسون 2 ، بيتر جي بورني 1 ، كوسيتا مينيلي 1

1 المعهد الوطني للقلب والرئة ، إمبريال كوليدج لندن ، لندن ، المملكة المتحدة 2 قسم العلوم الصحية ، جامعة ليستر ، ليستر ، المملكة المتحدة

تم ربط وظيفة الرئة المنخفضة ، التي تم قياسها بواسطة السعة الحيوية القسرية (FVC) ونسبة حجم الزفير القسري في ثانية واحدة (FEV1) على FVC ، بزيادة خطر الوفاة لدى البالغين.اقترحت الدراسات الوبائية دور العوامل المبكرة في الحياة كمحددات لوظيفة الرئة في مرحلة البلوغ ، وقد أفادت الدراسات الأسرية عن توريث 40٪ لوظيفة الرئة. ومع ذلك ، فإن النتائج الحالية من GWAS تمثل 6.4٪ و 14.3٪ من التوريث المتوقع لـ FVC و FEV1 / FVC ، على التوالي.

لتحسين القدرة الإحصائية لاكتشاف المتغيرات الجديدة ، نركز على مجموعة من 403 جينات تشارك في نمو الرئة. نطبق طريقة Bayesian التي طورناها سابقًا والتي تدمج المعلومات البيولوجية الخارجية في تحليل SNP مشترك ويتم تنفيذها كأداة BioShrink ، وهي أداة تستند إلى R Shiny.

تم تطبيق الطريقة على بيانات البنك الحيوي في المملكة المتحدة على 112،277 مشاركًا و 177،880 SNPs. تم إجراء تحليل الارتباط القياسي للحصول على أعلى الإشارات بناءً على الأقل P-تم إجراء القيمة وتحليل SNP المشترك Bayesian إلى أعلى 20000 SNPs بعد استرداد المعلومات البيولوجية.

حددت النتائج الأولية 26 منطقة مستقلة في 28 جينًا لتطور الرئة مرتبطة بـ FVC مع a P-القيمة & lt10 −6 ، مع 14 منطقة في 10 جينات مع a P-القيمة & lt5 × 10 −8. بالنسبة إلى FEV1 / FVC ، وجدنا 45 منطقة مستقلة في 34 جينًا بامتداد P-القيمة & lt10 −6 ، مع 16 منطقة في 19 جينًا مع أ P-القيمة & لتر 5 × 10 −8.

حاليًا ، نقوم بتكرار الإشارات التي تم تحديدها باستخدام طريقة Bayesian في 20.000 موضوع من ثلاث مجموعات مستقلة ودمج النتائج مع تحليل SNP القياسي.

32 تحليل رابطة تسلسل الجينوم الكامل لمرض السكري من النوع 2 وخصائص نسبة السكر في الدم في Trans-omics للطب الدقيق (TOPMed)

جينيفر ويسل 1 ، جينيفر برودي 2 ، بيرثا هيدالغو 3 ، أليسا مانينغ 4،5 ، نيابة عن مجموعة عمل مرض السكري عبر برنامج Trans-Omics للطب الدقيق (TOPMed)

1 قسم الوبائيات والطب ، جامعة إنديانا ، إنديانابوليس ، إنديانا ، الولايات المتحدة الأمريكية 2 قسم الطب ، جامعة واشنطن ، سياتل ، واشنطن ، الولايات المتحدة الأمريكية 3 قسم علم الأوبئة ، جامعة ألاباما في برمنغهام ، برمنغهام ، ألاباما ، الولايات المتحدة الأمريكية 4 قسم الطب ، جامعة هارفارد ، بوسطن ، ماساتشوستس ، الولايات المتحدة الأمريكية 5 وحدة علم الأوبئة السريرية والتحويلية ، مستشفى ماساتشوستس العام ، بوسطن ، ماساتشوستس ، الولايات المتحدة الأمريكية

تكمن غالبية المتغيرات الجينية المرتبطة بشكل كبير بمرض السكري من النوع 2 (T2D) وسمات نسبة السكر في الدم في الجينوم غير المشفر ، مع وجود العديد من المتغيرات السببية التي لا تزال غير معروفة. لقد استفدنا من بيانات المرحلة الأولى من تسلسل الجينوم الكامل (WGS) من TOPMed لإجراء تحليل مجمع (1) رابطة T2D WGS (WGSA) و (2) التحليل التلوي والمجمع للجلوكوز الصائم (FG). تضمنت تحليلات WGSA عينات ذات تغطية تسلسلية عميقة (& gt30 ×) في 5 مجموعات ، وثلاثة من أصول أوروبية: دراسة فرامنغهام للقلب (NFG = 3209 ، نT2D = 4007) دراسات الأميش النظام القديم ، نFG = 980 دراسة عائلة كليفلاند (CFS، NFG = 197 ، نT2D = 357) ، واثنين من الأمريكيين من أصل أفريقي: دراسة جاكسون للقلب (N.FG = 2487 ، نT2D = 3343) ، CFS (NFG = 248 ، نT2D = 332). استخدمنا نماذج التأثيرات المختلطة التي تتكيف مع الجنس والعمر والقرابة التجريبية و / أو المكونات الرئيسية للتكيف مع الترابط والبنية السكانية. في التحليلات متعددة الأعراق ، ارتباطات متغيرة شائعة (تردد أليل ثانوي [MAF] و GT0.05) (ص تم تحديد القيمة & lt5E − 8) في مواقع معروفة باستخدام T2D: TCF7L2 (rs7903146 ​​، P-القيمة = 2.5E − 11 و 7 متغيرات إضافية) ومع FG: MTNR1B (rs10830963 ، P-القيمة = 2.5E − 16 rs12792753 ، P-القيمة = 1.4E-8) ، GCK (rs4607517 ، P-القيمة = 1.16E − 10 ، و 13 متغيرًا إضافيًا) ، و G6PC2 (rs560887 ، P-القيمة = 5.4E − 10). تضمنت الارتباطات الإضافية مع T2D 12 متغيرًا نادرًا (MAF & lt.01) في ستة مواقع لم يتم وصفها مسبقًا بما في ذلك rs778917988 بين الجينات (MAF = 0.0003 ، P-القيمة = 2.0E − 8) قريب SESN3، وهو جين معروف لتوازن الجلوكوز. تشير النتائج الأولية إلى أن WGSA متعدد الأجداد يمكنه اكتشاف مواقع جديدة للسمات المعقدة. العمل مستمر لتحسين التعليقات التوضيحية للاختبارات القائمة على الجينات ، وإجراء رسم الخرائط بدقة ، والتوسع في بيانات المرحلتين 2 و 3 (العدد = 87724).


المواد والأساليب

المواد النباتية وظروف النمو

لوحة الرابطة

تم إجراء التجارب الميدانية للوحة الارتباط باستخدام قصاصات 20 سم من 112 مدخلًا من S. بوربوريا تم زرعها يدويًا في ثلاثة مواقع تجريبية (جدول البيانات التكميلي S1): Cornell AgriTech في جنيف ، نيويورك ، الولايات المتحدة الأمريكية ، مختبر ليك إيري للبحوث والإرشاد بجامعة كورنيل (CLEREL) في بورتلاند ، نيويورك ، الولايات المتحدة الأمريكية ، ومزرعة جامعة ويست فيرجينيا الزراعية في مورغانتاون ، WV ، الولايات المتحدة الأمريكية. زرعت التجارب في تصميم القطاعات الكاملة العشوائية بستة مكررات من أربع قطع نباتية في كل موقع في تباعد صف واحد مع 1.82 مترًا بين الصفوف و 0.4 مترًا بين النباتات داخل الصفوف. في نهاية سنة التأسيس ، تم تقسيم جميع النباتات وتم قياس التجارب لمجموعة من سمات الكتلة الحيوية ، والهندسة المعمارية ، وعلم الفينولوجيا ، وعلم وظائف الأعضاء ، والتكوين وخصائص علم الأمراض (الجدول 1) باستخدام نباتين داخليين لكل قطعة أرض من أربع نباتات في جميع المواقع في عامي 2013 و 2014 ، ثم تم حصادها ميكانيكيًا ووزنها في عام 2015. قبل إعادة النمو للدورة الثانية في عام 2015 ، تم استخدام 112 كجم هكتار من سماد NPK على نصف التكرارات في كل موقع لاختبار استخدام النيتروجين.

جمعت السمات واختصاراتها ووحداتها

سمة . اختصار . الوحدات.
الكتلة الحيوية
ارتفاع المؤامرة HT م
قطر الجذع DIA مم
عدد الجذع لا ن
منطقة الجذع SA سم 2
حجم الجذع المجلد سم 3
الكتلة الجذعية (الحجم × الكثافة) DVOL ز
طول باطن الساق INL سم
غلة الأرض YLD جاف مغ هكتار −1
ورقي
منطقة الورقة LFA سم 2
طول الورقة LFL سم
عرض الورقة LFW سم
محيط الورقة LFP سم
عامل شكل الورقة LFF
نسبة أبعاد الورقة LFR
وزن الورقة الجافة LFDW ز
منطقة ورقة محددة جيش تحرير السودان سم 2 جم -1
هندسة معمارية
قطر التاج CDIA سم
شكل التاج شكل درجات °
التركيب الكيميائي
هيميسيلولوز HCL %
السليلوز CLS %
اللجنين LIG %
رماد رماد %
كثافة الخشب عرين ز سم −3
علم الفينولوجيا
الفينولوجيا الخضرية VPHE تاريخ
فينولوجيا الأزهار FPHE تاريخ
الجنس الفردي الجنس (F ، M ، H)
علم وظائف الأعضاء
سباد (أغسطس) SPAD1 وحدات سباد
سباد (سبتمبر) SPAD2 وحدات سباد
المرور المسامي COND مليمول م −2 ث −1
لون الجذع شركة الاتصالات السعودية (0, 1, 2)
علم الأمراض
شدة الصدأ الصدأ %
سمة . اختصار . الوحدات.
الكتلة الحيوية
ارتفاع المؤامرة HT م
قطر الجذع DIA مم
عدد الجذع لا ن
منطقة الجذع SA سم 2
حجم الجذع المجلد سم 3
الكتلة الجذعية (الحجم × الكثافة) DVOL ز
طول الجذع الداخلي INL سم
غلة الأرض YLD جاف مغ هكتار −1
ورقي
منطقة الورقة LFA سم 2
طول الورقة LFL سم
عرض الورقة LFW سم
محيط الورقة LFP سم
عامل شكل الورقة LFF
نسبة أبعاد الورقة LFR
وزن الورقة الجافة LFDW ز
منطقة ورقة محددة جيش تحرير السودان سم 2 جم -1
هندسة معمارية
قطر التاج CDIA سم
شكل التاج شكل درجات °
التركيب الكيميائي
هيميسيلولوز HCL %
السليلوز CLS %
اللجنين LIG %
رماد رماد %
كثافة الخشب عرين ز سم −3
علم الفينولوجيا
الفينولوجيا الخضرية VPHE تاريخ
فينولوجيا الأزهار FPHE تاريخ
الجنس الفردي الجنس (F ، M ، H)
علم وظائف الأعضاء
سباد (أغسطس) سباد 1 وحدات سباد
سباد (سبتمبر) SPAD2 وحدات سباد
المرور المسامي COND مليمول م −2 ث −1
لون الجذع شركة الاتصالات السعودية (0, 1, 2)
علم الأمراض
شدة الصدأ الصدأ %

جمعت السمات واختصاراتها ووحداتها

سمة . اختصار . الوحدات.
الكتلة الحيوية
ارتفاع المؤامرة HT م
قطر الجذع DIA مم
عدد الجذع لا ن
منطقة الجذع SA سم 2
حجم الجذع المجلد سم 3
الكتلة الجذعية (الحجم × الكثافة) DVOL ز
طول الجذع الداخلي INL سم
غلة الأرض YLD جاف مغ هكتار −1
ورقي
منطقة الورقة LFA سم 2
طول الورقة LFL سم
عرض الورقة LFW سم
محيط الورقة LFP سم
عامل شكل الورقة LFF
نسبة أبعاد الورقة LFR
وزن الورقة الجافة LFDW ز
منطقة ورقة محددة جيش تحرير السودان سم 2 جم -1
هندسة معمارية
قطر التاج CDIA سم
شكل التاج شكل درجات °
التركيب الكيميائي
هيميسيلولوز HCL %
السليلوز CLS %
اللجنين LIG %
رماد رماد %
كثافة الخشب عرين ز سم −3
علم الفينولوجيا
الفينولوجيا الخضرية VPHE تاريخ
فينولوجيا الأزهار FPHE تاريخ
الجنس الفردي الجنس (F ، M ، H)
علم وظائف الأعضاء
سباد (أغسطس) سباد 1 وحدات سباد
سباد (سبتمبر) SPAD2 وحدات سباد
المرور المسامي COND مليمول م −2 ث −1
لون الجذع شركة الاتصالات السعودية (0, 1, 2)
علم الأمراض
شدة الصدأ الصدأ %
سمة . اختصار . الوحدات.
الكتلة الحيوية
ارتفاع المؤامرة HT م
قطر الجذع DIA مم
رقم الجذع لا ن
منطقة الجذع SA سم 2
حجم الجذع المجلد سم 3
الكتلة الجذعية (الحجم × الكثافة) DVOL ز
طول الجذع الداخلي INL سم
غلة الأرض YLD جاف مغ هكتار −1
ورقي
منطقة الورقة LFA سم 2
طول الورقة LFL سم
عرض الورقة LFW سم
محيط الورقة LFP سم
عامل شكل الورقة LFF
نسبة أبعاد الورقة LFR
وزن الورقة الجافة LFDW ز
منطقة ورقة محددة جيش تحرير السودان سم 2 جم -1
هندسة معمارية
قطر التاج CDIA سم
شكل التاج شكل درجات °
التركيب الكيميائي
هيميسيلولوز HCL %
السليلوز CLS %
اللجنين LIG %
رماد رماد %
كثافة الخشب عرين ز سم −3
علم الفينولوجيا
الفينولوجيا الخضرية VPHE تاريخ
فينولوجيا الأزهار FPHE تاريخ
الجنس الفردي الجنس (F ، M ، H)
علم وظائف الأعضاء
سباد (أغسطس) SPAD1 وحدات سباد
سباد (سبتمبر) SPAD2 وحدات سباد
المرور المسامي COND مليمول م −2 ث −1
لون الجذع شركة الاتصالات السعودية (0, 1, 2)
علم الأمراض
شدة الصدأ الصدأ %

F2 أسرة

A كامل الأشقاء F1 الأسرة (الأسرة 82) ولدت من تهجين بين الإناث S. بوربوريا 94006 وذكور S. بوربوريا 94001 ، كلاهما جمعت من المتجنس S. بوربوريا في شمال ولاية نيويورك. اثنان F1 ذرية من هذا الصليب أنثى S. بوربوريا "Wolcott" (استنساخ 9882-41) وذكر S. بوربوريا "فيش كريك" (استنساخ 9882-34) ، تم عبورها لتوليد F-sib داخل النوع الكامل2S. بوربوريا الأسرة (الأسرة 317). تم زرع جميع ذرية الأفراد وأولياء أمورهم في أحواض الحضانة في Cornell AgriTech. في عام 2014 ، سوط خامدة من 497 فهرنهايت2S. بوربوريا ذرية الأفراد والآباء والأجداد من F2 تم جمع النسب من أحواض الحضانة الخاصة بهم ، وتخزينها في درجة حرارة -4 درجة مئوية قبل الزراعة في الربيع. تجربة ميدانية مع F2 تم إنشاء النسل والآباء والأجداد في Cornell AgriTech في تصميم كتل كاملة عشوائية مع أربع كتل مكررة من قطع ثلاث نباتات. لتجنب آثار الحافة ، S. بوربوريا تم زرع الأنماط الجينية 'Fish Creek' و 94006 كصفوف حدودية على طول الجانبين الشرقي والغربي من التجربة ، على التوالي ، وتم تخزين النهايتين الشمالية والجنوبية بواسطة صف واحد من النمط الجيني 94006. كان الصفوف 1.82 م. التربة في موقع الحقل عبارة عن طمي أوديسا بعمق يصل إلى 25-45 سم. للحصول على خصائص إضافية للموقع ، انظر سيرابيجليا وآخرون. (2014).

عزل الحمض النووي وتسلسله

باختصار ، تم جمع الأنسجة لاستخراج الحمض النووي من الأوراق الصغيرة وأطراف النبتة ، وتم تجميدها في النيتروجين السائل ، ثم طحنها إلى مسحوق ناعم باستخدام Geno / Grinder ® (SPEX SamplePrep ، Metuchen ، NJ ، الولايات المتحدة الأمريكية) ، والحمض النووي الجيني المستخرج باستخدام مجموعة DNeasy ® Plant Mini Kit (QIAGEN Inc. ، فالنسيا ، كاليفورنيا ، الولايات المتحدة الأمريكية). تم فحص جودة الحمض النووي بواسطة الرحلان الكهربائي لجيل الاغاروز وتم تقدير الكمية باستخدام مقياس الطيف الضوئي NanoDrop ND-1000 (Thermo Scientific ، Wilmington ، DE ، الولايات المتحدة الأمريكية). اعتمد إعداد المكتبة والتسلسل على 48-plex (لوحة الارتباط) أو 96-plex (F.2 الأسرة 317) بروتوكول التنميط الجيني بالتسلسل (GBS) وفقًا لإلشاير وآخرون. (2011). قردKI بمثابة إنزيم تقييد للوحة الارتباط ، في حين أن كليهما قردKI و سابقة بمعنى البيئةتم استخدام إنزيمات تقييد T22I لـ F.2 أسرة. تم ترتيب المكتبات الناتجة على منصة Illumina HiSeq 2000 (Illumina ، Inc. ، سان دييغو ، كاليفورنيا ، الولايات المتحدة الأمريكية) في مركز موارد التكنولوجيا الحيوية بجامعة كورنيل (إيثاكا ، نيويورك ، الولايات المتحدة الأمريكية).

قراءة الخرائط واكتشاف المتغيرات

تم إجراء اكتشاف المتغير والتصفية باستخدام خط أنابيب TASSEL v3 GBS Discovery (Bradbury وآخرون.، 2007) ، جنبًا إلى جنب مع نصوص Perl و R المخصصة (متوفرة على الإنترنت على: https://github.com/Willowpedia). تم قطع القراءات الأولية من ملفات FASTQ إلى 64 نقطة أساس وتمت معالجتها لإنشاء مجموعة من علامات التسلسل الفريدة (min.cov = 5 ، ن = 4550690). النمط الجيني الأنثوي ثنائي الصيغة الصبغية من S. بوربوريا (استنساخ 94006) تم جمعه من ضفاف نهر فيش كريك في شمال ولاية نيويورك في عام 1994 (43.2168 شمالاً ، 75.6333 غربًا) تم استخدامه باعتباره الجينوم المرجعي لمحاذاة القراءة والاكتشاف المتغير (ساليكس بوربوريا الإصدار 1.0 ، DOE-JGI ، http://phytozome.jgi.doe.gov/pz/portal.html#!info؟alias=Org_Spurpurea). تم استدعاء الأنماط الجينية عبر المحاذاة المادية لتجميع الجينوم المرجعي باستخدام BWA ميم (Li and Durbin، 2009) ، باستخدام المعلمات الافتراضية. تم إنتاج المواضع المادية لعلامات UNEAK بواسطة استعلام BLASTN محلي لـ قردKI و سابقة بمعنى البيئةعلامات T22I لمرجع الجينوم. بالنسبة إلى لوحة الارتباط ، تم الاحتفاظ بـ SNPs في الأفراد بمعدل استدعاء & lt90٪ ، تردد أليل ثانوي (MAF) & lt0.05 وأقصى نسبة 50٪ من البيانات المفقودة ، والتي قدمت مجموعة من 103180 تعدد الأشكال عالي الجودة. تم إجراء احتساب العلامة باستخدام نهج LD – kNNi (kNN = 5 ، مواقع LD = 20 ، نافذة LD = 10 ميجا بايت) ، الموضحة في Money وآخرون. (2015). تم تقييم دقة الاقتراض من خلال إخفاء المتغيرات عالية الثقة (mapq & gt30 ، cov & gt10) على مجموعة البيانات الأصلية في TASSEL v5 للحصول على مقاييس الدقة. بالنسبة إلى F2 أنتجت أساليب رسم الخرائط العائلية والمرجعية وغير المرجعية (UNEAK) تقريبًا. 300000 وحوالي. 12000 SNPs ، على التوالي. بشكل عام ، فإن الإنزيم سابقة بمعنى البيئةأعطى T22I متوسط ​​عمق تغطية أفضل (حوالي 11 ×) ولكن أقل من تعدد الأشكال ، بينما قردأعطت KI ما يقرب من خمسة أضعاف عدد SNPs سابقة بمعنى البيئةT22I ، ولديها عدد أقل من البيانات المفقودة بشكل عام.

الربط اختلال التوازن

لتقييم دقة العلامة المتوقعة خلال GWAS ، LD (ص 2) لجميع أزواج SNPs بعد التضمين في حدود 5 كيلو بايت باستخدام PopLDdecay v3.3 (https://github.com/BGI-sh Shenzhen/PopLDdecay). تم تضمين العلامات ذات قيم MAF و gt0.05 فقط والتي تحتوي على & lt25٪ بيانات مفقودة بين مجموعة العينات لتحليلات LD. الحد الأقصى لقيمة ص تم حساب 2 بناءً على أزواج SNP في حدود 1 كيلو بايت ، وتم رسم منحنى انحلال LD بناءً على ص تم تركيب الشكل 2 والمسافة بين أزواج SNPs ومنحنى الانحدار غير الخطي.

ربط خريطة البناء

استند ترميز العلامات على عمليات GBS المتعددة للأجداد المرجعية وأولياء أمور F2 أسرة. تم النظر فقط في المواقع ثنائية الأليلات والتي لا لبس فيها في كلا الأجداد. أي علامات تنحرف عن توازن هاردي واينبرغ (ص & lt1 × 10 –3) والأفراد الذين لديهم بيانات مفقودة بشكل مفرط أو نسب نمط وراثي منحرف تمت إزالتها قبل إنشاء الخريطة في R / qtl (Broman وآخرون.، 2003). نظرًا لأن GBS لديه ميل عام لاستدعاء المواقع غير المتجانسة في الأنواع المتقاطعة ، مثل الصفصاف ، فإن علامات GBS تم تحديدها على الأقل كروموسوم واحد في كل مرة مع نسب وتصحيح الخطأ باستخدام دالات "rightUnderCalledHets" و "rightStretches’0 (maxHapLength = 3) في ABHgenotypeR ، كما هو موضح في Furuta وآخرون. (2017). تم تقسيم العلامات وترتيبها في مجموعات ربط باستخدام نهج الشجرة الممتدة الأدنى باستخدام MSTmap (Y. Wu وآخرون.، 2008) في ASMap (Taylor and Butler ، 2017) ، مع المعلمات: pop.type = RIL2 ، dist.fun = kosambi ، ص-value = 1 × 10 –12 ، miss.thresh = 0.15 ، noMap.dist = 15 ، noMap.size = 5 ، و detadData = true. كانت النسب المئوية للنمط الجيني المتبادل النهائي 25.7 ، 48.7 و 25.6٪ ​​، لـ AA (94006/94006) ، AB (94006/94001) و BB (94001/94001) ، على التوالي. تتألف خريطة الربط النهائية من 6045 علامة و 26 مجموعة ربط ، تمثل جميع الكروموسومات أحادية العدد الـ 19 من S. بوربوريا. تراوحت مجموعات الربط من 11 سم (LG 7B) إلى 369 سم (LG 2) ، بطول إجمالي للخريطة يبلغ 3465 سم ومتوسط ​​كثافة علامة 1.7 سم (جدول البيانات التكميلية S2). تم تعيين عدد من علامات GBS المدمجة في خريطة الربط الرئيسية إلى إجمالي 155 سقالة مادية غير موضوعة في S. بوربوريا v1.0 تجميع الجينوم المرجعي.

التنميط الظاهري

الكتلة الحيوية

خلال فترة السكون بعد كل موسم نمو ، تم قياس أقطار (DIA ، سم) من السيقان ≥5 مم عند 30 سم من قاعدة النبات باستخدام فرجار رقمي Masser Racal 500 ، وتم حساب رقم الساق لكل نبات (Masser ، Rovaniemi ، فنلندا). تم حساب إجمالي مساحة الساق (SA ، سم 2) لكل نبات باستخدام قيم قطر الساق. تم تسجيل أقصى ارتفاع للساق (HT ، م) لكل قطعة أرض باستخدام قضيب قياس (Crain Enterprises، Inc.، Mound City، IL، USA). في يوليو من كل عام ، تم قياس الطول الداخلي (INLEN ، سم) في الثلث الأوسط من أطول ساق لكل قطعة ، وتم تسجيل أطوال خمسة أقواس داخلية. نظرًا لأنماط نباتية مختلفة ، تم حساب الأوراق البديلة باستخدام خمسة براعم أو أوراق بديلة من البرعم / الورقة المعينة الأولى ، بينما تم حساب الأوراق أو البراعم المعاكسة كعقدة واحدة.

محصول كل قطعة في التجارب الثلاث تحتوي على متنوع S. بوربوريا تم قياس المجموعة بعد السنة الثانية من مرحلة ما بعد الحصاد عن طريق حصاد ووزن جميع النباتات الأربعة في كل قطعة أرض باستخدام حصادة Ny Vraa JF192 (Ny Vraa Bioenergy ، Tylstrup ، الدنمارك). تم جمع الرقائق في حاوية بلاستيكية مثبتة على خلايا وزن Avery Weigh-Tronix (فيرمونت ، مينيسوتا ، الولايات المتحدة الأمريكية) ، وتم تسجيل إجمالي الوزن الرطب للكتلة الحيوية للرقاقة لكل قطعة. تم جمع عينة فرعية من الكتلة الحيوية للرقائق الطازجة (حوالي 1 كجم) لكل قطعة ، وتم وزنها بعد الحصاد ، وتجفيفها بالفرن عند 65 درجة مئوية إلى وزن ثابت ، وتم تسجيل الوزن الجاف لتحديد محتوى الرطوبة عند الحصاد. ثم تم استخدام المحتوى الرطوبي لتقدير أوزان الأرض الجافة من الأوزان الطازجة المقاسة.بالنسبة لجميع قطع الأراضي ، تم حساب محصول الكتلة الحيوية الجافة والتعبير عنه في Mg ha الجاف بناءً على مساحة قطعة الأرض.

هندسة معمارية

في نهاية موسم النمو الثاني ، تم قياس قطر التاج (CDIA ، سم) باستخدام فرجار غابات Haglöf Mantax المعدلة (Haglöf Sweden AB ، Långsele ، السويد). تم قياس أقطار البراز عند 15.24 سم (6 بوصات) فوق التربة ، وهو متوسط ​​ارتفاع شجيرة الصفصاف. تم حساب شكل التاج (FORM ، درجات °) بضرب قوس ظل الزاوية 2 لنصف CDIA والمسافة الثابتة التي تم قياس CDIA عندها (15.24 سم) في 180 /π، للحصول على زاوية تفرع الجذع بالنسبة للتربة.

ورقي

تم قياس مساحة الورقة (LFA ، سم 2) ، الطول (LFL ، سم) ، العرض (LFW ، سم) والمحيط (LFP ، سم) على الأوراق الناضجة عند مستوى منتصف المظلة على أطول ساق لكل نبات لكل قطعة باستخدام مقياس مساحة ورقة الليزر CID CI-203 (CID Bio-Science ، Inc. ، Camas ، WA ، الولايات المتحدة الأمريكية). تم جمع أوراق القياس نفسها وتجفيفها عند 65 درجة مئوية ووزنها. تم استخدام مساحة الورقة والوزن الجاف (LFDW ، g) لحساب مساحة الورقة المحددة (SLA) (سم 2 جم 1 يوم بالوزن). نسبة أبعاد الورقة (LFR) هي نسبة LFL إلى LFW ، وعامل شكل الورقة (LFF) هو نسبة LFA إلى LFP ، ولكن تم تصحيحه ، بحيث يكون LFF لدائرة يساوي واحدًا: 4π × LFA / LFP 2.

التركيب الكيميائي للخشب

تم قياس الخواص الفيزيائية والكيميائية للخشب لأربعة مكررات في كل من التجارب الثلاث مع المتنوعات S. بوربوريا مجموعة. تم جمع عينات مقطع الساق في فترة السكون بعد كل موسم نمو باستخدام طرق أخذ العينات الموصوفة سابقًا (Liu وآخرون.، 2015) وتم تخزينها مجمدة عند 4 درجة مئوية حتى تتم معالجتها. تم قياس الثقل النوعي لكل عينة عن طريق الإزاحة الحجمية (TST om-06 ، 2006). في عام 2014 ، تم استخدام طريقة معدلة لقياس الثقل النوعي حيث تم وزن حجم الماء المزاح لمزيد من الدقة. بعد تحديد الثقل النوعي ، تم تجفيف الأجزاء الجذعية بالفرن عند 65 درجة مئوية إلى وزن ثابت ثم طحنها إلى حجم جسيم 5 مم باستخدام مطحنة القطع Retch SM300 (Retch ، Haa ، ألمانيا) وتم طحنها أيضًا إلى & lt0.5 حجم الجسيمات مم عن طريق الطحن الدقيق باستخدام مطحنة السكين IKA MF 10.1 (IKA ، Wilmington ، NC ، الولايات المتحدة الأمريكية) لتحليل التركيب. تم تحليل ما يقرب من 20 مجم من كل عينة جذعية مطحونة باستخدام أداة التحليل الحراري الوزني (TGA) Q500 وبرنامج Universal Analysis 2000 الإصدار 4.5A (TA Instruments ، New Castle ، DE ، الولايات المتحدة الأمريكية) ، كما هو موضح سابقًا (Serapiglia وآخرون.، 2009). تم تحديد محتوى الهيميسليلوز والسليلوز واللجنين والرماد كنسبة مئوية من إجمالي الكتلة الحيوية الجافة لكل عينة ، كما هو موضح سابقًا في سيرابيجليا وآخرون. (2014).

علم وظائف الأعضاء

تم قياس التوصيل الثغري (COND، mmol m 2 s 1) على الجانب المحوري للورقة باستخدام مقياس بورق الأوراق (SC-1 Leaf Porometer ، Decagon ، Pullman ، WA ، الولايات المتحدة الأمريكية) على أعلى ورقة ممتدة بالكامل لأطولها جذع النبات. تم قياس وكيل غير مدمر لحالة نيتروجين الأوراق بمقياس الكلوروفيل المحمول (SPAD-502 ، Minolta Osaka Co. انخفاض مستويات المظلة ومتوسط ​​لكل قطعة أرض. تم تسجيل لون الساق (STC-0) على نمو سنة التأسيس باستخدام مقياس نوعي (0 = أخضر بالكامل ، 1 = متوسط ​​، 2 = أحمر تمامًا).

علم الفينولوجيا

لوحظ كسر برعم الأزهار (FPHE) والنباتي (VPHE) وسجل باستخدام مقياس 0-5 فقط في السنة الثانية من النمو بسبب تناثر البراعم الزهرية في السنة الأولى. تم تعديل المقياس المستخدم لتصنيفات الفينولوجيا من Saska و Kuzovkina (2010). تم مسح كل من FPHE و VPHE مرة واحدة في الأسبوع لمدة 5 أسابيع وتم تسجيلهما على أنه يوم من العام بالنسبة إلى تصنيف معين تمت ملاحظته. استمرت جميع الملاحظات حتى تم تسجيل جميع درجات المرحلة الخامسة لكل نمط وراثي. لجميع التجارب ، تم تسجيل جنس كل نمط وراثي. في حين أن الفينولوجيا الزهرية ومورفولوجيا S. بوربوريا تعتبر الكاتكينز ثنائية الشكل جنسياً بشكل موثوق ، وقد تم اكتشاف أن ثلاثة مُدخلات في لوحة الارتباط (94003 و 00-22-002 و 06-01-003) تعرض بشكل روتيني نسبًا مختلطة من الأزهار الأنثوية والذكور على طول أزهار كاتكين متطابقة. لم يتم ملاحظة الزهور المثالية بدلاً من ذلك ، تم خلط أزهار الذكور والإناث داخل القطط. غالبًا ما تتفاوت النسب بين القطط ، والتي كانت في الأساس أنثى في القاعدة القريبة والذكر عند الطرف البعيد. هنا ، تعتبر المدخلات المذكورة أعلاه خنثى.

علم الأمراض

صدأ أوراق الصفصاف في سبتمبر 2015 (ميلامبسورا spp.) بصريًا في اثنتين (جنيف و WVU) من تجارب الجمعيات الثلاثة ، في حين تم تسجيل جميع التجارب الثلاث في سبتمبر 2017. تم تسجيل صدأ أوراق الصفصاف لكل من 2015 و 2017 لـ F2 التجربة. تم تسجيل النسبة المئوية لشدة الصدأ (RUST ،٪) بصريًا لكل قطعة أرض بناءً على إجمالي مساحة الورقة المصابة. في عام 2017 ، تم تحديد الحد الأقصى من درجات RUST في مجتمع الجمعيات بنسبة 50٪ بسبب تساقط الأوراق المرتبط بالأمراض للشجيرات المصابة بشدة. تم الانتهاء من تصنيفات المرض في غضون فترة زمنية ذات صلة بيولوجيا داخل وبين التجارب الميدانية.

النماذج الإحصائية والتحليل

تم إجراء جميع التحليلات الإحصائية في بيئة الحوسبة الإحصائية مفتوحة المصدر ، R الإصدار 3.4.2 (R Core Team ، 2017). تم تقدير مكونات التباين باستخدام REML مع "lmer" في حزمة R ، lme4 (Bates وآخرون.، 2015) ، باستخدام النموذج الخطي المختلط:

أين ميكرومتر هل يعني السكان ، زأنا هو تأثير النمط الجيني ، ρي هو تأثير الكتلة ، ρ(γ)كيه هو تأثير الكتلة داخل البيئة ، و εijk هو المتبقي العشوائي.

اتباع النهج المبين في فيلازكو وآخرون. (2017) ، الاتجاهات المكانية (الصفوف والعمود) في F2 تمت نمذجة التجربة الميدانية على أنها خطوط ثنائية الأبعاد (P) ، باستخدام المشاجرات و العصارة دالات [n.seg = (16، 64)، نسبة التفاوت = 1 × 10 −6] في حزمة SpATS (Rodríguez-Álvarez وآخرون., 2015, , 2018).

قبل رسم الخرائط الجينية ، تم إجراء اختبار Shapiro-Wilks (Shapiro and Wilk ، 1965) للحالة الطبيعية على كل سمة كمية (تنبؤات النمط الجيني من النموذج أعلاه) باستخدام "shapiro.test" في توزيعات R. (ص & lt0.05) تم تحويل Box-Cox (Box and Cox ، 1964) باستخدام معاملات التحويل المناسبة ، lambda (λ) وجاما (γ) ، المقدرة بوظيفة "powerTransform" في حزمة السيارة (Fox and Weisberg ، 2011). للردود الإيجابية ، تم استخدام طريقة bcPower ، وبالنسبة لأولئك الذين يتضمنون الاستجابات السلبية ، تم استخدام طريقة bcnPower ذات المعلمتين.

تم تقييم الاستنساخ في لوحة الارتباط من خلال حساب الهوية حسب الحالة (IBS) بين كل زوج من الأفراد. لم تُبذل أي جهود لدمج علامات الإدخالات النسيليّة في إجماع بدلاً من ذلك ، بالنسبة لأولئك الذين يتجاوزون عتبة 0.95 ، تم الاحتفاظ بالفرد الذي لديه أقل بيانات علامة مفقودة.

رسم الخرائط الرابطة

تم استخدام أفضل المتنبئات الخطية غير المنحازة (BLUPs) من النموذج الجيني اللاحق في GWAS وتم حسابها في lme4 باستخدام "lmer" (Bates وآخرون.، 2015). من أجل التحكم في التأثيرات المربكة وتحسين القدرة الإحصائية مع تقليل حدوث تضخم ص- القيم ، تم إجراء GWAS باستخدام خوارزمية اختيار النموذج ، والنموذج الثابت والعشوائي ، تعميم توحيد الاحتمالات (FarmCPU) (Liu وآخرون.، 2016) ، والذي يأخذ في الاعتبار المشكلة المربكة بين المتغيرات المشتركة وعلامة الاختبار باستخدام كل من نموذج التأثير الثابت (FEM) ونموذج التأثير العشوائي (REM). بالإضافة إلى ذلك ، تم حساب المكونات الثلاثة الرئيسية الأولى باستخدام GAPIT (Lipka وآخرون.، 2012) كمتغيرات مشتركة للتحكم في التركيبة السكانية. تم اختبار ثلاثة نماذج بشكل متزامن في حزمة FarmCPU و GLM و MLM و FarmCPU. الافتراضي ص- عتبة القيمة المحددة في FarmCPU تستخدم عتبة Bonferroni المصححة (α = 0.01). ومع ذلك ، فإن عتبة الاختبار المتعددة المصححة من Bonferroni تكون صارمة للغاية عندما يكون LD بين علامات النمط الجيني كبيرًا ، لذلك تم حساب العتبة باستخدام 1000 تبديل (p.threshold = 0.05 / عدد العلامات). العتبة المحسوبة بواسطة FarmCPU للسمات المعطاة ، ‒log10 (ص-value) = 6.31 ، كقطع فاصل لتحديد ارتباطات سمات متعددة. لتحديد النماذج والمعلمات المصححة الأنسب للبيانات ، سجل الملاحظات والمتوقع10 (P-تم رسم توزيعات القيمة) لكل ارتباط SNP كمخططات كمية (QQ). من أجل حساب الجمعيات الخاصة بالجنس ، تم استخدام الجنس الفردي كمتغير مشترك في جميع السمات التي تم فحصها.

تحليل الارتباط

تحليل الارتباط في F2 تم تنفيذ العائلة بالكامل في R / qtl (Broman وآخرون.، 2003 برومان ، 2018). تم حساب احتمالات النمط الجيني باستخدام "calcgenoprob" (الخطوة = 1.5 ، off.end = 0 ، stepwidth = ثابت ، map.function = kosambi). تم تشغيل نماذج QTL المفردة باستخدام وظيفة "scanone" (الطريقة = EM ، n.perm = 1000 ، max.it = 10000 ، tol = 1 × 10 −6) ، ثم صقلها باستخدام "makeqtl" و "refineqtl". بالإضافة إلى ذلك ، تمت مقارنة طريقة ترك كروموسوم خارج (LOCO) بنتائج المسح الفردي ، والتي تستخدم القرابة القائمة على العلامات في النموذج وتستبعد الكروموسوم الذي يوجد فيه أعلى علامة LOD (لوغاريتم الاحتمالات) ، وإعادة الاستخدام تم تركيب معلمات التباين مرة واحدة لكل كروموسوم مُترك. كانت نماذج QTL التفاعلية المتعددة مناسبة باستخدام "makeqtl" و "fitqtlW". تم الإبلاغ عن النسبة المئوية للتباين الظاهري (٪ Vp) من نماذج QTL الفردية والكاملة من نتائج fitqtlW. تم استخدام كل من وظائف "bayesint" (prob = 0.95) و "Lodint" (drop = 1.5) لحساب فترات دعم LOD من ناتج "refineqtl" لكل كروموسوم يتجاوز عتبات التقليب (α = 0.05) ، وتراوحت من 4.1 إلى 4.4. إذا اختلفت السمة اختلافًا كبيرًا حسب الجنس (ويلكوكسون ص & lt 0.05) ، تمت إضافة الجنس الفردي إلى كل نموذج كمتغير مشترك لتجنب التأثير المربك للارتباط الجنسي. كانت السمات التي تم تحديدها على أنها ثنائية الشكل جنسياً هي: FPHE-2 و HCL-2 و LIG-2 و CDIA-1 و FORM-1 و LFDW-1 و LFF-2 و SLA-1 و SLA-2 ، فضلاً عن العناصر المرتبطة بشكل ضعيف ( ويلكوكسون ص & lt 0.1) السمات: CLS-2 و CDIA-2 و HT-0 و HT-1.1.


الملخص

في دراسات الأمراض ، أصبحت التصاميم القائمة على الأسرة نهجًا جذابًا لتحليل بيانات تسلسل الجيل التالي (NGS) لتحديد الطفرات النادرة المخصبة في العائلات. تم تكريس جهود بحثية كبيرة لتطوير خطوط الأنابيب لأتمتة محاذاة التسلسل ، والاستدعاء المتغير ، والتعليقات التوضيحية. ومع ذلك ، فقد تم تصميم عدد أقل من خطوط الأنابيب خصيصًا لدراسات الأمراض. تركز معظم خطوط أنابيب التحليل الحالية لدراسات الأمراض المستندة إلى الأسرة باستخدام بيانات NGS على وظيفة محددة ، مثل تحديد المتغيرات ذات الميراث المندلي أو تحديد مناطق الكروموسومات المشتركة بين أفراد الأسرة المتأثرين. وبالتالي ، فإن بعض أدوات التحليل الأخرى المفيدة القائمة على الأسرة ، مثل أدوات التضمين والربط والارتباط ، لم يتم دمجها وأتمتتها بعد. قمنا بتطوير FamPipe ، وهو خط أنابيب تحليل شامل ، والذي يتضمن العديد من وحدات التحليل الخاصة بالعائلة ، بما في ذلك تحديد مناطق الكروموسومات المشتركة بين أفراد الأسرة المتأثرين ، وتحديد أولويات المتغيرات التي تفترض نموذجًا للمرض ، واحتساب المتغيرات غير النمطية ، واختبارات الارتباط والارتباط. استخدمنا دراسات المحاكاة لمقارنة خصائص بعض الوحدات المنفذة في FamPipe ، وبناءً على النتائج ، قدمنا ​​اقتراحات لاختيار الوحدات لتحقيق استراتيجية تحليل مثالية. يخضع خط الأنابيب لترخيص GNU GPL ويمكن تنزيله مجانًا من http://fampipe.sourceforge.net.

الاقتباس: Chung R-H ، و Tsai W-Y ، و Kang C-Y ، و Yao P-J ، و Tsai H-J ، و Chen C-H (2016) FamPipe: خط أنابيب التحليل التلقائي لتحليل بيانات التسلسل في العائلات لدراسات الأمراض. PLoS Comput Biol 12 (6): e1004980. https://doi.org/10.1371/journal.pcbi.1004980

محرر: بول بي غاردنر ، جامعة كانتربري ، نيوزيلندا

تم الاستلام: 21 ديسمبر 2015 وافقت: 12 مايو 2016 نشرت: 6 يونيو 2016

حقوق النشر: © 2016 تشونغ وآخرون. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ في أي وسيط ، بشرط ذكر المؤلف والمصدر الأصليين.

توافر البيانات: جميع البيانات ذات الصلة موجودة داخل الورقة وملفات المعلومات الداعمة الخاصة بها.

التمويل: تم دعم هذه الدراسة بمنح من وزارة العلوم والتكنولوجيا (NSC 102-2221-E-400-001-MY2 و MOST 104-2221-E-400-004-MY2) والمعاهد الوطنية للبحوث الصحية (PH-105) -PP-10) في تايوان. لم يكن للممولين أي دور في تصميم الدراسة أو جمع البيانات وتحليلها أو اتخاذ قرار النشر أو إعداد المخطوطة.

تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.

هذا ال علم الأحياء الحسابي PLOS مقالة برمجية.


معلومات الكاتب

الانتماءات

مركز الطاقة النووية في الزراعة - جامعة ساو باولو (USP) ، 13400-970 ، بيراسيكابا ، سب ، البرازيل

ميارا كورتولو وأمبير أنطونيو فيغيرا

Centro APTA Citros Sylvio Moreira - Instituto Agronômico (IAC)، CP 04، 13490-970، Cordeirópolis، SP، Brazil

مايارا كورتولو ، ماريانجيلا كريستوفاني-يالي ، ماركو أوريليو تاكيتا وأمبير ماركوس أنطونيو ماتشادو

Universidade Federal de São Carlos (UFSCar) - Centro de Ciências Agrárias، Rodovia Anhanguera، km 174، 13600-970، Araras، SP، Brazil


شاهد الفيديو: اقوال لابن القيم رحمه الله (شهر فبراير 2023).