Giana اجازه می دهد تا خوشه بندی TCR از لحاظ محاسباتی و طبقه بندی رپرتوار چند دیزاسیون با تحول ایزومتریک

ساخت وبلاگ

شباهت در توالی گیرنده سلول T (TCR) حاکی از ویژگی آنتی ژن مشترک بین گیرنده ها است و می تواند برای کشف اهداف درمانی جدید استفاده شود. با این حال ، روشهای موجود که توالی گیرنده سلول T را با شباهت خوشه می کند ، از نظر محاسباتی ناکارآمد هستند ، و آنها را برای استفاده در مجموعه داده های روزافزون از رپرتوار ایمنی انجام می دهد. در اینجا ، ما Giana (الگوریتم تراز TCR مبتنی بر ایزومتری هندسی) را یک ابزار محاسباتی کارآمد برای این کار ایجاد کردیم که همان سطح ویژگی خوشه بندی را با 600 برابر سرعت خود و بدون قربانی کردن دقت فراهم می کند. جیانا همچنین در عرض چند دقیقه از پرس و جو سریع گروههای مرجع بزرگ اجازه می دهد. استفاده از Giana برای خوشه بندی مجموعه داده های TCR در مقیاس بزرگ ، گیرنده های خاص بیماری نامزد را ارائه می دهد و راه حل جدیدی برای طبقه بندی کارنامه ارائه می دهد. پرس و جو نمونه های TCR-SEQ غیب در برابر یک مرجع موجود ، نمونه ها را از بیماران در گروههای مختلف مرتبط با سرطان ، بیماری عفونی و خود ایمنی متمایز می کند. نتایج ما نشان می دهد که چگونه می توان از جیانا به عنوان پایه ای برای یک پلت فرم تشخیصی چند عیار غیر تهاجمی مبتنی بر TCR استفاده کرد.

معرفی

رپرتوار ایمنی تطبیقی یک تنظیم کننده مهم برای بیماریهای متنوع انسانی است و بیش از 10،000 نمونه توالی رپرتوار TCR (TCR-SEQ) در سالهای اخیر تولید شده است. با این حال ، تفسیر داده های TCR با کمبود خاص آنتی ژن شناخته شده مانع شده است. مطالعات اخیر نشان داد که شباهت در منطقه 3 تعیین کننده مکمل بیش از حد متغیر TCR (CDR3) شامل شباهت ساختاری 1،2 برای تشخیص آنتی ژن است. بنابراین ، خوشه بندی CDR3 های مشابه به یک روش مهم برای شناسایی گیرنده های خاص آنتی ژن تبدیل شده است.

در گذشته ، تعدادی از روشهای خوشه بندی TCR برای بررسی پاسخ های سلول T خاص آنتی ژن در طول پیشرفت بیماری یا درمان ایمونوتراپی 3،4،5 ، مانند TCRDIST 1 ، ISMART 4 و GLIPH 2،6 ایجاد شده است. گمانه زنی شده است که ادغام تعداد زیادی از نمونه های TCR-SEQ از مطالعات متعدد منجر به بینش بیشتری در مورد تعامل با مواد مخدر و ایجاد فرصت های جدید برای پیش آگهی و تشخیص 7 خواهد شد. با این حال ، روش های دستیابی به ویژگی های خوشه بندی بالا به هم ترازی Smith-Waterman (SW) به صورت جفت (TCRDIST و ISMART) در هر دو توالی CDR3 و آللهای متغیر TCR (TRBV) ، که دارای پیچیدگی محاسباتی درجه دوم هستند که معمولاً نمی توانند تا اندازه اندازه بگیرند ، نیاز دارند. از نمونه های رپرتوار TCR (توالی ≥100 K). خوشه بندی مبتنی بر نقوش (GLIPH2) به سرعت 6 بالاتری می رسد ، اما ویژگی بسیار کمتری دارد 4. یک روش اخیر ، CLUSTCR ، ویژگی های فیزیولوژیکی کاربردی برای رمزگذاری عددی توالی CDR3 و به سرعت محاسباتی سریعتر. این روش ، با این حال ، اطلاعات ژن متغیر TCR را حذف کرده است ، و از فاصله هامینگ کمتری برای جایگزینی تراز SW استفاده کرده است ، که منجر به خلوص خوشه بندی پایین 8 شد. بنابراین ، هیچ یک از روشهای خوشه بندی TCR موجود برای تجزیه و تحلیل گروههای بزرگ نمونه TCR-SEQ مناسب نیستند.

برای پرداختن به این چالش ، ما الگوریتم تراز TCR مبتنی بر ایزومتری هندسی (GIANA) را معرفی کردیم ، یک چارچوب ریاضی برای تبدیل توالی های CDR3 ، که باعث تبدیل دنباله و مشکل خوشه بندی به نزدیکترین همسایه کلاسیک در فضای اقلیدسی با ابعاد بالا شد. این تحول به طور قابل توجهی بازده محاسباتی را برای مقایسه جفت TCR بهبود بخشید و تا 10 6 تا 10 توالی را اندازه گیری کرد. در این کار ، ما نشان دادیم که با جمع کردن هزاران نمونه از کارنامه TCR ، جیانا می تواند TCR های جدید مرتبط با بیماری را شناسایی کرده و نمونه های غیب را به دسته های صحیح بیماری اختصاص دهد. بنابراین ، رویکرد ما ممکن است یک راه جایگزین برای یک بستر تشخیصی چند دیوانگی مبتنی بر ایمنی باز کند.

نتایج

یک چارچوب تعبیه ایزومتریک برای تراز TCR فوق العاده سریع

Giana با یک محلول تقریبی به تعبیه ایزومتریک ماتریس Blosum62 با استفاده از مقیاس چند بعدی (MDS) (شکل S1) شروع کرد ، که یک بردار عددی برای هر یک از 20 اسید آمینه ایجاد می کرد. پس از آن ، رشته های CDR3 به عنوان تحولات خطی غیر متقابل سریال در بردارهای MDS مدل شدند و به عنوان مختصات در فضای با ابعاد بالا نشان داده شدند. ماتریس تحول واحد عنصری از گروه چرخه 6 مرتبه ای بود (G6) ، که همبستگی خطی تقریباً کامل بین مسافت اقلیدسی یک جفت رشته و نمرات تراز اسمیت-واتر آنها را ایجاد می کند (شکل S2). در پیش فرض ، قطع فاصله ایزومتریک (-T) از 10 ، تمام جفت های TCR با نمرات تراز بلند اسمیت-واترمن در خوشه های پایین دست قرار گرفتند. سریع ، نزدیکترین جستجوی همسایه مبتنی بر شاخص و گروه بندی سانتروئید بازگشتی سپس بر روی مختصات انجام شد تا از پیش کلوچه های CDR3 ، که متعاقباً برای آلل های TRBV همسان و نمرات تراز بالا با استفاده از یک جدول جستجوی K-MER فیلتر شدند ، انجام شود تا نهایی را تولید کند. خوشه های TCR به عنوان خروجی (شکل 1).

figure 1

گردش کار جیانا. جیانا با رمزگذاری توالی پپتید کوتاه CDR3 به بردارهای عددی از طریق دنباله ای از تحولات واحد آغاز شد. تحول شامل یک عنصر گروه چرخه ای مرتبه ششم است. پس از رمزگذاری ، هر دنباله CDR3 به فضای اقلیدسی با ابعاد بالا پیش بینی می شد و به نزدیکترین نزدیکترین همسایه برای خوشه بندی اجازه می دهد. مراحل فیلتر پیگیری برای مطابقت با آللهای ژن TRBV و حذف جفت با نمرات تراز پایین انجام شد.

به موازات g6تحول ، ما همچنین یک روش ساده لوحانه با بردارهای MDS انباشته به عنوان مختصات رشته های ورودی CDR3 (GianasV) ، مشابه یک اثر اخیر 8 (شکل S3) اجرا کردیم. ما یک معیار با 10 K ، 20 K ،… ، 100 K TCR از یک نمونه TCR-SEQ یک اهدا کننده سالم و پنج روش رقیب ، جیانا ، Gianasv ، Ismart 4 ، Tcrdist 1 و Gliph2 6 برای آزمایش سرعت و حافظه ایجاد کردیم (شکل2a و شکل S4). ما یک روش مشابه ، آلیس 10 را حذف کردیم ، زیرا برای یافتن متغیر ترین کلون ها فقط در داده های طولی بهینه سازی شد. جیانا کمترین هزینه را در طول معیار دارد و 23. 9 ثانیه را برای پردازش توالی 100 K انجام می دهد ، در حالی که Tcrdist 14338 ثانیه طول کشید. Gianasv با ضریب 2. 2 (جدول S1) از جیانا کندتر است. این انتظار می رود زیرا رمزگذاری بردار انباشته منجر به ابعاد بالاتری از فضای تعبیه ایزومتریک و افزایش هزینه زمان در نزدیکترین جستجوی همسایه می شود. نکته قابل توجه ، GLIPH2 سریعترین الگوریتم علاوه بر Giana/Gianasv است ، زیرا از تراز جفت از طریق جستجوی نقوش هدایت می شود.

figure 2

مقایسه پیچیدگی زمان برای پنج الگوریتم خوشه بندی TCR رقیب. سرعت بر اساس هزینه زمان برای نمونه 100 K TCR محاسبه شد. B مقایسه کسری خوشه خلوص و حفظ چهار روش. y-axis دقت یا حساسیت را در درصد نشان می دهد. C مقایسه اطلاعات متقابل عادی از چهار روش. D حساسیت و ویژگی جیانا هنگام استفاده از نمونه های بزرگ و پر سر و صدا TCR-SEQ. x-axis برش برای نمره تراز اسمی ت-واترمن ، یک پارامتر کلیدی در جیانا ، با حداکثر 4. 0 است. قطع بالاتر باعث افزایش ویژگی با هزینه کاهش حساسیت می شود.

جیانا در پیش بینی TCR های خاص آنتی ژن به دقت بیشتری می رسد

از آنجا که خاصیت آنتی ژن مطلوب ترین ویژگی خوشه بندی TCR است ، ما بعد دقت خوشه بندی همه روشها را ارزیابی کردیم. GianASV از این تجزیه و تحلیل خارج شد زیرا از نظر تئوری عملکرد یکسان به عنوان جیانا به جز راندمان محاسباتی است. ما 61،366 جفت TCR/آنتی ژن شناخته شده غیرقانونی را از حوزه عمومی 1،11،12،13 جمع آوری کردیم که بیش از 900 اپی توپ مختلف را از پاتوژن های متنوع پوشش می دهد. ما ابتدا خلوص خوشه ای را همانطور که قبلاً توضیح داده شد تعریف کردیم: 14 درصد TCR های خاص برای رایج ترین اپی توپ در یک خوشه معین."خوشه خالص" تعریف شده است که دارای خلوص برابر با 1 است. ما "کسری خوشه خالص" را به عنوان درصد خوشه های خالص در خروجی تعریف کردیم (شکل 2B و جدول S2). کسری برای Giana (96 ٪) ، Ismart (97 ٪) و TCRDIST (97 ٪) مشابه هستند ، اما برای GLIPH2 (35 ٪) از نظر قابل ملاحظه ای پایین تر هستند. احتباس خوشه خالص به عنوان تعداد کل TCR ها در تمام خوشه های خالص تقسیم شده بر تعداد تمام TCR های آزمایشی تعریف شده است ، و ما تأیید کردیم که جیانا همچنین به عنوان سایر روشها سطح احتباس مشابهی (27 ٪) دارد ، به جز GLIPH2 (19٪). برای سه روش که به تراز اسمیت-واترمن (جیانا ، ایسمارت و TCRDIST) متکی هستند ، ما بیشتر تأثیر طیف وسیعی از برش های نمره تراز (گزین ه-s در جیانا) را بررسی کردیم. ما عملکردهای مشابهی را برای سه روش در برش های دقیق مشاهده کردیم (شکل S5).

کسری و احتباس خوشه خالص بر خوشه ها با خلوص 100 ٪ تأکید می کند ، که بیشتر در خوشه های کوچکتر دیده می شوند. روش هایی که خوشه های بزرگتر تولید می کنند ممکن است به دلیل خوشه بندی ناخالص عملکرد بدتری داشته باشند. بنابراین ، ما همچنین با استفاده از همان مجموعه داده های آموزشی ، اطلاعات متقابل عادی (NMI) بین خوشه های TCR و ویژگی اپی توپ را اندازه گیری کردیم. ما سطح مشابه NMI را در تمام روشهای با استفاده از تراز اسمی ت-واترمن مشاهده کردیم ، و Gliph2 پایین ترین سطح باقی مانده است (شکل 2C).

در مرحله بعد ، ما بررسی کردیم که آیا Giana قادر به بازیابی TCR های خاص آنتی ژن از نمونه های TCR-SEQ واقعی ، بزرگ و پر سر و صدا ، با استفاده از TCR ها با خاصیت آنتی ژن شناخته شده است. از TCR های خاص آنتی ژن معیار فوق ، ما کسانی را برای سه اپی توپ که انتظار می رود در افراد سالم وجود داشته باشد انتخاب کردیم: اپی توپ های YAW و YLQ 15 از شیوع اخیر ویروس SARS-COV-2 و Epitope FRD 16 از HIV-1ویروس. 20 ٪ از این TCR ها با 100000 TCR از یک اهدا کننده سالم به عنوان داده های آزمایش مخلوط شدند و ما از TCR های اختصاصی 80 ٪ غیر آنتی ژن به عنوان داده های آموزش برای بازیابی توالی های آزمایش استفاده کردیم. هر دنباله ای که با داده های آموزش خوشه بندی شده است به عنوان "مثبت" خوانده می شود. مثبت های واقعی TCR های 20 ٪ آنتی ژن خاص آنتی ژن هستند ، در حالی که مثبت کاذب آن ها از اهدا کننده سالم هستند. برای هر سه اپی توپ ، جیانا بیش از 99. 99 ٪ ویژگی را با حساسیت 20-50 ٪ به دست آورد (شکل 2D). اگرچه GLIPH2 به حساسیت بالاتری رسید ، اما ویژگی آن از جیانا پایین تر است (شکل S6A). از همه مهمتر ، مقادیر پیش بینی مثبت (PPV) Giana برای همه اپی توپ ها به بیش از 60 ٪ رسید ، در حالی که PPV های Gliph2 برای 2 از 3 اپی توپ پایین تر از 20 ٪ بودند (شکل S6B).

پرس و جو نمونه فوق العاده سریع و طبقه بندی رپرتوار TCR

سرعت و ویژگی زیاد جیانا ما را به ایجاد یک ماژول پرس و جو برای خوشه بندی نمونه های جدید TCR با یک مجموعه داده مرجع موجود ، انگیزه داد ، تابعی که در تمام ابزارهای فعلی وجود ندارد. ما TCR های مرجع و پرس و جو را به فضای اقلیدسی با پیچیدگی خطی تبدیل کردیم و نزدیکترین همسایگان هر دنباله پرس و جو را جستجو کردیم ، که به خوشه های TCR پردازش شده و با داده های مرجع ادغام شدند (شکل 3A). ما سرعت این رویکرد را با استفاده از مجموعه داده های پرس و جو و مرجع با تعداد مختلف TCR ارزیابی کردیم (شکل 3B). همانطور که انتظار می رود ، جیانا از نظر محاسباتی کارآمد است ، همانطور که با این واقعیت نشان داد که 176 ثانیه طول کشید تا 10 4 TCR را در برابر 10 توالی مرجع (جدول S3) پرس و جو کند.

شکل 3: پرس و جو سریع داده های خوشه بندی TCR مرجع قبلاً تولید شده برای طبقه بندی دقیق رپرتوار.

figure 3

تصویری از پرس و جو سریع جیانا بر اساس تحول ایزومتریک. جیانا نزدیکترین جستجوی همسایه از هر TCR پرس و جو را در برابر مختصات مرجع انجام می دهد ، همسایگان نزدیک را در فضای اقلیدسی انتخاب می کند و با خوشه های TCR مرجع ادغام می شود. فلش های متراکم حاکی از جهت های جستجو هستند. b ارزیابی پیچیدگی زمان ماژول پرس و جو Giana با استفاده از داده های مرجع/پرس و جو با تعداد مختلف TCR. درجه C از جداسازی بیماران پرس و جو COVID-19 از گروه کنترل سالم با خوشه بندی در برابر مجموعه داده های مرجع. تعداد TCR های داده های مرجع به عنوان برچسب های x-axis نشان داده شد. دو نمونه t-test با استفاده از کسری COVID-19 برآورد شده از داده های پرس و جو برای به دست آوردن آمار T انجام شد. تمام مقادیر p در سطح 10 × 10 2. 2 2. 2 معنی دار بودند. منحنی های D ROC با استفاده از کسر Covid-19 به عنوان پیش بینی کننده واحد. تعداد نمونه های COVID-19 و HC در عنوان شکل برچسب گذاری شد که هر نمونه حاوی 10 توالی TCR بود. منطقه سایه دار دارای فاصله اطمینان 95 ٪ منحنی های ROC ، که از 2،000 بوت استرپ طبقه بندی شده تخمین زده می شود.

طبقه بندی رپرتوار یک کار مهم در کاربردهای فوری در تشخیص بیماری و پیش آگهی 7 است. در گذشته ، این کار با یادگیری چند نمونه ای از 17 یا Deep Leaing 18 به این کار نزدیک شده است. ما بعد بررسی کردیم که آیا از پرس و جو جیانا نیز می توان برای طبقه بندی کارنامه های TCR استفاده کرد. اول ، ما 3 مجموعه داده مرجع با 20 ، 100 یا 200 نمونه TCR-SEQ تولید کردیم که به طور مساوی به بیماران Covid-19 و کنترل های سالم (HC) تقسیم شد. 154 نمونه COVID-19 و 120 HC اضافی به هر یک از منابع پرسیده شد. برای هر نمونه پرس و جو ، ما کسری از TCRS را که با بیماران مرجع COVID-19 جمع شده بود محاسبه کردیم. جالب توجه است ، این بخش برای بیماران CoVID-19 در نمونه های پرس و جو ، با افزایش جدایی از HCS پرس و جو با افزایش اندازه داده های مرجع ، به طور قابل توجهی بالاتر است (شکل 3C و شکل S7A). با استفاده از این بخش به عنوان پیش بینی کننده ، ما برای مرجع با اندازه نمونه بزرگتر ، مساحت افزایش را در زیر منحنی عملکرد گیرنده (AUC) مشاهده کردیم (شکل 3D). نکته قابل توجه ، با 2 میلیون TCR مرجع ، حساسیت (79 ٪) و ویژگی (100 ٪) از آزمایش موجود برای Covid-19 19 پیشی گرفتند ، و این نشان می دهد که ابزارهای بالقوه این روش در تشخیص بیماری. این واقعیت که صحت طبقه بندی رپرتوار با نمونه های مرجع بیشتر بهبود یافته است ، احتمالاً به دلیل TCR های خاص بیماری است که معمولاً در فرکانس های پایین 20 به اشتراک گذاشته می شود. در نتیجه ، یک داده مرجع بزرگتر احتمال خوشه بندی بالاتری ، پراکندگی کوچکتر و دقت بهتر خواهد داشت. در واقع ، ما ضریب کاهش واریانس کسری COVID-19 با نمونه مرجع بیشتری را مشاهده کردیم (شکل S7B).

ما تلاش های فوق را با ساختن یک مجموعه داده مرجع بزرگ حاوی 10 میلیون TCR ، که شامل 1،213 نمونه از بیماران سرطان ، COVID-19 و SCELEROSS (MS) و HCS 9،21،22،23،24،25،26 بود ، گسترش دادیم.، 27،28،29،30،31،32،33،34 (جدول S4). اول ، ما از جیانا برای انجام خوشه بندی خاص آنتی ژن از 10 متر TCR استفاده کردیم و شباهت نمونه های مختلف رپرتوار اندازه گیری شده توسط سطح خوشه های TCR مشترک را بررسی کردیم. ما جداسازی واضح از اکثر بیماران سرطانی از اهدا کنندگان سالم و بیماران MS مشاهده کردیم. جالب اینجاست که ، سرطان ریه و بیماران COVID-19 در کنار هم یک خوشه جداگانه تشکیل دادند (شکل 4A). مشخص شده است که شرایط التهابی موضعی ، مانند عفونت ویروسی یا سرطان ، می تواند سلولهای T مقیم بافت را در گردش 35 آزاد کند ، که دلیل احتمالی به اشتراک گذاری رپرتوار TCR است. یافته های ما بیشتر نشان می دهد که در بافت ریه ، میزان خروج سلول T ممکن است به اندازه کافی بالا باشد تا از انواع بیماری فراتر رود. با این حال ، در حال حاضر اعتبارسنجی تجربی این مشاهدات به دلیل عدم وجود اطلاعات زنجیره ای زوجی α امکان پذیر نیست.

figure 4

نمایش گرافیکی برای شباهت های نمونه TCR-SEQ بر اساس خوشه بندی TCR. ماتریس تقسیم شمارش نمونه از نتایج اصلی خوشه بندی TCR از نمونه های مرجع 1،213 محاسبه شد. ماتریس همبستگی Spearman بر اساس تعداد TCR های همزمان خوشه ای محاسبه شد ، با جفت هایی که دارای مقدار همبستگی ≤0. 4 هستند صفر است. از ماتریس پراکنده حاصل برای تولید نمودار استفاده شد. گره هایی با کمتر از دو اتصال برای تجسم گروه های نمونه برداشته شدند. منحنی های B ROC با استفاده از بخش های بیماری محاسبه شده از TCR های همزمان. مقادیر AUC در پایین سمت راست هر پنل برچسب گذاری شد. فاصله اطمینان 95 ٪ با استفاده از 2،000 بوت استرپ طبقه بندی شده محاسبه شد. مخفف بیماری: GBM برای گلیوبلاستوما multiforme ؛RCC برای کارسینوم سلول شفاف کلیوی ؛MS برای مولتیپل اسکلروزیس.

یک سکوی تشخیص چند بیماری از طریق خوشه بندی و پرس و جو در مقیاس فوق العاده بزرگ

خوشه بندی در مقیاس فوق العاده بزرگ توسط جیانا همچنین به ما امکان بازرسی از TCR های خاص بیماری در مقابل بافت را می دهد. ما خوشه های TCR را در سرطان ریه و بیماران COVID-19 به سه دسته تقسیم کردیم: (i) Covid-19 خاص ؛(ب) سرطان ریه خاص ؛(iii) بین این دو بیماری مشترک است. ما فرکانس کلونال به طور قابل توجهی بالاتر از گروه (I) در مقابل (III) برای بیماران COVID-19 را مشاهده کردیم ، در حالی که هیچ تفاوتی بین گروه (II) و (III) برای بیماران مبتلا به سرطان ریه وجود ندارد (شکل S8A). فرکانس های TCR برای جلوگیری از اثر دسته ای در همان گروه هماهنگ شدند ، و بنابراین ، فراوانی بالاتر TCR های خاص Covid-19 احتمالاً در اثر پاسخ ایمنی به SARS-COV-2 ایجاد می شود. در واقع ، فقط TCR های خاص Covid-19 پس از عفونت ویروسی تحت تنظیم پویا قرار گرفتند ، که در طی 2 هفته اول پس از قرار گرفتن در معرض اوج قرار گرفت و پس از آن کاهش یافت. در مقابل ، فراوانی کلونال TCR های مشترک پس از عفونت SARS-COV-2 تحت تأثیر جدول زمانی قرار گرفتند (شکل S8B). در نتیجه ، خوشه بندی در نمونه های بزرگ TCR TCR ممکن است TCR های خاص بیماری مشترک را نشان دهد ، که ممکن است یک راه حل دقیق تر برای طبقه بندی کارنامه فراهم کند.

بنابراین ، ما آزمایش کردیم که آیا TCR های خوشه ای می توانند به عنوان نشانگر برای اختصاص نمونه های رپرتوار به چندین بیماری ، با اجرای یک رویکرد اعتبارسنجی مرخصی از یک خارج استفاده شوند. به طور خاص ، برای یک نمونه معین ، ما کسری از TCR ها را با سرطان ، COVID-19 ، بیماران MS یا کنترل های سالم در گروه مرجع ، به استثنای خود نمونه محاسبه کردیم. این روش برای هر نمونه چهار کسری کلاس به همراه داشت ، که به 1 اضافه شده است. ما از بخش HC برای جدا کردن بیماران از اهدا کنندگان سالم استفاده کردیم و برای هر سه بیماری نزدیک به دقت کامل مشاهده شد (شکل 4B). برای تمایز یک جفت بیماری ، ما از تفاوت بین دو بخش مربوطه به عنوان پیش بینی کننده استفاده کردیم ، که همچنین منجر به مقادیر AUC بالا (93 ≥) شد. توانایی تشخیص سرطان ریه از COVID-19 با گروه بندی آشکار این دو بیماری متناقض نبود (شکل 4A) زیرا شباهت در داخل دیزاسیون هنوز بالاتر بود (شکل S9). با این حال ، از آنجا که بیشتر بیماری ها فقط از یک مطالعه حاصل شده اند ، این نگرانی را ایجاد می کند که پیش بینی ممکن است توسط اثرات دسته ای از گروههای ناشناخته خاص انجام شود.

برای آزمایش این احتمال ، ما بررسی کردیم که آیا جیانا می تواند برچسب های بیماری نمونه های غیب از گروه های مستقل را پیش بینی کند. ما از جیانا برای پرس و جو 267 نمونه جدید TCR-SEQ از سه دسته بیماری و 153 نمونه HC 9،18،25،36،37،38،39 (جدول S5) در برابر مجموعه داده های مرجع استفاده کردیم. تمام نمونه ها از خون محیطی گرفته شدند. ما از همان روش برای محاسبه کسری از TCR ها که با سرطان مرجع ، COVID-19 ، MS یا HC خوشه بندی شده اند ، استفاده کردیم. بدون هیچ گونه اتصالات مدل ، این رویکرد ساده می تواند هر دسته نمونه را از سایر موارد متمایز کند (شکل 5a). کسری HC هر 3 بیماری را با دقت بیش از 91 ٪ تشخیص می دهد ، در حالی که جداسازی زوجی بین بیماری ها همه به 87 ٪ AUC رسیده است (شکل 5B). از آنجا که نمونه های پرس و جو از مطالعاتی که در داده های مرجع گنجانده نشده است ، بدست آمده است ، AUC های بالا بعید به نظر می رسد که توسط دسته ناشناخته یا اثرات خاص گروهی ایجاد شده اند و بنابراین می توانند پیش بینی واقعی را برای سه نوع بیماری منعکس کنند.

figure 5

یک طرح ویولن که توزیع کسری کلاس سرطان ، COVID-19 ، بیماران مولتیپل اسکلروز (MS) و کنترل سالم (HC) را نشان می دهد. کسری سرطان به عنوان نسبت TCR های پرس و جو با TCR های مرجع بیماران مبتلا به سرطان محاسبه شد. کسری کلاس دیگر به همان روش تعریف شده است. اندازه نمونه: HC: N = 153 ، COVID-19: N = 193 ، سرطان: N = 62 ، MS: N = 6. B CURS ROC با استفاده از کسری کلاس بیماری به عنوان پیش بینی کننده مجرد برای جداسازی زوج از چهار کلاس بیماری. کسر درصد TCRS با یک کلاس خاص از نمونه ها در مجموعه داده های مرجع جمع شده بود. مقادیر AUC در پایین سمت راست هر پنل برچسب گذاری شد. فاصله اطمینان 95 ٪ با استفاده از 2،000 بوت استرپ طبقه بندی شده محاسبه شد.

بحث

به طور خلاصه ، Giana یک الگوریتم خوشه بندی TCR سریع است که به طور مؤثر ده ها میلیون دنباله را کنترل می کند. این سطح به همان میزان دقت به عنوان بهترین روشهای موجود دست یافت و توانست TCR های خاص را برای آنتی ژن های شناخته شده با دقت بالا بازیابی کند. خوشه بندی TCR در مقیاس فوق العاده بزرگ و پرس و جو سریع از نمونه های جدید نیز طبقه بندی رپرتوار مبتنی بر مرجع را فعال می کند. تا به امروز ، جیانا همچنین می تواند داده های تک سلولی RNA-SEQ را با مناطق TCR حل شده تجزیه و تحلیل کند ، و می توان TCR ها را از داده های SCRNA-SEQ در برابر بانک اطلاعاتی بزرگ نمونه های کارنامه TCR در حوزه عمومی پرس و جو کرد تا بینش های جدیدی نسبت به آنتی ژن مشترک بدست آورد.-اختصاصی. با حداقل اصلاحات ، Giana برای داده های توالی گیرنده سلول B خوشه یا پرس و جو نیز کاربرد دارد. علاوه بر این ، چارچوب ریاضی برای انجام تعبیه ایزومتریک ممکن است یک راه حل جایگزین برای مشکلات تراز DNA کوتاه کلاسیک یا پروتئین در آینده فراهم کند.

خوشه بندی TCR بدون نظارت یک تجزیه و تحلیل اساسی از داده های رپرتوار ایمنی است. در سناریوی ایده آل ، تمام TCR های خاص برای یک اپی توپ باید در همان خوشه قرار بگیرند. با این حال ، این برای شباهت توالی یا رویکرد خوشه بندی مبتنی بر نقوش امکان پذیر نیست ، به دلیل تنوع مطرح در توالی TCR ویژگی مشترک 1. چنین تنوع ناشی از استراتژی های اتصال متمایز گیرنده های سلول T است. به عنوان مثال ، TCR های خاص برای اپی توپ آنفلوانزا گیل معمولاً حاوی نقوش RSS/RSA کلاسیک در منطقه CDR3 است ، اما یک مطالعه مرتبط با آن 40 گزارش داد که نقوش LGGW همچنین اتصال قوی به GIL را از جهت دیگری ایجاد می کند. چنین تنوع ساختاری را نمی توان با تراز ساده Smit h-Waterman یا گروه بندی نقوش اسیر کرد. در نتیجه ، CDR3 ها با نقوش متفاوت با وجود ویژگی مشترک آنها ، در خوشه های کوچکتر تکه تکه می شوند ، که این یک محدودیت مشترک برای روش های فعلی است.

محدودیت های مختلفی در مطالعه ما وجود دارد: اول ، برخلاف GLIPH2 ، آللهای HLA در جیانا در نظر گرفته نشده اند ، زیرا این داده ها در بیشتر مطالعات فعلی در دسترس نیست. با استفاده از تایپ HLA ، دقت خوشه بندی TCR و روش های پرس و جو بهبود می یابد. دوم ، جیانا از تراز شکاف پشتیبانی نمی کند ، زیرا چارچوب رمزگذاری ایزومتریک فعلی فقط برای توالی هایی با همان طول اعمال می شود. با این حال ، این سطح از دقت خوشه بندی مشابه روش هایی که شکاف ها را در نظر می گیرند ، مانند TCRDIST است. این امر به این دلیل است که اجازه شکاف باعث کاهش ویژگی خوشه بندی و به خطر انداختن دقت پیش بینی 4 می شود. سوم ، در این کار ، ما به سادگی از کسری TCR برای اختصاص کلاس های بیماری استفاده کردیم. با داده های بیشتر ، این تلاش را می توان با استفاده از مدل های یادگیری ماشین برای بهینه سازی دقت پیش بینی بهبود بخشید. چهارم ، ما تمام بیماران سرطانی را با سایر بیماری ها با هم مقایسه کردیم اما قادر به تمایز محلی سازی سرطان نبودیم. ما پیش بینی می کنیم قدرت جدا کردن انواع سرطان با نمونه های TCR-SEQ به اندازه کافی به عنوان مرجع باشد. سرانجام ، اگرچه روش فعلی قبلاً به دقت بالایی از طبقه بندی رپرتوار دست یافته است ، ارزش تشخیصی این پلت فرم نیاز به اعتبار بیشتر با نمونه های بیمار جمع آوری شده آینده دارد.

همانطور که در بیماری های خود ایمنی و عفونی نشان داده شده است ، TCR های عمومی خاص آنتی ژن که در فرکانس های کم به اشتراک گذاشته می شوند ، نشانگرهای زیستی بالقوه مهم 20،41،42 هستند که با مقایسه مقدار زیادی TCR از هزاران نفر قابل تشخیص است. روش هایی برای تشخیص جداگانه سرطان 17،18 ، COVID-19 20 یا مولتیپل اسکلروزیس 43 با استفاده از رپرتوار ایمنی ایجاد شده است ، اما هیچکدام نتوانسته اند همزمان بیماری های مختلف را تشخیص داده و از هم جدا کنند. در مقابل ، تلاش ما می تواند به یک بستر یکپارچه برای تشخیص بیماری عفونی ، اختلالات خود ایمنی و سرطان تبدیل شود. چنین سکویی در ادبیات 7 پیشنهاد شده است و در این کار ، ما یک نمونه اولیه برای دستیابی به این هدف ارائه داده ایم.

ما معتقدیم که این به طور بالقوه یک پیشرفت قابل توجه است زیرا: اول ، تشخیص بیماری عمدتا برای چندین دهه علائم محور است و هر بیماری به مجموعه مشخصی از امضاهای به دست آمده از سنجش های بالینی متنوع ، مانند تصویربرداری رادیواکتیو ، بیوپسی مایع ، آندوسکوپی تهاجمی ، جراحی ، نیاز دارد. امکان سنجی استفاده از سیستم ایمنی بدن به عنوان یک نشانگر تجاری واحد برای نشان دادن بیماری های متعدد می تواند پارادایم را از علائم محور به پاسخ ایمنی محور تغییر دهد ، که یک راه حل جهانی برای بسیاری از اختلالات مرتبط با ایمنی فراهم می کند. علاوه بر این ، تشخیص دیفرانسیل معمولاً یک چالش بالینی است و اضافه کردن بیماری های بیشتر به این سکو باعث کاهش بیشتر ویژگی تشخیص می شود. ما با نشان دادن اینکه این پلتفرم می تواند دقت پیش بینی خود را با درج نمونه های بیشتر TCR-SEQ افزایش دهد ، راه حلی برای این مشکل ارائه دادیم. علاوه بر این ، از آنجا که پاسخ های ایمنی معمولاً از هرگونه علائم قابل اندازه گیری جلوتر است ، این سکو پتانسیل تشخیص بیماری ها را در مراحل اولیه خود دارد ، جایی که بیشتر بیماری ها قابل درمان یا مدیریت آسان هستند. ما قبلاً این واقعیت را برای تشخیص سرطان 18 نشان داده ایم ، و اصل تنظیم ایمنی نیز در مورد اختلالات خود ایمنی مانند مولتیپل اسکلروز اعمال می شود. سرانجام ، از آنجا که این پلتفرم فقط برای انجام ضبط V (d) J هدفمند به مقدار کمی خون نیاز دارد ، می تواند به عنوان یک آزمایش غیر تهاجمی با هزینه کم عمل کند. با هم ، ما پیش بینی می کنیم که جیانا به طور گسترده ای برای یافتن خوشه های TCR خاص آنتی ژن ، برای بازیابی توالی های خاص برای پاتوژن های شناخته شده ، مانند SARS-COV-2 ، و تسهیل تشخیص بیماری با بدن سریع رشد داده های TCR در سرطان ، استفاده شود. ایمونولوژی و مطالعات بالینی.

مواد و روش ها

جمع آوری داده های TCR-Seq

تمام نمونه های توالی رپرتوار TCR از طریق ایمن سازی بیوتکنولوژی تطبیقی ، که در حال حاضر میزبان بزرگترین بانک اطلاعاتی نمونه های TCR-Seq است ، همه با استفاده از پلت فرم Immunoseq ، دسترسی پیدا کردند. TCR اختصاصی آنتی ژن و آنتی ژن های تطبیق از VDJDB 12 ، بانک اطلاعاتی اپی توپ ایمنی و منبع تجزیه و تحلیل (IEDB) و ادبیات قبلی 1،2 جمع شدند. TCR های اختصاصی برای بیش از یک اپی توپ برای جلوگیری از درگیری حذف شدند.

توضیحات روش جیانا

چارچوب ریاضی برای تعبیه ایزومتریک توالی CDR3

هدف این است که یک نمایش عددی (همچنین مختصات در فضای با ابعاد بالا) (x ) از هر دنباله پپتید کوتاه (S ) پیدا کنید ، به گونه ای که ، برای (_ ) و (_ ) ،فاصله اقلیدسی بین دو مختصات (_ ) و (_ ): ( vert _<<<<<< m>>>>>>-_<<<<<< m>>>>>> vert ) ، کاملاً با نمره شباهت توالی اندازه گیری شده توسط ماتریس جایگزینی تکاملی قلمداد شده است. ما این مشکل را به عنوان "جاسازی ایزومتریک توالی های کوتاه" معرفی می کنیم. این مفهوم برای حل مشکل رمزگذاری عددی توالی های CDR3 ، به طور معمول با طول از 12 تا 17 اسید آمینه معرفی شده است. در این بخش ، ما فرایند یافتن تحول ریاضی یک دنباله CDR3 داده شده را که تقریباً ایزومتری راضی است ، ارائه دادیم. اول ، ما یک تعبیه تقریباً ایزومتریک برای ماتریس Blosum62 پیدا کردیم. مشکل به شرح زیر تعریف شده است:

در سال 1974 ، C. L. Morgan ، در کار خود "تعبیه فضاهای متریک در فضای اقلیدسی" 44 ثابت کرد که راه حل این مشکل وجود دارد اگر ، و فقط اگر EDM صاف باشد ، و فضای تعبیه کننده ابعادی بیشتر از (n )، جایی که (n ) ابعاد EDM است. متأسفانه ، ماتریس Blosum62 حتی EDM نیست ، زیرا این قانون مثلثی را برآورده نمی کند:

بنابراین ، تعبیه دقیق ایزومتریک Blosum62 وجود ندارد. با این حال ، مقیاس بندی چند بعدی (MDS) یک راه حل تقریبی ارائه می دهد ، که در مورد مواردی که (m ) EDM نیست ، اعمال می شود. ما از MDS برای استخراج بردارهای تعبیه شده استفاده کردیم (_ ). ماتریس فاصله تبدیل شده (M ) دارای رتبه (r = 13 ) است. با MDS کلاسیک ، حداکثر بعد برای فضای تعبیه 13 است. ما محاسبه MDS 45 غیر متقاi را با استفاده از بسته Sklea در پایتون اعمال کردیم و می توانیم ابعاد بالاتر از 13 را کشف کنیم. برای به حداکثر رساندن ایزومتری تعبیه شده ، ابتدا 2،300 آموزش TCR را انتخاب کردیمطول 14 از مجموعه داده های TCGA 4 که قبلاً شرح داده شده بود و نمرات تراز SW را به صورت جفت محاسبه کرد. ما از MDS برای به دست آوردن بردارهای تعبیه شده ایزومتریک با ابعاد مختلف استفاده کردیم ، از 13 تا 19. برای هر طول ، مختصات اقلیدسی توالی های CDR3 را همانطور که در روش Giana شرح داده شده بود محاسبه کردیم و فاصله زوجی را با نمرات SW مقایسه کردیم. حداکثر نمره با ابعاد 16 مشاهده شد (ρ = ρ = -0. 973 ، شکل S1). این نمایندگی شباهت (87 ٪ ) به ماتریس Blosum می رسد:

فارکس را از کجا شروع کنیم...
ما را در سایت فارکس را از کجا شروع کنیم دنبال می کنید

برچسب : نویسنده : علیرضا خمسه بازدید : 89 تاريخ : سه شنبه 8 فروردين 1402 ساعت: 3:47