مونتاژ رونوشت De Novo و کشف ژن ساقه گوشتی Cistanche Deserticola-Ⅰ
Sep 18, 2024
پس زمینه ها
Cistanche deserticola یک گیاه انگلی کاملا غیر فتوسنتزی با ارزش دارویی فراوان است و عمدتاً در صحرای شمال غربی چین توزیع می شود. ساقه گوشتی خشک شده آن یک مقوی حیاتی استطب سنتی چینیبا نقش عمدتاً بهبود عملکرد جنسی مردان و تقویت ایمنی، اما مطالعات مکانیکی کمی تا حدی به دلیل کمبود منابع ژنومی و ترانسکریپتومی انجام شده است.

طب سنتی چینی طبیعی سیستانچ توبولوزا PHGS75% ECH 30% ACT 12%
نتایج
در این مطالعه، توالییابی رونویسی عمیق را در ساقه گوشتی C. deserticola انجام دادیم و حدود 8{14}} میلیون مطالعه با استفاده از توالییابی جفت انتهای ایلومینا در پلتفرم HiSeq2000 ایجاد شد. با استفاده از مونتاژ کننده ترینیتی، 95787 دنباله رونوشت با طول رونوشت از 200 جفت باز تا 15698 جفت باز، با طول متوسط 950 پایه و طول N50 1519 پایه به دست آوردیم. 63957 رونوشت به صورت فعال با FPKM بزرگتر یا برابر 0.5 بیان شد که در آن 30098 رونوشت با توصیف ژن یا اصطلاحات هستی شناسی ژن با تجزیه و تحلیل شباهت توالی در برابر چندین پایگاه داده عمومی (Uniprot، NR، و Nt در NCGBI، و KEG) حاشیه نویسی شدند. . علاوه بر این، ژنهای آنزیمی کلیدی را شناسایی کردیم که در بیوسنتز لیگنین و گلیکوزیدهای فنیل اتانوئیدی (PhGs) نقش دارند که به عنوان مواد اولیه فعال شناخته میشوند. چهار ژن فنیل آلانین آمونیاک لیاز (PAL)، اولین آنزیم کلیدی در بیوسنتز لیگنین و PhG بر اساس مقایسه توالی و تجزیه و تحلیل فیلوژنتیک شناسایی شدند. دو مسیر بیوسنتز PhGs نیز برای اولین بار پیشنهاد شد.
نتیجه گیری
در کل، ما یک تجزیه و تحلیل جهانی از رونوشت ساقه گوشتی C. deserticola را با استفاده از فناوری RNA-seq تکمیل کردیم. مجموعه ای از ژن های آنزیمی مربوط به بیوسنتز لیگنین و گلیکوزیدهای فنیل اتانوئید از رونوشت های مونتاژ شده و حاشیه نویسی شناسایی شد و خانواده ژن PAL نیز پیش بینی شد. داده های توالی حاصل از این مطالعه منبع ارزشمندی برای انجام تحقیقات بیوسنتز گلیکوزیدهای فنیل اتانوئیدی و مطالعات ژنومی عملکردی در این گیاه دارویی مهم در آینده فراهم می کند.
مقدمه
C. deserticola یک تیره جهانی از گیاهان بیابانی چند ساله از خانواده Orobanchaceae و یک گونه کاملا غیر فتوسنتزی است و معمولاً گیاه هولوپارازیت زیرزمینی می روید. روی ریشه های پساموفیت هالوکسیلون آمودندرون (Chenopodiaceae) که به دلیل تحمل زیاد به خشکی و شوری عمدتاً در بیابان ها و نیمه بیابان ها زندگی می کند، انگلی می شود. C. deserticola مقاومت قوی در برابر شرایط سخت محیطی نشان می دهد و عمدتاً در شمال غربی چین، به ویژه در مغولستان داخلی، گانسو و سین کیانگ توزیع می شود. در سال های اخیر به دلیل افزایش مصرف توسط انسان، یکی از گونه های وحشی در خطر انقراض محسوب می شود. C. deserticola که اغلب جینسنگ صحرایی نامیده می شود معمولاً به عنوان جاروک بیابانی شناخته می شود و ساقه گوشتی خشک شده آن به طور گسترده به عنوان یک مقوی سنتی مهم در چین و ژاپن برای سال ها استفاده می شود. در ابتدا تقریباً 1800 سال پیش در Shen Nong Ben Cao Jing (Dictionary of Chinese Materia Medica, 1977) ثبت شد و به عنوان یکی از منابع اصلی در نظر گرفته شد.گیاه دارویی چینی سیستانچ.

توبولوزای طبیعی سیستانچی برای بهبود عملکرد جنسی PHGS75% ECH 30% ACT 12%
عصاره C. deserticola دارای طیف وسیعی از عملکردهای دارویی است، به ویژه برای استفاده در بهبود عملکرد جنسی، تقویت کننده کلیه ها، محافظت از کبد، فعالیت های مناسب، تقویت حافظه، تعدیل کننده ایمنی، فعالیت آنتی اکسیدانی، فعالیت ضد التهابی، ضد ویروسی و غیره. اجزای اصلی فعال زیستی C. deserticola گلیکوزیدهای فنیل اتانوئیدی (PheGs, PhGs) هستند. تا به امروز بیش از 20 گلیکوزید فنیل اتانوئیدی از ساقه آبدار C.deserticola جدا شده است. در میان آنها،اکتئوزید و اکیناکوزیددو جزء اصلی با فعالیت های دارویی قابل توجه هستند و به عنوان استانداردهای کیفیت C. deserticola در فارماکوپیا چینی (نسخه های 2005 و 2010) مستند شده اند. سه جزء شیمیایی PhGs عبارتند از: اسید آلی، ساکارید و فنیل اتانوئید، با این حال، جزئیات مربوط به مسیرهای بیوسنتزی فنیل اتانوئید در C.deserticola ناشناخته باقی مانده است.
علیرغم اهمیت تجاری و دارویی C.deserticola، اطلاعات ژنومی و ترانسکریپتومی این گونه بسیار محدود است. هیچ ESTs در پایگاه داده NCBI موجود نیست و اطلاعات ژنوم کامل این گونه به جز توالی ژنوم کلروپلاست در دسترس نیست. دادههای رونویسی محدود مطالعه مکانیسمهای بیوسنتزی PhG را مانع میشود. فناوری RNA-seq میتواند توالیهایی از بخشهای بیانشده ژنوم هدف را تولید کند و ژنها [18] را با استفاده از پلتفرمهای فناوری NGS (مانند Applied Biosystems SOLiD، Illumina HiSeq و Roche 454) شناسایی کند. این روش به طور فزاینده ای در مونتاژ رونویسی de novo محبوب می شود، زیرا یک رویکرد مقرون به صرفه و قدرتمند با وضوح بالا و دامنه دینامیکی گسترده است، به ویژه از آنجا که مزیتی برای کشف رونوشت های کم فراوانی دارد. به دلیل مزایای مختلف، RNA-seq به طور خاص برای موجودات غیرمدل با منابع ژنتیکی محدود جذاب است. با این حال، هیچ تحقیق دقیقی در مورد رونوشت C. deserticola توسط RNA-seq وجود ندارد.
در این مطالعه، ما رونوشت ساقه را برای C. deserticola با استفاده از پلتفرم Illumina Hiseq2000 توالییابی کردیم و دادههای خام 7.9G را دریافت کردیم. با مونتاژ و حاشیه نویسی، ما ژن های دخیل در بیوسنتز PhG و ژن های مسئول کل بیوسنتز لیگنین را استخراج کردیم. تجزیه و تحلیل RNA-seq ما اولین رونوشت توافقی C. deserticola را ایجاد کرد و بینش جدیدی را در مورد درک جامعی از ارزش دارویی C. deserticola ارائه کرد. علاوه بر این، روش توصیف شده در اینجا می تواند به طور گسترده برای رونوشت های پروفایل به کار رود تا کشف ژن های دخیل در مسیرهای بیوسنتز اجزای دارویی خاص در یک گیاه دارویی دیگر با منابع ژنومی بسیار محدود را تسهیل کند.
مواد و روش ها
مجموعه مواد گیاهی
ساقه ساکولنت تازه برای C. deserticola در مرحله حفاری از یک پایه گیاهی در شهر BayanHot در Alxa League در مغولستان داخلی در شمال غربی چین جمع آوری شد. مجوز جمع آوری از مالک (گروه HongKui CongRong) پایگاه کارخانه گرفته شد. نمونه کوپن در مرکز ژنومیک هسته در موسسه ژنومیک پکن، آکادمی علوم چین سپرده شد. پس از تمیز کردن، بافت های ساقه ساکولنت به قطعات کوچک بریده شدند و بلافاصله در نیتروژن مایع منجمد شدند و سپس تا زمان پردازش بیشتر در درجه -80 نگهداری شدند.
استخراج RNA، ساخت کتابخانه cDNA، و توالی یابی Illumina
RNA کل از ساقه ساکولنت با استفاده از TRIZol Reagent (Invitrogen Inc.، کالیفرنیا، ایالات متحده آمریکا) طبق دستورالعمل سازنده استخراج شد. نمونه های به دست آمده با DNase I برای حذف هر گونه DNA ژنومی تیمار شدند. RNAهای استخراجشده با استفاده از یک آنالایزر زیستی Agilent 21{10}}0 (تکنولوژیهای Agilent) اندازهگیری شدند و با استفاده از الکتروفورز ژل آگارز دناتورهکننده با رنگآمیزی اتیدیوم بروماید از نظر یکپارچگی بررسی شدند. نمونههای RNA با نسبتهای A260/A280 بین 1.9 و 2.1، نسبتهای RNA 28S:18S بالاتر از 1.0 و اعداد یکپارچگی RNA (RINs) -8.5 در آنالیزهای بعدی مورد استفاده قرار گرفتند.
کتابخانه های RNA-seq با استفاده از کیت های آماده سازی نمونه RNA Illumina Truseq تولید شدند. پلی (A)+ RNA از RNA کل با استفاده از دانه های Dynal ligo(dT)25 طبق دستورالعمل سازنده جدا شد. پس از خالص سازی، یک بافر تکه تکه شدن برای شکستن mRNA به قطعات کوتاه اضافه شد. cDNA رشته اول با استفاده از این قطعات کوتاه به عنوان الگو، همراه با سوپراسکریپت III رونوشت معکوس و پرایمر هگزامر تصادفی N6 سنتز شد. سپس cDNA رشته دوم با استفاده از بافر، dNTPs، RNaseH و DNA پلیمراز I سنتز شد. cDNA دو رشته ای حاصل با استفاده از DNA پلیمراز T4، قطعه DNA پلیمراز I Klenow، و T4 پلی نوکلئوتید کیناز، تحت ترمیم نهایی قرار گرفت و به آن متصل شد. آداپتورها با استفاده از T4 DNA لیگاز. قطعات بسته شده با آداپتور با استفاده از کیت استخراج QiaQuick PCR خالص و با بافر EB شسته شدند. پس از آنالیز با استفاده از الکتروفورز ژل آگارز، قطعات مناسب به عنوان الگو برای تکثیر PCR انتخاب شدند. توالی یابی کتابخانه cDNA حاصل با سیستم Illumina HiSeq 2000 انجام شد.
رونوشتهای مونتاژ نو و تعیین کمیت بیان ژن
خواندههای خام تولید شده از توالییابی با حذف توالیهای آداپتور (ATCTCGTATGCCGTC) با استفاده از یک روش داخلی تمیز شدند. سپس یک فرآیند فیلترینگ با کیفیت پایین را انجام دادیم. اولاً، پایههایی با امتیاز کیفیت phred کمتر از 20 از انتهای 3 دنباله تا زمانی که به یک پایه با کیفیت بالاتر (بیشتر یا مساوی 20) تبدیل شوند، بریده میشوند. اگر طول خوانده شده کمتر از 50 جفت باز باشد، دور انداخته میشود. ثانیاً، خواندهها با این معیار فیلتر میشوند که 70 درصد از پایهها در یک خواندن دارای نمرات با کیفیت بالا (بیشتر یا مساوی 20) هستند. ثالثاً، برای مونتاژ بیشتر فقط از خواندن های انتهایی جفت استفاده شد. مونتاژ رونوشت de novo با استفاده از نسخه Trinity_20130216 [30] انجام شد که از سه ماژول نرم افزاری متوالی تشکیل شده بود: Inchworm، Chrysalis، و Butterfly. پارامترهای اسمبلی به صورت زیر تنظیم شدند:-seqType fq-JM 300G -min_contig_length 200-CPU 20-inchworm_cpu {{21} }bflyCPU 20.
برای تعیین کمیت فراوانی رونوشت، قرائتهای جفت پایانی با استفاده از یک اسکریپت در ترینیتی مجدداً با رونوشتهای مونتاژ شده تراز شدند. قرائت های نقشه برداری شده برای تعیین کمیت توسط نرم افزار RSEM (RNA-Seq by Expectation Maximization) استفاده شد. فراوانی ژن یا ایزوفرم با قطعه در هر کیلوباز رونوشت در هر میلیون قطعه نگاشت شده (FPKM) نشان داده شد، آن رونوشت هایی با مقدار FPKM برابر یا بزرگتر از 0.05 به صورت بیان شده تعریف شدند.
حاشیه نویسی کاربردی رونوشت های بیان شده
هیچ مجموعه حاشیه نویسی ژنی برای C. deserticola به جز ژنوم کلروپلاست [1] وجود ندارد. ما رونوشتهای بیان شده را با مقایسه آنها با Genbank Nt، Genbank Nr، و TAIR{1}} pep_20101214_بهطور جداگانه مجموعههای داده بهروزرسانی شده با استفاده از برنامه BLAST حاشیهنویسی کردیم (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.
هستی شناسی ژن و حاشیه نویسی مسیر KEGG با تراز شباهت توالی به پایگاه داده Uniprot ( حاشیه نویسی ژن هستی شناسی (GO) تمام رونوشت های مونتاژ شده با استفاده از یک فایل ارتباطی دانلود شده از (ftp://ftp.ebi.ac.uk/pub/) به دست آمد. databases/GO/goa/UNIPROT/gene{0}}goa{1}}uniprot.gz خوشه بندی اصطلاحات GO با استفاده از اسکریپت های سفارشی انجام شد، و ما ژن ها را در سطح چهارم شرح دادیم. دسته های CC، BP، و MF به طور جداگانه.
اطلاعات مسیر KEGG با استفاده از ابزار آنلاین KAAS (KEGG Automatic Annotation Server) برای تمام توالی های پروتئین پیش بینی شده اختصاص داده شد [34]. توالیها در قالب fasta به درخواست KAAS ارسال شدند و فایلهای حاصل از تمام اطلاعات مسیرهای مربوط به رونوشت ساقه C. deserticola دانلود شد. 13 مجموعه داده ژنی موجودات گیاهی در KEGG برای حاشیه نویسی با استفاده از روش BBH (بهترین ضربه دو جهته) استفاده شد.

عصاره طبیعی سیستانچ توبولوزا سیستانچ PHGS75% ECH 30% ACT 12%
تجزیه و تحلیل RT-qPCR
پس از هضم با DNase I، تقریباً 5 میکروگرم از RNA کل از طریق واکنش رونویسی معکوس با پرایمرهای oligo(dT)15 و سیستم رونویسی معکوس GoScript (Promega) به cDNA رشته اول تبدیل شد. سپس محصولات cDNA قبل از استفاده به عنوان الگو در PCR بلادرنگ 10-با آب دیونیزه شده بدون نوکلئاز رقیق شدند. cDNAهای خاص توسط سیستم GoTaq 2-Step RT-qPCR (Promega) در حجم 20 ul تکثیر شدند. تقویت PCR در دمای بازپخت 60 درجه با سیستم تشخیص 7500 Real-Time PCR (Applied Biosystems) طبق دستورالعمل سازنده انجام شد. فراوانی رونوشت نسبی با روش آستانه چرخه مقایسه ای با ژن "comp10579_c0" به عنوان یک استاندارد داخلی، با استفاده از نرم افزار مدیریت 7500 محاسبه شد.
جفت های پرایمر برای RT-PCR بر اساس نرم افزار آنلاین (http://primer3.ut.ee/) طراحی شده اند و در مجموعه داده S1 فهرست شده اند.
نتایج
توالی یابی RNA و مجموعه رونویسی de novo ساقه گوشتی C. deserticola
ساقه C. deserticola به طور گسترده ای به عنوان یک مقوی سنتی مهم در چین و ژاپن برای سال های زیادی مورد استفاده قرار گرفته است. برای به دست آوردن یک نمای کلی از بیان ژن در ساقه گوشتی C. deserticola، نمونههای ساقه C. deserticola از همان پایه گیاهی را به ترتیب در سالهای 2013 و 2014 جمعآوری کردیم. RNA های کل استخراج شدند و RNA های پلیA+ برای ساخت کتابخانه های RNA-seq با انتهای جفت خالص شدند. 79,433,734 و 86,019,176 جفت خوانده شده مربوط به نزدیک به 8 میلیارد و 8.6 میلیارد پایه دنباله با استفاده از توالی Illumina HiSeq 2000 به دست آمد.

پلت فرم در نمونه های 2013-سال و 2014-سال (جدول 1). پس از حذف دنبالههای آداپتور و فیلتر کردن خواندنهای با کیفیت پایین (به جزئیات در روشها مراجعه کنید)، 64831040 جفت خوانده شده با کیفیت بالا در نمونه سال 2013- برای مونتاژ رونویسی de novo استفاده شد. با استفاده از مونتاژگر توالی Trinity [30]، 51719 ژن و 95787 توالی رونوشت با طول رونوشت از 200 جفت باز تا 15698 جفت باز تولید شد. میانگین طول رونوشت های مونتاژ شده 950 پایه و طول N50 1519 پایه است. تعداد رونوشت ها در طول های مختلف نشان داد که 57.32 درصد از رونوشت های مونتاژ شده حدود 500 جفت باز یا بیشتر بودند (شکل 1A). خوانش های پایان جفت با کیفیت بالا در نمونه سال 2014- به رونوشت مونتاژ شده نگاشت شدند. علاوه بر این، ما دریافتیم که تعداد رونوشت برای هر ژن مونتاژ شده متفاوت است و 69٪ از ژن ها با یک ایزوفرم بیان می شوند در حالی که 31٪ از ژن ها دو یا چند رونوشت را بیان می کنند (شکل 1B).
کمی سازی بیان و حاشیه نویسی عملکردی رونوشت های مونتاژ شده
فراوانی ژن یا رونوشت با استفاده از بسته RSEM اندازهگیری شد، که در آن قرائتهای توالیشده مجدداً با ژنهای مونتاژ شده یا توالیهای رونوشت با استفاده از Bowtie تراز شدند، و آن قرائتهای نقشهبرداری شده برای کمیسازی استفاده شد. مقدار FPKM برای هر ژن یا رونوشت محاسبه شد و در نهایت، 63957 و 52857 رونوشت به طور فعال بیان شده (مقدار FPKM بزرگتر یا برابر با 0.5) در نمونههای ساقه گوشتی C. deserticola در 2 شناسایی کردیم{17} }13 و 2014 به ترتیب. 44776 رونوشت (70.01% در 2013-نمونه سال، 84.71% در 2014-نمونه سال) معمولاً در دو تکرار بیان شد و همبستگی (ضریب همبستگی پیرسون: 0.91979) دادههای بیان آنها بود. در شکل S1 نشان داده شده است. داده های خام توالی یابی در پایگاه داده NCBI SRA (شماره های دسترسی: SRX857402 و SRX858938) آپلود شده بودند. ما از ژن های بیان شده شناسایی شده در نمونه 2013-سال برای تجزیه و تحلیل بیشتر استفاده کردیم. اطلاعات حاشیه نویسی عملکردی برای همه رونوشت های بیان شده با استفاده از دو روش به دست آمد. در مرحله اول، تمام رونوشت های بیان شده به طور جداگانه توسط الگوریتم BLAST با پایگاه داده های نوکلئوتیدی شناخته شده (GenBank nt) و توالی پپتیدی (GenBank nr و پپتید Arabidopsis) هم تراز شدند. از 63957 رونوشت بیان شده،

29220 (45.7%) حاشیه نویسی شدند و همسانی با توالی در هر یک از سه پایگاه داده موضوعی با برش مقدار E 1e-20 نشان دادند. در همین حال، مناطق کدگذاری کاندید برای تمام توالیهای رونوشت بیان شده با استفاده از نرمافزار TransDecoder پیشبینی شد و طولانیترین ORF برای هر رونوشت برای جستجوی دامنه Pfam استفاده شد. در نتیجه، 21358 (33.4٪) رونوشت بر اساس پایگاه داده Pfam حاشیه نویسی شد. به طور کلی، 30,098 (47.1٪) رونوشت به طور قابل توجهی با ژن های شناخته شده در پایگاه های داده عمومی با ترکیب دو روش بالا مطابقت داشتند. فهرست کامل رونوشت های بیان شده با حاشیه نویسی تابع در داده های تکمیلی (S2 Dataset) نشان داده شد.
ما 20 رونوشت با بیشترین بیان را بررسی کردیم (جدول 2) که مربوط به 18.99٪ از کل توالیخوانیها است، و دریافتیم که اکثر آنها ژنهایی هستند که به غیر زنده پاسخ میدهند.

محرک استرس دهیدرین (DHNs)، یک کلاس از پروتئینهای استرس آبدوست و پایدار با تعداد زیادی اسید آمینه باردار که به خانواده گروه دوم جنینزایی فراوان (LEA) تعلق دارند، ژن با بیان بالا است. سه رونوشت مختلف دهیرین (comp{0}}c0_seq1/2/4) بهعنوان بسیار در ساقههای گوشتی که ممکن است در محافظت از سلولها در برابر آسیب ناشی از تنش خشکی نقش داشته باشند، شناسایی شدند. ژنهای مرتبط با استرس دیگر مانند پروتئین شوک حرارتی، پروتئین مرتبط با بیماریزا و متالوتیونین نیز به میزان زیادی بیان شدهاند که ممکن است به محیط بقای شدید آن مرتبط باشد. علاوه بر این، برخی از ژنهای سازنده شامل ژن RNA ریبوزومی 26S (comp22329_c2_seq1)، پروتئین سرکوبشده با اکسین/ارتباط با خواب (comp20999_c0_seq1)، عامل ریبوسیلاسیون ADP (comp{17}} c0_seq1) نیز بسیار رونویسی شد.

توبولوزای طبیعی سیستانچ برای بهبود ایمنی PHGS75% ECH 30% ACT 12%







