泛基因组分析方案

示例1:《 与胰腺癌相关的重要基因本体论术语和生物学途径分析 》IF: 2.197

备注:本文主要来源于 知乎《全新的泛基因组解决方案》 。关于大豆泛基因组文章解读,请看往期记录 《大豆(Soybean, Glycine max)泛基因组2020Cell》 。

kegg代谢通路_kegg代谢通路图怎么看kegg代谢通路_kegg代谢通路图怎么看


kegg代谢通路_kegg代谢通路图怎么看


2.Gour, Pratibha et al. “Variety-specific transcript accumulation during reproductive stage in drought-stressed r.” Physiologia plantarum , 10.1111/ppl.13585. 15 Oct. 2021, doi:10.1111/ppl.13585

泛基因组包含多个材料的基因组数据,非常适合进行材料间的比较基因组分析,挖掘群体/个体材料的特有基因,从而在全基因组水平上了解不同材料间的共性与特性,进而了解其基因组结构、基因功能,探究特有基因与特殊生物学性状的关系,推断物种进化地位及适应性机制。

例如,大豆泛基因组研究[1]中,研究者通过WGD(Whole genome duplication,全基因组)分析,发现WGD区域包含较高比例的核心基因和次核心基因,而非WGD区域包含较高比例的非必需基因和特有基因。比较WGD和non-WGD之间的核苷酸多样性,发现WGD区域基因核苷酸多样性显著低于非WGD区域。同时,在非WGD区域发现了更多的SVs,且与非WGD区域相比,WGD区域拥有较少特有SVs。研究结果表明基因组可以作为一种重要的遗传力来影响SVs的进化。

泛基因组中的基因分为核心基因和非必需基因,不同类型基因在特征和功能上具有明显异,通过对不同类型基因集的比较,可以进一步揭示物种的基因组变化和适应性机制。

通过泛基因集的大小模拟(即泛基因和核心基因累计分析),可以预测该物种泛基集的理论大小、挖掘个体特有基因、了解个体基因组成、明确物种核心基因和非必需基因的占比等。

例如,大豆泛基因组研究[1]中,研究者对核心基因和非必需基因数目进行模拟,发现总基因随着新基因组的加入而增加,并在n=25时接近平缓,表明这27份大豆材料非常具有代表性,已包含绝大多数的大豆基因信息。此外,短柄草[2]和番茄[3]等泛基因组研究也做了类似的分析。

通过功能富集分析,可以直观了解不同类型基因集的功能,有助于挖掘影响特殊生物学性状形成的特有基因资源。

此外,短柄草[2]、番茄[3]、甘蓝[4]等泛基因组研究均有类似发现。

对不同类型基因集进行保守性分析,有助于挖掘适应性进化或驯化中发挥关键作用的基因。

例如,大豆泛基因组研究[1]中,对不同类型的基因进行保守性比较,结果表明含有InterPro结构域的核心基因和次核心基因远远高于非必需基因和特有基因,非必需基因的核苷酸多样性(π)和 dN / dS (非同义替换率与同义替换率的的比值)均高于核心基因,这些结果表明核心基因比非必需基因在功能上更保守。短柄草泛基因组研究[2]也有类似的发现。

例如,短柄草泛基因组研究[2]中,研究者发现染色体上非必需基因与核心基因的比率与种内TE活性高度相关,在染色体的着丝粒周围区域,非必需基因与核心基因的比率更高。甘蓝泛基因组研究[4]中也有类似的发现,与核心基因相比,非必需基因周围具有较高TE密度。

核心基因与非必需基因功能不同,表达量也有异。

例如,短柄草泛基因组研究[2]中,研究者发现与非必需基因相比,核心基因通常有更高表达水平,并且在组织中更广泛地表达。番茄泛基因组研究[3]也做有类似的发现。

相比于原核生物基因组主要由基因序列组成,真核生物基因组中有超过50%的基因组可能是基因间的,并且基因序列本身还包含内含子。因此,真核生物泛基因组除了要关注基因外,也应该关注序列的变异。根据泛基因组进行结构变异分析,可以深入挖掘重要性状的调控基因,解析表型多样性形成的遗传基础。

将所有基因组中整合得到的非冗余SVs,同样基于核心基因和非必须基因类似的策略进行核心和非必需SVs划分和比较。通过核心和非必需SVs累计曲线,可以预测该物种泛基组的理论大小、挖掘个体特有结构变异。

例如,大豆泛基因组研究[1]中,研究者根据SVs的等位基因频率,将SVs分为4类:核心SVs、次核心SVs、非必需SVs或特有SVs。与核心基因和非必需基因的累计分布模式相似,非冗余SVs集随着样本的加入而增长,并且趋于平缓。同时,核心SVs集逐渐减少,最终有130个SVs为所有样本共有。番茄结构变异研究[5]也有类似的SVs累计分布趋势的发现。

在基因组从头组装的基础上,把该物种的所有遗传变异的信息都添加到参考基因组中,表示为含有替代路径的图形结构,从而进行图形结构泛基因构建,该泛基因组极大的涵盖了个体间的异信息,为物种研究提供更全面的遗传信息。例如,大豆泛基因组研究[1]首次采用了图形结构的泛基因组构建方法,打破了传统线性基因组的存储形式,展示了物种更全面的遗传信息,为后续基因组学的其他研究奠定良好的基础。

通过泛基因组序列及基因结构分析,不仅可以检测到先前的等位基因,而且可以发现新的基因结构变异,包括基因融合。

例如,大豆泛基因组研究[1]发现开花基因E3 基因结构变异导致其自身移码甚至与其他基因融合,从而影响大豆的开花。

通过对SVs所在的区域进行分类展示,并结合转录组数据对基因表达进行分析,有助于挖掘影响基因表达的关键SVs。

例如,番茄结构变异研究[5]通过检测有和无SVs时相关基因的异表达程度,来检测受SVs影响的表达基因。结果发现在21,156个SV-基因对中发现数百个显著的表达改变。研究表明结构变异通过改变基因剂量效应和表达水平,从而影响果实的风味,大小和产量。

为全面捕获物种所有的基因组信息,建议 基于经验或群体结构信息选择代表性的个体 进行泛基因组构建, 样本个数≥5个 ,具体可根据物种基因组大小、复杂度及群体复杂度进行调整。

大豆泛基因组研究[1]中,研究者通过2,898份大豆的重测序和进化树构建,选择了26份在系统发育关系和地理分布方面代表性的材料进行泛基因组构建。大麦泛基因组研究[7] 中,研究者通过19,778份大麦种质的基因分型数据的PCA(包含不同地理来源、行类型、生长习性等材料)选择了20份大麦来代表其遗传多样性。

采用 PacBio HiFi测序 ,读长长且准确,测序深度≥ 15X/样本 。

HiFi组装作为组装界的新秀,具有组装周期短,准确性高,连续性好,简单基因组和复杂基因组通吃的特点,对于泛基因组这样的大样本量基因组组装尤其合适,大幅缩短组装周期,提高组装准确性和连续性。

缺点是贵。目前真正用HiFi来做泛基因组的还是很少,但二代和三代都有,二代组装相对来说比较碎,可能研究不了太深的问题。

参考文献:

1. Liu Yucheng, Du Huilong, Li Pengcheng et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell , 2020.

3. Gao Lei, Gonda Itay, Sun Honghe et al. The Tomato Pan-Genome Uncovers New Genes and a Rare Allele Regulating Fruit Flor[J]. Nature Genetics , 2019.

4. Golicz Agnieszka A, Bayer Philipp E, Barker Guy C et al. The Pangenome of an Agronomically Important Crop Plant Brassica oleracea[J]. Nature Communications , 2016.

6. Tao Yongfu, Jordan Did R, Mace Emma S. A Graph-Based Pan-Genome Guides Biological Discovery[J]. Molecular Plant , 2020.

7. Jayakodi Muruhick, Padmarasu Sudharsan, Haberer Georg et al. The Barley Pan-Genome Rals the Hidden Legacy of Mutation Breeding[J]. Nature , 2020.

8. Wenger Aaron M, Peluso Paul, Rowell William J et al. Accurate Circular Consensus Long-Read Sequencing Improves Variant Detection and Assembly of a Human Genome[J]. Nature Biotechnology , 2019.

GO、KEGG富集分析(一)有参情况

基于基因组序列比对进行基因组SVs的检测,可以对SVs特征进行分析,如对SVs类型、长度分布、基因组分布、重复含量进行比较等。番茄结构变异研究[5]中,研究者构建了最全面的pan-SV基因组,并对SVs的特征进行详细分析,结果表明大多数SVs相对较小,SVs通常由转座子和相关重复序列组成或产生。大豆泛基因组研究[1]也有类似内容。

对基因的描述一般从三个层面进行:

这三个层面具体是指:

得到GO注释

做GO分析的思路:

比如,在疾病研究的时候,进行物治疗之后某些基因的表达量明显的发生了变化,拿这些基因去做GO分析发现在Biological process过程当中集中在RNA修饰上,然后在此基础上继续进行挖掘。这个例子就是想启示大家拿到异表达基因DEG只是一个开始,接下来就应该去做GO注释,之后需要进行一个分析看这些注释主要集中在哪个地方。如我们有100个异表达基因其中有99个都集中在细胞核里,那我们通过GO分析就得到了一个显著的分布。

GO富集分析原理:

有一个term注释了100个异表达基因参与了哪个过程,注释完之后(模式生此外,clusterProfiler中也额外提供了一系列的可视化方案用于展示本次富集分析结果,具有极大的便利。物都有现成的注释包,不用我们自己注释),计算相对于背景它是否显著集中在某条通路、某一个细胞学定位、某一种生物学功能。

clusterProfiler是一个功能强大的R包,同时支持GO和KEGG的富集分析,而且可视化功能非常的,本章主要介绍利用这个R包来进行Gene Ontology的富集分析。

进行GO分析时,需要考虑的一个基础因素就是基因的GO注释信息从何处获取。Bioconductor上提供了以下19个物种的Org类型的包,包含了这些物种的GO注释信息

对于以上19个物种,只需要安装对应的org包,clusterProfile就会自动从中获取GO注释信息,我们只需要异基因的列表就可以了,使用起来非常方便。

1.1 准备输入数据

待分析的数据就是一串基因名称了,可以是ensembl id、entrze id或者symbol id等类型都可以。把基因名称以一列的形式排开,放在一个文本文件中(例如命名“gene.txt”)。Excel中查看,就是如下示例这种样式。

1.3 GO富集分析

加载了注释库之后,读取基因列表文件,并使用clusterProfiler的内部函数enrichGO()即可完成GO富集分析。

读取基因列表文件,并使用clusterProfiler的内部函数enrichKEGG()即可完成KEGG富集分析。

参考:

gokegg富集分析意义

为了承受环境胁迫,植物进化出相互关联的调节途径,使它们能够及时响应和适应环境。非生物胁迫条件影响植物生理学的许多方面并引起细胞过程的广泛变化。而对非生物胁迫后植物抗性机制的的研究则对后续育种等具有巨大意义。对于胁迫研究往往以构建“逆境”环境,寻找“异性状”,探究“异变化”的形式进行,通常结合生理试验,以生理指标异为源头进行植物抗逆研究,再运用转录组技术,在转录调控层面寻找抗逆的关键或基因再进行后续研究。

Gokegg富集分析是一种生物信息学工具,用于分析一组基因在细胞、(3)增加了p-value的展示。p值的负对数分配给y轴(越高就越重要),统计学基础是超几何分布。( 从总的N个基因中挑出n个基因,作为分母(这是背景基因),分子则是M个基因(我们的异基因,这是前景基因),有k个落在了某通路里,有n-k个不落在了某通路里,然后使用超几何分布来对它们进行计算,即前景基因落在某通路的比例是否高于背景基因在这一通路的比例 )组织或生物体中是否具有共同的生物学功能或通路。它可以将不同基因集之间的异性比较和功能注释结果整合起来,进而预测哪些生物学过程与不同基因集相关联。

通过Gokegg富集分析,可以深入了解不同基因集之间的功能和生物学过程异,揭示这些异在疾病的发生和发展中的作用。例如,在基因表达谱分析中,可以将受到某种干预处理的基因集与对照组基因集进行比较,以了解这种干预处理对生物学过程和通路的影响。此外,Gokegg富集分析还可以为疾病的分子机制研究和新开发提供重要的线索和理论基础。

总之,Gokegg富集分析具有重要的生物信息学意义和实际应用价值,它可以帮助我们更好地理解基因和生物学过程之间的关系,促进疾病诊断、治疗和预防的研究。

go富集和kegg富集区别

研究内容: 文章探究了盐胁迫下水稻种子质量的变化,与普通土地种植相比,在盐富集区域种植的粳稻Samgwang的种子中钠、镁、钾等矿物质积累大大增加,产量降低,抽穗延迟,粒重下降。因此,研究使用RNA-seq技术对 在高盐土地和正常土地生长的发育中的种子进行了转录组分析。

一直都搞不清楚这两者的具体区别,只知道是将基因富集到代谢上。

综合分析表明, 这两个水稻品种对BDE-47反应的不同防御能力归因于它们在能量消耗策略和籽粒营养成分生物合成方面的异 。本研究为多溴二苯醚污染地区的水稻栽培提供了有益的参考。

前者是功能注释,即每个基因可能参与哪些pathway terms 或者 GO terms,没有阀值的。

后者是功能富集,即基因集(多个基因)可能显著的集中在哪些功能上面

例如选择P<0.05.得到的结果都是显著性富集的pathway terms或者GO terms。

GO

GO是Gene ontology的缩写,GO数据库分别从功能、参与的生物途径及细胞中的定位对基因产物进行了标准化描述

即对基因产物进行简单注释,通过GO富集分析可以粗略了解异基因富集在哪些生物学功能、途径或者细胞定位。

Pathway

Pathway指代谢通路,对异基因进行pathway分析,可以了解实验条件下显著改变的代谢通路,在机制研究中显得尤为重要。

GO分析好比是将基因分门别类放入一个个功能类群的篮子,pathway则是将基因一个个具体放到代谢网络中的指定位置。

KEGG有多少个一级分类

结果:

有七个一级分类。

例如,大豆泛基因组研究[1]中,Pfam富集分析和GO富集分析显示,核心基因在与生长、免疫、、细胞发生等相关的生物学过程中富集,而非必需和特有基因在生物和非生物胁迫响应过程中富集。KEGG通路分析表明,核心基因富含与基础代谢和次生代谢产物生物合成有关的途径,非必需基因在特定代谢相关的途径富集。

分类是:新陈代谢、遗传信息处理、环境信息处理、细胞过程、生物体系统、人类疾病和物发展。

KEGGPATHWAY数据库,收录了人工手绘的通路图,重点呈现了分子间相互作用和分子间互作网络。

转录组文章 | 2019《Environment International》水稻---四醚BDE-47

有些情况下KEGG会报错:

PBDEs被公认为新兴的一种普遍存在的 持久性有机污染物 ,通常在聚合物泡沫、建筑材料、塑料、电子和家具中用作阻燃剂。其中BDE-47由于分布广泛,并具有高亲脂性和半衰期长的特点,是在环境中检测到的最普遍的PBDEs之一。2,2‘,4,4’-四醚(BDE-47)是一种主要的多溴二苯醚(PBDE)。累积的研究表明,BDE-47可以诱导代谢反应并改变动物和人类细胞中相关基因的表达。然而,关于BDE-47在作物中引起的代谢组学和转录组学改变的分子机制的研究较少。

共识是整个通路的定位预测

2,2‘,4,4’-四醚(BDE-47)是一种主要的多溴二苯醚(PBDE),因其对环境的影响而受到广泛关注。本研究分别对 两个水稻品种 , BDE-47耐受 的连粳7号(LJ-7)和 敏感 的品种甬优9号(YY-9)进行了代谢组学和转录组分析,研究它们对BDE-47耐受能力不同的分子机制。研究发现:

3.代谢途径和KEGG富集分析表明,BDE-47抑制了这两个水稻品种能量消耗和生物合成等许多生物学过程。而BDE-47增加了YY-9的能量消耗,而抑制了生物合成过程,导致YY-9对BDE-47的敏感性。

本研究选择BDE-47的 耐受性材料LJ-7和敏感性材料YY-9 ,分别种植于 0、1、10和50 mg/kg BDE-47四个不同浓度 的土壤中,约180天后收集谷物。分析两个水稻品种BDE-47浓度及地上部分长度测定,同时去除稻壳后得到糙米进行转录组和代谢组分析。通过对 异表达基因和异代谢物的联合分析 ,挖掘不同抗性材料对不同浓度BDE-47的分子响应机制。

通过GC-MS对两个抗性异品种籽粒中代谢产物的变化进行了分析,经BDE-47处理后, 两品种中代谢物含量相比对照组都发生明显变化,尤其是10 mg/kg和50 mg/kg浓度组与对照组相比异显著。这两个品种的代谢产物含量表现出相反的趋势。 与对照组相比,LJ-7中的65种代谢产物和YY-9中的45种代谢产物的浓度变化显著。

经PCA分析,发现不同浓度污染物中代谢物分布的区别 :

RNA-Seq结果表明,两个水稻品种 表达的基因总数不同 。在LJ-7籽粒中检测到55802个基因,在YY-9中检测到55986个基因。

FDR<0.05的基因被定义为异表达基因(DEG)。通过火山图可以直观的看到,

DEG 的 GO 和 KEGG 富集分析

KEGG富集分析发现,

KEGG富集分析表明,两个品种的代谢途径均增强,表明DEG与代谢物关系密切。

整体来说,在YY-9的谷物中TCA循环增加,而糖和氨基酸的生物合成受到抑制。而LJ-7品种的谷物糖代谢、氨基酸代谢生物合成相关酶增加。

研究人员通过代谢途径分析暴露于BDE-47的两个水稻品种的生物学过程的变化。分析发现,LJ-7和YY-9分别有12条和4条代谢途径显著变化。两个品种的氨基酸代谢、糖代谢和三羧酸循环(TCA循环)均发生了显着变化。

为了在转录组水平上研究BDE-47对LJ-7和YY-9细胞的代谢反应机制,研究人员重点研究关键生物学过程相关基因的表达水平。结合代谢组学结果,重点研究了 糖代谢、氨基酸代谢和TCA循环途径的基因表达 。代谢物浓度的变化与相关酶的基因表达是一致的。

在LJ-7中,大部分编码上述三个途径中的关键酶的基因表达上调:

YY-9与LJ-7相比,大部分编码上述三个途径中的关键酶的基因表达下调:

YY-9籽粒中的TCA循环被激活,而糖和氨基酸的生物合成受到抑制。

糖代谢:

LJ-7在暴露于10和50 mg / kg的BDE-47后, d-葡萄糖的含量增加了约1.3倍。d-葡萄糖作为光合作用的重要产物,是谷物的主要的碳和能源来源。其次己糖激酶的水平增加,由于只有磷酸化的己糖在植物的生命活动中有效,因此己糖激酶被认为在己糖磷酸化的信号传递中起关键作用。己糖激酶在糖利用的调节中起双重作用,其一可充当糖酵解过程中d-葡萄糖和d-果糖的传感器;其二可作为ROS自由基的清除剂,防止氧化损伤植物细胞。LJ-7谷物中的酶和代谢产物共同抵抗BDE-47暴露后的能量消耗。而在YY-9的谷粒中大部分基因受到抑制,与相关代谢产物的变化一致,这表明YY-9无法产生更多的能量物质来对抗BDE-47的暴露。

氨基酸代谢:

将LJ-7品种分别暴露于10 mg / kg和50 mg / kg的BDE-47后,籽粒中L-赖氨酸的含量分别增加了2.9倍和7.4倍。L-赖氨酸在应对非生物胁迫条件如水分限制、营养限制和氧化胁迫中起重要作用。转录组发现与l-赖氨酸相关的基因表达增强,进一步的促进赖氨酸的生物合成从而发挥抗性品质。与LJ-7中的氨基酸不同,YY-9的谷物中氨基酸变化不显著。综上所述,两个品种之间氨基酸代谢的显着对比表明,在暴露于BDE-47的条件下,LJ-7在植物生长中采取了更为复杂的反应。与YY-9相比,LJ-7中糖和氨基酸的代谢相对活跃,从而解释它们对BDE-47的耐受性的异。

结论

利用水稻籽粒代谢组学和转录组相结合的分析方法,研究了两个水稻品种对BDE-47抗性的分子异。

这些结果为揭示环境污染物对水稻不同生物效应的分子机制提供了有益的启示。

代谢组学和转录组学的综合分析揭示了接触BDE-47引起的代谢物和基因的变化。本研究重点关注水稻籽粒中发生的代谢和转录变化。对作物如何系统地对不利环境做出反应提供了新的见解,旨在帮助育种中的生物标记物选择,并降低可能受到多溴二苯醚污染的农田中的作物健康风险。但是BDE-47对粮食产量和品质的影响目前仍不清楚。利用这两个水稻品种进一步研究环境污染物对作物品质的影响,探索较低浓度的BDE-47和其他污染物的潜在影响是后续研究的重点。

原文网址:

英文文献翻译,先翻译一段,再发原文件,如果没问题的话,再给50分。如能相助,不胜感激。

研究表明,非必需基因更可能在重复序列区域富集。对不同类型基因集所在的重复区域进行统计。

网上的泛基因组产品采用从头组装的策略进行泛基因组构建,分析内容包括比较基因组分析、核心基因和非必需基因分析、结构变异(SVs)分析和图形结构基因组的构建。具体内容如下:方法代谢网络重建。代谢网络重建始于识别的关键途径是包括在代谢模型。基本结构这些途径是从日本(

联机方法

代谢网络重组。代谢网络重组是从识别包括在中心代谢模型中的诸关键路径开始的。这些路径的基本结构出自KEGG。各个反馈被定位给一些特定的细胞机器和首先使用文献证据的区间。当没有文献证据可以被识别来定位给某个具体的反馈之时,我们便结合同一路径上的临近反馈的定位,采用亚细胞定位预测,以做出一个合理的定位分配。在整个路径缺乏任何文献基本定位信息的情况下,对整个路径定位预测的一致性是使邻近的反馈得以连接的保证

网上的方法

代谢网络重建。代谢网络

重建开始鉴定的主要途径

包括在的代谢模型。的基本结构

这些途径提取KEGG

KEGG/ pathway.html)。反应定位于特定的细胞器

车厢主要使用文献证据。如果没有

本地化特定的文献证据,可以认定

反应,我们提请结合亚细胞定位预测

与邻国相同的途径反应的本地化

合理本地化转让。在任何情况下

文学为基础的整个通路的定位信息,

邻国的反应,以确保连接

1519083510@qq

在线方式

网上的方法

翻译机直接翻都能被了。。。。

转录组文章 | 非生物胁迫篇

在自然界中,植物不断受到不利的非生物环境条件的挑战,例如干旱、高温、寒冷、营养缺乏以及土壤中过量的盐分或有毒金属。这些非生物胁迫限制了全球对耕地的利用,并对作物生产力产生了负面影响。因此,了解植物如何感知胁迫信号并适应不利的环境条件对于全球粮食安全至关重要。

转录组在非生物胁迫研究中运用十分普遍,虽然不同的本研究为苜蓿耐碱机制研究提供了新见解。胁迫机制存在异,但运用转录组技术进行研究的思路普遍相似, 关键在于探究抗性异的调控机制 。

文章题目: Transcriptional profiling rals changes in gene regulation and signaling transduction pathways during temperature stress in wucai (Brassica campestris L.)

发表刊物: BMC Genomics

发表时间: 2021年9月

研究内容: 研究通过设立低温(LT)、高温(HT)和对照组,探究五彩油菜对温度的响应机制。

(1)根据转录组学研究, 与对照组相比,HT和LT中异表达基因的数量 分别为10702和7267。

(2)为了进一步研究五彩油菜对温度反应的关键基因。对异基因进行GO和KEGG注释,结果表明 光合作用和光合作用天线蛋白途径在五彩油菜温度响应机制中十分重要 。而且进一步发现, 高温缓解极大地限制了光合作用途径中重要基因的表达,而低温会导致此途径某些关键基因表达上升。 综上,五彩幼苗在低温条件下表现出比高温调节更好的光合性能。

根据上述结果,研究推测在低温胁迫下,植物通过上调光合作用基因的表达从而得到更高的耐冷性。相反高温胁迫则抑制了关键基因的表达,削弱了植物的自我调节能力。

文章题目: Variety-specific transcript accumulation during reproductive stage in drought stressed r

发表刊物: Physiol Plant

发表时间: 2021年10月

研究内容: 对进行干旱处理的N22(耐旱)和IR64(干旱敏感)植物抽穗阶段组织(叶、花和根)进行转录组测序并比较分析。

(1) 发现N22的异表达基因数量几乎是IR64的 两倍 。许多异表达基因与 干旱相关的QTL中定位 。 这些QTL参与谷物的产量与耐旱性,也与耐旱性和关键的干旱相关植物性状有关。

(3)这些 品种特异性异基因 与1300多个基因发现相互作用。其中包括32个与其他品种特异性异基因存在相互作用的基因。这些基因的 启动子区域 在两个水稻品种间也 存在序列异 。这表明了转录调控异对于植物发展耐旱性的重要性。 基于序列的变异(启动子)可以部分解释独评论特的品种特异性转录行为。

文章题目: Transcriptional Changes in the Dloping R Seeds Under Salt Stress Suggest Targets for Manipulating Seed Quality

发表刊物: Front Plant Sci

发表时间: 2021年12月

(1) GO富集分析 表明,上调基因与氨基酸、木质素、多糖和几丁质等生物分子的代谢以及应激反应密切相关。

(2)通过对 代谢通路分析 ,上调基因参与脱落酸和褪黑激素的生物合成途径以及海藻糖、棉子糖和麦芽糖与生态胁迫的关系。

(3)在盐胁迫下发育中的种子上调的 转录因子 包括bHLH、MYB和热休克蛋白等

这些可以做为盐胁迫下种子质量调控的潜在目标。研究目的在为阐明盐胁迫下种子响应机制与种子质量下降之间的关系提供有用的参考,为盐胁迫下种子质量的改善提供潜在策略。

文章题目: Physiological and transcriptomic yses ral novel insights into the cultivar-specic response to alkaline stress in alfalfa (MedicagosativaL.)

发表时间: 2021年11月

研究内容: 研究使用了 对碱性条件具有不同敏感性的两种紫花苜蓿品种 进行了生理和转录组学分析。碱敏品种Algonquin(AG)经碱处理后叶绿素含量和地上部鲜重急剧下降,而耐碱品种Gongnong No.1(GN)保持相对稳定的生长和叶绿素内容。

(1) 生理分析 表明,与AG相比,GN的Ca/Mg离子含量较高;碱性条件下ca/Mg/Na离子、脯氨酸和可溶性糖的比值以及物酶(POD)和氢酶(CAT)的活性降低。

(2) 转录组学分析确定两个品种之间的三类碱反应异表达基因 ;48个基因在两个品种(CAR)中 普遍诱导 ,574个基因 来自耐受品种(TAR) ,493个基因 来自敏感品种(SAR) 。

(3) GO和KEGG分析表明 ,CAR基因主要参与苯丙烷类生物合成、脂质代谢以及DNA和修复;TAR基因在代谢途径、次生代谢物的合成、MAPK信号通路、黄酮类和氨基酸的生物合成富集;SAR基因特别富含维生素B6代谢。

参考文献:

1.Yuan, Lingyun et al. “Transcriptional profiling rals changes in gene regulation and signaling transduction pathways during temperature stress in wucai (Brassica campestris L.).” BMC genomics vol. 22,1 687. 22 Sep. 2021, doi:10.1186/s12864-021-07981-9

3.Lee, Choonseok et al. “Transcriptional Changes in the Dloping R Seeds Under Salt Stress Suggest Targets for Manipulating Seed Quality.” Frontiers in plant science vol. 12 748273. 8 Nov. 2021, doi:10.3389/fpls.2021.748273

4.Wei, Tian-Jiao et al. “Physiological and transcriptomic yses ral novel insights into the cultivar-specific response to alkaline stress in alfalfa (Medicago sativa L.).” Ecotoxicology and environmental safety , vol. 228 113017. 22 Nov. 2021, doi:10.1016/j.ecoenv.2021.113017

RNA-Seq(9):使用GSEA做GO/KEGG富集分析

在线方法

最广为人知的富集分析做法是把上调、下调基因分别或者合并,拿来做GO和KEGG富集分析。经常有一些数据集,拿异基因做得不到结果,那是因为确实富集不到任何通路,是正常的。不妨试试GSEA,不是拿异基因,而是拿全部基因作为输入。

GSEA与GO,KEGG分析区别:GO,KEGG分析更加依赖异基因,实则是对一部分基因的分析 (忽略异不显著的基因),而GSEA是从全体基因的表达矩阵中找出具有协同异 (concordant differences)的基因集,故能兼顾异较小的基因

GO,KEGG富集是定性的分析,GSEA考虑到了表达或其它度量水平的值的影响。GSEA分析不需要指定阈值(p值或FDR)来筛选异基因,在没有经验存在的情况下分析我们感兴趣的基因集,而这个基因集不一定是显著异表达的基因。GSEA分析可以将那些GO/KEGG富集分信息中容易遗漏掉的异表达发表刊物: Ecotox Environ Safe不显著却有着重要生物学意义的基因包含在内。

另外,对于时间序列数据或样品有定量属性时,GSEA的优势会更明显,不需要每个分组分别进行富集,直接对整体进行处理。

数据准备,制作geneList

我们现在知道Cytokine-cytokine receptor interaction setSize enrichmentScore是被抑制的,如果还想看一下这个通路里面的基因是如何变化的,应该怎么办呢,pathview 可以帮到我们。

camp信号通路的作用机制

2. Gordon Sean P, Contreras-Moreira Bruno, Woods Daniel P et al. Extensive Gene Content Variation in the Brachypodium distachyon Pan-Genome Correlates with Population Structure[J]. Nature Communications , 2017.

cAMP信号通路是环核苷酸信号传导通路的一种。和大部分信号传导类型的通路一样,cAMP通路是从细胞外信号与相应受体结合开始,然后通过调节细胞内第二信使cAMP的浓度来调节下游细胞内信号传导。

传导为了深入了解DEG的生物学意义,研究人员进行了GO和KEGG富集分析。GO富集分析发现所有DEG可分为生物过程、细胞组成和分子功能三大类。路径

cAMP通路完全处于右侧这个簇,即属于信号传导相关通路的簇。在这个35个通路中,cAMP通路一共与4个通路存在直接连接,看起来不像MAPK通路等那么热门。如果在整个kegg数据库中,与cAMP通路存在直接关系的通路有25个。不要与MAPK通路比较后,你就“嫌弃”cAMP不够热门,其实这个数量在kegg数据库里也是排名前30了,而且其中有不少热门通路,可见cAMP通路依然处于非常核心的位置。

传导通径

富集分析第二弹

5. Alonge Michael, Wang Xingang, Benoit Matthias et al. Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato[J]. Cell , 2020.

富集分析,来自于Enrichment这个词语

F or example, given a set of genes that are up-regulated under certain conditions, an enrichment ysis will find which Ontology terms are over-represented (or under-represented) using annotations for that gene set.

通俗来说:富集分析是基于一个先验的知识图谱将输入内容进行聚类分析,得到聚类后结果。

上句话中逐个概念解析:

GO 富集结果(柱状图)

结果解析:我们可以基于柱状图,清楚的看出,每一个聚类后结果(横轴下方的字段),以及每一个分类所对应的基因/基因产物数量(此图中为蛋白质数量)

上图是气泡图形式,由于GO有三个互不交集的ontology本体,所以要单独分区展示。气泡图比柱状图可以多展现1个维度,在上图中,体现了4个维度信息:

(1)气泡表示分类条目

(2)气泡大小表示基因/基因产物数量。

(4)表达量的上下调。横轴zscore表示是表达量是高了还是低了(一般应用于RNA和蛋白中,基因一般不涉及)。 [上传失败...(image-efb449-1611106941603)]

点击一个分类,可以查看其所对应的局部知识图谱

得到目标对象(基因或者基因产物)的富集结果(词条)后,通过查看网站对词条的注释声明,来验证或判断目标对象作为生物标志物的合理性。

方示例

示例 2: 《 使用基因本体论术语和KEGG途径进行化学毒性作用分析 》 IF: 3.681

GO 功能富集分析、KEGG pathway富集分析、 GSEA 功能富集分析、 reactome 通路富集分析

(1) Did ——The D atabase for A nnotation,转自: V isualization and I ntegrated D iscovery ,支持在线进行GO功能富集分析。 工作组 很多华人(从名字上看)

(2) GOrilla ——GeneOntology enRIchment anaLysis and visuaLizAtion tool,支持在线进行GO功能富集分析。

(3) KOBAS ——KEGG Orthology Based Annotation System,支持在线进行pathways通路分析 (KEGG PATHWAY, Reactome, Biocyc, Panther), 关联疾病分析diseases (KEGG DISEASE, OMIM, NHGRI GWAS Catalog), 和GO 功能富集。北大团队做的。

(4) clusterProfiler : universal enrichment tool for functional and comparative study。一个R分析工作包,是生信分析领域大牛 Y叔 写的,几乎能支持市面上常见的各类功能、通路、关联疾病分析,受science大力(反正Y叔公众号上他自己是这么说的,有没有成分咱就不管了哈,但是吃过的都说香)。

以 KOBAS 为例,演示两个流程:

(1) GO分析

step i :选择“基于基因列表进行富集分析”

step ii:在计算页面等一会,查看分析结果

step iii:查看GO的DAG图

GO:3A004408

也有这样的:

GO:0045893

(2)KEGG pathway分析

step i: 参数选择KEGG

step ii: 查看计算结果

step iii: 查看通路图

解决方法:注意将的末尾添加一个/符号,即可正常展示。