‘壹’ 有没有对细菌基因进行富集分析的网页
有,这个你可以去看一下sequin这个软件。你把所有信息都填完后,它可以帮你分析。
‘贰’ 富集分析结果展示(二)——富集分析圈图
“做cox比例分析和KM曲线结合分析,阈值该怎么选取,数据是否需要标准化等等问题的解决方法”
对基因功能富集结果的展示有很多种展示方法,有人说气泡图展示富集结果不好看,毕竟什么都要看颜值的。而且气泡图展示的信息有限,仅展示一些通路的基本信息,无法显示通路与基因的关系。为了满足审美观,开发了一个小工具——富集分析圈图。绘制出来的图不但能显示感兴趣的基因与通路的关系,关键绘制出来的图形颜值高。
网址导航
http://sangerbox.com/Tool 点击“富集分析圈图快速绘制工具”
1.输入数据
----------
富集分析结果:一共四列,第一列为富集分析term名称,第一列为这个term包含的基因个数,第三列为P值或FDR,第四列为term中包含的基因列表,基因与基因之间一“/”隔开,如下图所示。
点击添加图片描述(最多60个字)编辑
差异基因分析结果:这里去Foldchage最大的前50个基因,取出的基因与做富集时用的基因要一致。注意:这里不一定需要Fold chage,只需要一列是基因,一列对应的有意义的数字即可,如下图所示。
点击添加图片描述(最多60个字)编辑
2.设置参数
----------
点击添加图片描述(最多60个字)编辑
3.展示结果
----------
点击添加图片描述(最多60个字)编辑
‘叁’ 怎么做基于KEGG的生物通路富集分析
这个只是皮毛介绍一下KEGG,具体操作还要自己摸索的,用文字不好描述,我还是会一点的,就是先将基因的序列下载下来,上传到KEGG,KEGG会将基因的信号通路网址信息发到你邮箱里,你就可以看到你的目的基因在那些信号通路里有,我有篇这方面的文章发在蚕业科学上,不过刚接受
‘肆’ 网页在线做富集分析
用clusterProfiler做其实够用了,网页在线做没多大必要 ,能够起起对照作用吧。网页在线做,后续挑出自己想要的模块,会方便一些,但自己用包做手动挑也还好。记录这篇,是因为网页做了几次,想记录下来留个印象。
做富集分析,对于输出结果,不能只看前多少个有显着富集的term,应该要看符合自己设的padjust阈值的所有term,看完再挑选自己想要展示的term成图。这样做能避免得出的结论不全面,对于事先没有预想的term或者是事先预想的term不全面这些情况有帮助。
clusterProfiler做富集,可以对冗余 GOterm 去冗余,如:merge_go <- clusterProfiler::simplify(go, cutoff=0.7, by="p.adjust", select_fun=min)。要不要去冗余看去冗余前后展示出的效果是不是自己想要的,来决定。
动态GO富集分析:富集结果统计图、条形图、气泡图,可动态调整
https://www.omicshare.com/tools/home/report/goenrich.html
GO富集分析高级版:富集结果统计图、条形图、气泡图、富集圈图、富集差异气泡图、有向无环网络图,不可动态调整 https://www.omicshare.com/tools/Home/Soft/gogseasenior
动态KEGG富集分析:富集结果统计图、条形图、气泡图,可动态调整
https://www.omicshare.com/tools/home/report/koenrich.html
KEGG富集分析高级版: 富集结果统计图、条形图、气泡图、富集圈图、富集差异气泡图、kegg网络图,不可动态调整 https://www.omicshare.com/tools/Home/Soft/pathwaygseasenior
GO总共有三个ontology(本体),分别描述基因的 分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process) 。GO的基本单位是term(词条、节点),每个term都对应一个属性。
x轴是Rich Factor,表示目的基因富集到该通路的基因数目与背景基因富集到该通路的基因数目的比值,所以比值越大,富集到该通路的基因数目越多;
y轴是富集出来的通路名称,一般根据P-value或Q-value从小到大排列顺序(最上面是最小的),挑选富集通路前20或30的通路来绘图;点的大小表示Gene数目,点越大,表示富集到该通路的基因越多;点的颜色渐变最为重要,代表P值的高低,-log10(Pvalue)越大,P值越小,表示该通路越显着。
P值是在进行富集分析时利用超几何检验计算出来的结果。Q值是计算得到的P值进一步经过多重检验校正后的值。所以一般情况下Q值比P值的检验更严格。 这时候也可以分两种情况,第一种是经过Q值的检验筛选后得到了与实验设计相关的通路,那此时就可以用Q值来绘图。第二种是经过Q值检验没有得到满意的结果,那可以换P值检验,得到与实验相关的通路。
P-value是正常数值显示还是取10的对数的负值来显示,主要看P-value的大小,如果P-value非常小时,就可以对数据归一化处理;如果数据较大,但又小于0.05时,可以不用对数据做处理。
圆圈的大小代表基因的数目,圆圈的颜色代表P-value,也就是说 Rich Factor越大,P-value越小,gene count圈越大,这事就越可信。
三个Ontology(C, F, P)会分别展示。以生物过程(biological process)为例子,如下表:
第一列为GO term的ID,点击GO ID,可显示这个GO term包含的所有基因:
再点击这个GO ID,就可以链接到 http://amigo.geneontology.org 官网,可以查看GO的具体信息。
第二列为GO term的功能描述;
第三列:数字为目的基因中富集到这个GO term的基因数,out 括号里数字为目的基因在 BP/MF/CC 里的总数,括号内百分比等于Generatio。
第四列:数字为背景基因中富集到这个GO term的基因数,All括号里数字为背景基因在 BP/MF/CC 里的总数,百分比为Bgratio
第五列:P value,即第三列的百分比与第四列的百分比相比,是否有显着差异。将小于0.05的P value标红显示; 这些GO term是按照P value从小到大排列的,方便找差异富集结果。即最上面的 term 为在目的基因中富集最显着的GO term,说明目的基因显着富集于这个功能。
包含了pathway名称、 目的基因中注释到该pathway的基因数目以及占总目的基因数目的比例 、 所有背景基因中注释到该pathway的基因数目以及占总背景基因数目的比例 、P值、Q值、pathway 的ID(ko号)。点击pathway名称可以查看该pathway包含的基因ID,继续点pathway名称可以链接到KEGG官网上pathway相应的通路图
存放的就是每个pathway的map图和相应的KEGG官网链接。
Pathway的B级分类基因注释数目的统计图:纵坐标黑色字体为A级分类名称,彩色字体为B级分类名称。横坐标表示注释到相应B级pathway的基因数目。
显着富集pathway去前多少个根据 富集结果表(out.htm)再调整,用p值比用q值条件要松,颜色代表p值,柱状长短(气泡大小)代表富集到此通路基因的数量,横坐标RichFactor代表目的基因中位于该pathway条目的基因数目与背景基因中位于该pathway条目的基因总数的比值,比值越大,富集程度则越大。
参考:
https://www.omicshare.com/forum/thread-826-1-1.html
https://www.omicshare.com/forum/thread-6821-1-1.html
https://www.omicshare.com/forum/thread-6822-1-1.html
https://www.omicshare.com/forum/forum.php?mod=viewthread&tid=7295&highlight=KEGG
https://zhuanlan.hu.com/p/35065777
https://www.jieandze1314.com/post/cnposts/164/
‘伍’ “GO富集分析”从原理到实践 ~ 零基础掌握
原本,我并无写这一稿件的想法。主要原因有二:
如果要找合理解释,那么针对第一点,就是每天仍然有大量新接触生信数据分析的朋友;针对第二点,......在前两天我推的文稿《零基础快速完成基因功能注释 / GO / KEGG / PFAM...》中,评论区答应了下,阅读过5000,那就写一写富集分析。于是,如果不写,总是不对。如果要写,只能现在写。毕竟有些事情,现在不做,以后真的不会做。
对于这一块,完全陌生的朋友,尤其是不少生物学背景朋友,有必要温习一下数理统计基础。这一稿件只做原理最简单的但使用最广泛其速度最快的Over-Represence Analysis模式的富集分析讲演。其他模式,不涉及。
回到主题,先举个经典的抽球例子:
小红小绿小蓝三个人自称有超能力,可以用手摸摸球就分辨出黑球白球,于是我们找来黑袋子,放100个球,其中20个白球80个黑球,让三人分别无放回地抽取。
小红随机抽出来10个球,其中2个白球8个黑球,情况即,
抽球中白球比例与背景白球比例完全一致,说明小红抽球结果随机。
球放回去,小绿来抽球,抽出来的10个球,其中3个白球7个黑球,情况即,
这是经典的抽球案例,抽取到的白球个数的概率分布为超几何分布。基于此,我们可以简单计算抽取到比小绿抽取到球个数(或更多即更极端)的概率如何,在 R语言中计算,即
而对于小蓝的情况,那么概率如何?
在 TBtools 中也可以计算,只是写法有点区别
可以看到,尽管这只是一次抽球,小绿抽球中白球比例(或更极端情况)出现的概率是31.88%+,还是挺高的,于是我们有较高的把握说,小绿嘛,只是走了狗屎运。相反,小蓝抽球中白球比例或更极端情况出现的概率几乎为 0 ,我们几乎没啥把握说,小蓝走狗屎运....换句话说,我们有理由相信,或许小蓝真有抽白球的超能力.....
说了这么多,那么跟基因集合富集分析有啥关系?....基因集合功能富集分析。那么我们就需要有一个基因集合(如差异表达基因集合或ChIP-seq的Peaks或GWAS定位的系列区间),还有一个功能标签(如 生长素信号转导相关 )。于是黑白球案例可以简单调整一下。假定现在这个物种一共有100个基因,其中20个基因与生长素信号转导相关,80个没有注释到与生长素信号转导相关(换句话说,约等于无关),我们做了对植株做了处理,和CK分别测定转录表达谱,通过差异表达分析,鉴定到10个差异表达基因,其中2个与生长素信号转导相关,而另外8个则没注释到生长素信号转导相关,简单画一下,即
好,剩下的两个就不替换了。整体上,ORA模式的富集分析,本身就是经典的抽球案例,感兴趣的自行替换就可以了。
基本原理,相信都搞清楚了。不过还是有两三点需要注意:
具体如何做物种所有基因的背景注释,请参考前述推文《零基础快速完成基因功能注释 / GO / KEGG / PFAM...》。
首先,打开 TBtools GO 富集分析界面
整体如上,一共三个文件:
具体示例如下
点击 Start ,随后等待即可。完成时会有弹窗提示。查看输出文件
(写到这里,突然觉得这些都没啥意思,不知为何....就不详细写了,大伙自己看看列名,猜猜吧)
很多时候,我们会选择,筛选第一列,只看 Biological Process。一般这些与我们的生物学认知会贴近一些。
基因集合功能富集分析,是一个常常被谈起的话题,甚至近期都有不少新方法或算法被提出。感兴趣的朋友可以去了解。这份教程,只与大伙说最简单,但也是使用最为广泛的一种富集分析模式。无论是不是 TBtools 用户,理论上来说,都可以轻松理解并掌握,从原理到实践。
写到一半,其实我已经不想写了。原因非常简单,这也是为什么在我之前,并没有一个人写出来 TBtools 类似的工具。不是写不了,而是不想写。有时候,随着能力增长和知识积累,往往不再愿意做一些简单的事情。或许这还涉及到年龄的增长,角色的转变,责任的变化....云云。
小时候,我以为写 TBtools 玩玩;
后来,我以为我会一直写下去;
现在,,,,,,
‘陆’ 非模式生物GO、KEGG富集分析
GO、KEGG富集分析是我们做生信分析较为常用的部分,它可以将基因与功能相联系起来。
GO指的是Gene Ontology,是基因功能国际标准分类体系。目的在于建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO分为分子功能(Molecular Function)(MF)、生物过程(Biological Process)(BP)、和细胞组成(Cellular Component)(CC)三个部分。
KEGG指的是京都基因与基因组网络全书,通常我们使用KEGG中的pathway模块,将基因映射到某些通路上,了解基因参与生物体中的代谢过程等。
对于模式生物,GO和KEGG富集分析实现起来比较容易,对于非模式生物来说还是需要花点时间和精力。对于模式生物的GO和KEGG富集分析,网上教程案例挺多的。对于非模式生物,以小麦为例,进行下面一些基本的富集分析。
做富集分析,我们需要了解一下几个概念。
1、前景基因:指的是我们所要进行富集的基因,一般是基因的ID
2、背景基因:指的是前景基因在某个基因集合进行富集,这个基因集合就是背景基因
3、描述信息:每个GO的Term的属性,或者是每个KO号或者map号的属性。
我们具备前景基因,背景基因以及描述信息我们就可以做富集分析啦。
1、前景基因:这是必须的啦。有时候需要进行ID转换,但是个人觉得ID转换根据需要来就行。如果前景基因里面的基因ID是包括在背景基因里面,那就需要进行转换。如果前景基因在是新的基因或者在背景基因没有被注释到的,就不用进行ID转换。下面这个就是融合基因,在背景基因里面没有注释到的,那么我就不要转换。
2、背景基因:一个基因可能具备多个GO term,一个基因也可能参与多个通路,与之相对应的有多个map号
这个案例中背景基因文件构建思路如下图
3、描述文件
跑完之后就会得到一些结果:
生成一些简单的气泡图,条形图,GO二级分类图
‘柒’ 什么是GO富集分析,常说的GO功能分析、功能分析、Pathway分析是什么意思
Gene Ontology可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。
功能富集分析: 功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显着富集的GO Term。该功能或者定位有可能与研究的目前有关。
GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以柱状图或者饼图表示。
1.GO分析
根据挑选出的差异基因,计算这些差异基因同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value,小的p 值表示差异基因在该GO 中出现了富集。
GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。
2.Pathway分析
根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。
Pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。与GO 分析不同,pathway 分析的结果更显得间接,这是因为,pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。而通过芯片结果得到的是编码这些蛋白质的mRNA 表达量的变化。从mRNA 到蛋白表达还要经过microRNA 调控,翻译调控,翻译后修饰(如糖基化,磷酸化),蛋白运输等一系列的调控过程,mRNA 表达量和蛋白表达量之间往往不具有线性关系,因此mRNA 的改变不一定意味着蛋白表达量的改变。同时也应注意到,在某些pathway 中,如EGF/EGFR 通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸化程度的改变(调节蛋白的活性)来调节这条通路。所以芯片数据pathway 分析的结果需要有后期蛋白质功能实验的支持,如Western blot/ELISA,IHC(免疫组化),over expression(过表达),RNAi(RNA 干扰),knockout(基因敲除),trans gene(转基因)等。
3.基因网络分析
目的:根据文献,数据库和已知的pathway 寻找基因编码的蛋白之间的相互关系(不超过1000 个基因)。
‘捌’ 什么是GO富集分析,常说的GO功能分析、功能分析、Pathway分析是什么意思
Gene
Ontology可分为分子功能(
Molecular
Function),
生物过程
(
biological
process)和细胞组成(cellular
component
)三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。
功能富集分析:
功能富集需要有一个参考
数据集
,通过该项分析可以找出在统计上显着富集的GO
Term。该功能或者定位有可能与研究的目前有关。
GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以
柱状图
或者
饼图
表示。
1.GO分析
根据挑选出的
差异基因
,计算这些差异基因同GO
分类中某(几)个特定的分支的
超几何分布
关系,GO
分析会对每个有差异基因存在的GO
返回一个
p-value
,小的p
值表示差异基因在该GO
中出现了富集。
GO
分析对实验结果有提示的作用,通过差异基因的GO
分析,可以找到富集差异基因的GO分类条目,
寻找不同
样品的差异基因可能和哪些基因功能的改变有关。
2.Pathway分析
根据挑选出的差异基因,计算这些差异基因同Pathway
的超几何分布关系,Pathway
分析会对每个有差异基因存在的pathway
返回一个p-value,小的p
值表示差异基因在该pathway
中出现了富集。
Pathway
分析对实验结果有提示的作用,通过差异基因的Pathway
分析,可以找到富集差异基因的Pathway
条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。与GO
分析不同,pathway
分析的结果更显得间接,这是因为,pathway
是蛋白质之间的相互作用,pathway
的变化可以由参与这条pathway
途径的蛋白的表达量或者蛋白的活性改变而引起。而通过芯片结果得到的是编码这些蛋白质的mRNA
表达量的变化。从mRNA
到蛋白表达还要经过microRNA
调控,翻译调控,
翻译后修饰
(如
糖基化
,
磷酸化
),蛋白运输等一系列的调控过程,mRNA
表达量和蛋白表达量之间往往不具有
线性关系
,因此mRNA
的改变不一定意味着蛋白表达量的改变。同时也应注意到,在某些pathway
中,如EGF/EGFR
通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸化程度的改变(调节蛋白的活性)来调节这条通路。所以芯片数据pathway
分析的结果需要有后期蛋白质功能实验的支持,如Western
blot/ELISA,IHC(
免疫组化
),over
expression
(过表达),RNAi(RNA
干扰),knockout(基因敲除),trans
gene(转基因)等。
3.基因网络分析
目的:根据文献,数据库和已知的pathway
寻找基因编码的蛋白之间的相互关系(不超过1000
个基因)。