哈?这篇文章零代码能复现?确定吗?

哈?这篇文章零代码能复现?确定吗?

零代码复现非肿瘤文章


大家好,我是涛涛。众所周知,仙桃生信工具www.xiantao.love一直致力于协助大家在进行生信研究提供便利性。最近,仙桃生信工具又推出了GEO数据集的分析功能!


...

黑衣人:什么!我终于可以摆脱一直学不会的那个GEO2R了吗?

涛涛酱:是喔!一站式GEO下游分析,汇聚各式美图,仙桃全都有!

黑衣人:欧耶!仙桃万岁!快教教我!

...


今天我们无代码复现一篇2020年7月IF为2.57分发表在BMC Med Genomics的一篇使用GEO分析非肿瘤生信类型文章。


...


材料和方法


疾病:心房颤动


数据:GEO数据集(五个数据集)


实现手段:筛选差异基因(R语言之limma包)

功能聚类(GO、KEGG、DO、Reactome)

互作网络(蛋白—蛋白交互PPI)

关键基因分析(CTD数据库)




复现工具

◆ 仙桃学术工具

(https://www.xiantao.love/products)

◆ Reactome数据库

(https://reactome.org/)

◆ GEO数据库

(https://www.ncbi.nlm.nih.gov/gds)

◆ Enrichr在线分析工具

(https://maayanlab.cloud/Enrichr/)

◆ String数据库

(https://www.string-db.org/)

◆ CTD数据库

(http://ctdbase.org/ )




复现任务


本次复现一共有8张大图三张表。


图1:心房颤动与窦性心律的差异基因表达

...


图2:5个筛选出基因的表达情况

...


附图1.标准化前后的boxplot图

...


附图2. 心房颤动与窦性心律差异基因的火山图

...


附图3. 使用REACTOME数据库呈现IGF以及IGFBP的富集通路分析

...


附图4. 差异基因的疾病富集分析

...


附图5 蛋白-蛋白互作网络分析

...


附图6. 基于CTD数据库进行关键基因与疾病的分析

...



表1 五个数据集总结

...


表2 差异基因总结

...


表3 GO KEGG分析

...



复现内容


事不宜迟,一起来看看最新最夯最火爆的仙桃GEO无代码复现吧!


图1. 心房颤动与窦性心律的差异基因表达


...


复现步骤:


进入仙桃学术工具(https://www.xiantao.love):


...


打开的界面如下:


...


我们知道,这篇文章涉及了五个数据集,分别为GSE115574, GSE31821, GSE79768, GSE41177 和 GSE14975。


那我们就一个一个来添加我们的数据集。


首先选择数据集GSE115574。


...


输入后,点击“选择样本”按钮,选择对应数据集的样本。


...


原文中是选择左心耳组织(左心房附属物),所以样本的添加我们都选择左侧


...


...


我们把所有的左侧的组织都勾选上,包括心房颤动组以及窦性心律组,最后点选“添加到样本库”即可。


...


接下来,我们进入“进入我的样本库” 。


我们将心房颤动组定义为“分组1”,作为对照组窦性心律组定义为“分组2”,作为实验组


将心房颤动组的基因勾选中,接着选择“加入分组1


...


同理,将窦性心律组“加入分组2”。


这样,我们就完成了第一个数据集GSE115574的添加。


同理添加入剩余4个数据集。


...


至此,我们得到了46个心房颤动的样本以及31个窦性心律的样本,进入后续分析。


注:不同权限用户的样本库的上限是不一样的,普通用户是20,基础版用户是50,高级版用户是100。仙桃学术后续还会视情况提高总体上限!


接着,就可以开始差异分析啦!


点选“提交分析”。


...


注:不同权限的用户每天可以提交分析的次数是不同的喔,普通用户每天只能提交2次分析,基础版用户每天可以提交5次分析,高级版用户每天可以提交10次分析。


这里的权限跟“生信工具”的是一个内容。想要升级权限可以到生信工具页面进行升级。


点击提交分析后,下面的历史记录中会出现一条分析记录,点击右上角的刷新可以刷新分析任务的进度情况。


当分析完成后,就可以下载结果内容了。


一次性提供了很多的结果内容,包括 箱式图、PCA图、UMAP图、火山图、差异分析结果表格等,以及结果分析报告


...


像我们这篇文献有5个数据集合并分析,校正前后的结果比较图显得尤为关键,这个在仙桃学术里也有提供喔(其实就是我们附图1的复现内容)。


接下来我们就是真正来看看图1的热图如何复现。


点击“说明


...


出现如下界面:


...


往下卷动鼠标


...


点击按钮即可下载热图


...

下载结果:


...


这个版本目前还和原文中的还不太一样,没有不同GEO数据集的图注。这个就是所谓的“普通热图”,而具有不同GEO数据集的图注的应该归类于“复杂热图”。


那下面我们就一起来看看复杂热图如何制作。


这个就是我们仙桃工具的内建示例数据上传的复杂热图。


...


实现方法如下:


第一步:下载五个数据集,分别为GSE115574, GSE31821, GSE79768, GSE41177 和 GSE14975,分别找出差异基因在其中的表达值,整理成新的excel文件。


打开GEO网站(https://www.ncbi.nlm.nih.gov/gds)


...


在搜索框中输入GSE115574


...


打开该数据集页面


...


鼠标卷动页面至底下


下载soft文件


...


...


用excel打开


找到GSTT1所对应的ID


...


接下来,打开GEO 网站


点击“Analyze with GEO2R”


...


此时和仙桃的分组情况一样


...


我们先定义要纳入组的数据,接着确定这些样本数据


进一步地,选择profile graph


...


输入刚刚查找的ID名


...

点击set


...

点击sample values,就出现了这个图


...


把这些表达情况复制进新的excel表格中


...


同样的道理,继续在下一个数据集GSE31821中复制粘贴上在其他样本的表达值


最后,采用同法可以获得其他差异基因的一系列表达情况


就可以获得这20个基因在不同样本的表达值,保存该excel


接下来打开仙桃:表达差异(挑)——复杂热图


上传excel表格


... ...


点击确认,即可生成复杂热图!


...


值得注意的是:如果是选择普通的热图,在结果说明里找到热图的部分。点击“细节修改”,即可修改热图。


...


...

黑衣人:欸?为什么我的仙桃没法修改啊


涛涛酱:啊,那可能你的不是基础版或高级版喔

...


细节修改的内容目前是只有基础版或者高级版才有,部分模块也是只有高级版才有。这些细节修改包括调整配色,样式等等,让结果更加个性化。

“细节修改”可以链接到如下界面:


...


...


这是普通热图的制作过程


...


...

黑衣人:啊!稍等一下!为什么我看这个图和原文的图不太一样捏?


涛涛酱:→_→ 你追求一模一样的有什么意思?大学马原学到哪去了?要抓住主要矛盾!


黑衣人:啊这……可是我们不就是在复现文章作图吗


涛涛酱:所谓复现,就是只要能表达出一个意思的东西出来就可以了。正所谓“人不能两次踏入相同的河流”,所以没有两幅完全一模一样的图。更何况,我们这个热图,这颜色不是更好看吗?难道你喜欢红配绿赛哔—(自动消音)的神奇口味?


黑衣人:说得有道理!好吧,那以后我一定抓住主要矛盾,领会生信作图精神……

... ...


图2:5个筛选出基因的表达情况


...


在合并的数据集中做出非配对样本的箱型图,目前这个功能还在开发中。


不过如果研究的是在肿瘤中的表达水平,我们可以把这个基因放在TCGA里探究其表达情况。


进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”


注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例


...


选择表达差异(挑)—表达差异—非配对样本,点击进入。


假设我们要研究的肿瘤非肺腺癌,那此处选择疾病-肺腺癌。


输入第一个分子IGFBP2


...


点击“确认


...


...


立刻能出图。


另外四个基因也是同理可得,最后采用我们仙桃最炙手可热的拼图功能喔!仙桃工具拼图比Illustratior或是Photoshop要节省不少时间!仙桃工具只要一分钟,AI或者PS可能要拼至少一天时间。


进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”


注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例


...


选择基础绘图 –上传图片,点击进入


...


此处开始上传自己的图片,但是记得图片要为pdf、tiff、tif、png的格式喔!


...


上传好之后,可以调整图片的宽度和高度参数,最后点击确认。


...


记得点击下方第一个“保存结果”按钮,才能进行下一步的拼图喔!


...


点击拼图工具,进入拼图页面。


...


...


拖拽目标图片进入画布。(在对齐图片的时候可以选择横向参考线和纵向参考线辅助对齐。两个图片对齐时,接近辅助线的时候还有磁吸功能,拼图非常便利!


...


...


点击PDF下载,还会自动标记字母哦!点击下载,即可保存成pdf图片。(小贴士,这里也可以把图稍微放大,或者两图直接的行间距放大,可以在右侧减少留白)


... ...


这样图就拼好啦!是不是比其他软件更轻松更便利呢?


...


涛涛酱在此还想说的是,目前全网还没有一个在线工具能做到“集成多个GEO数据集,并且在其中绘制单个基因的表达差异箱型图”,但是我们可以变化我们的思路啊!


...

黑衣人:蛤?什么意思?


涛涛酱:因为这几个基因的表达情况都在热图中呈现了嘛,那我们可以更多维度呈现我们的生信分析结果啊,比如可以用PCA图来反应组间差异,这个在我们刚刚GEO分析结果里也有喔


黑衣人:喔,我明白了!这样审稿人就不会追着你一直问了,同时文章也更加饱满了!


涛涛酱:当然我们的仙桃小哥哥还是会继续努力马上把这个功能丰富上的,请大家多多转发此推文,让仙桃小哥哥加鸡腿喔!

...


附图1.标准化前后的boxplot图


...


这个在我们刚刚的分析结果中就已经具备啦!

即,校正前、校正后,all in one pack!


...


如果你找不到的话,还有一种打开方式,往下看!


数据集模块—样本归一化箱式图


...


...


在云端,已经保存了我们刚刚的差异分析结果。


点击“确认”,即可出图


...


点击“数据类型”就可以选择校正前、校正后的不同情况


...


...


我们刚刚是校正后的图。


下面展示校正前的图。


...


还有另外一个方法,就是在历史记录里,也可以查找到我们刚刚的结果。


点击“说明”,出现以下界面:


...


同样能进行细节修改


...


再往下卷动,即能查找到校正后的情况。


最后把两图放在Illustrator或者Photoshop软件采用我们仙桃的拼图功能喔!


附图2. 心房颤动与窦性心律差异基因的火山图


...

黑衣人:这题我会!


涛涛酱:哈哈,you can you up!那你来说说看


黑衣人:这个图在仙桃的分析结果里有


涛涛酱:你就会这种偷懒的答案(¬_¬) 不过呢,你确实说对了,我们可以直接拿现成的仙桃结果!

...


在历史记录里,查询到我们刚刚的结果。


... ... ...


点击“说明”,出现以下界面:


...


进一步地,我们可以继续“细节修改


...


选择“XY轴颠倒”,即可呈现原文的图片。


调整右侧的参数“图注


...


打开显示按钮,图注位置可任意选择


再次点击“确认”按钮


...


这样一幅图就清晰呈现啦,连上调、下调的情况都标注出来了!


附图3. 使用REACTOME数据库呈现IGF以及IGFBP的富集通路分析


...


作者在材料中提到,这个是利用Reactome的数据库为基础,再用R语言实现的


那我们就一起来看看Reactome(https://reactome.org/)数据库


一打开网址就是一个非常清新的版面


...


我们根据文中上调的差异基因情况,将三个基因(IGFBP2, IGFBP3, CHGB)输入进搜索框中


...


点击搜索


...


看到排在第一位的就是这个通路


点击进入


...


这个就是我们的通路图,右上角可以保存


点击图片,我们可以看到界面进入了一个可视化的窗格


...


图片可以根据箭头所示拖曳窗格进行缩放。


...


这样子我们就能看到每一个蛋白所对应的情况了。


点击单一蛋白,还能看到这条通路上连接的信息


...


因为原文的图是用R包制作而成,所以复现时略有差异。


附图4. 差异基因的疾病富集分析


...


这张看似是GO|KEGG分析的条形图,其实是疾病富集分析


根据材料与方法部分的陈述,作者采用R语言里的DO(Disease Ontology)进行富集分析。


那为了要实现真正的无代码,该怎么办呢?


那我们不妨试试看Enrichr这个在线工具(https://maayanlab.cloud/Enrichr/)。


首先打开该网站


...


看到首页就是要输入基因,要么采用上传表格的方式,要么采用贴上方框的形式。


因为要输入差异表达基因,所以我们打开仙桃帮我们分析好的结果


...


...


我们在后一栏新增一个logFC的绝对值,命名为ABS


...


即,将B栏的每一个数值取绝对值


...


而后填充这整列


...


接下来我们手动挑选差异表达基因


根据文章,我们筛选的阈值是


...


所以我们在excel里筛选ABS这列≥1 & adj.P.Val这列<0.05


...


...


...


最后筛选结果如下


...


即仅剩7个基因


正好与仙桃的报告相符!


...


进而把这7个基因复制贴上到Enrichr的方框里


...


点击Submit


...


而后选择菜单栏中的Disease/Drugs


...


这里面有非常多的数据库


我们可以任意挑选有关于疾病的数据库,比如DisGeNET


点击该数据库


...


进一步地,可以选择上方的Clustergram


...


可以调节其中的参数以及富集的条目,以富集前30个条目为例


...


卷动鼠标,还可以有放大缩小功能喔!


...


点击左侧的相机按钮,即可保存好看的图片!


...


附图5:蛋白-蛋白互作网络分析


...


这就是熟知的蛋白蛋白互作网络啦


我们借助String来完成这项操作(https://www.string-db.org/)


选择左侧的Multiple proteins


...


在方框内输入我们的蛋白


...


点击Search之后出现如下界面,再点击Continue


...


就会出现如下界面


...


小贴士:会使用cytoscape的同学可以将这些结果导入cytoscape里,能更改成更好看的样式喔!


点击右下角的more,可以有更丰富的图


...


不想导出到cytoscape再编辑的朋友,可以直接在此输出保存


...


附图6:基于CTD数据库进行关键基因与疾病的分析


...


这四个图做法基本上一致,所以我们以图a为例来复现


...


根据文章介绍,作者采用的是CTD数据库(http://ctdbase.org/ )


这个数据库是一个集结了基因——药物——疾病为一体的数据库,所以对于非肿瘤研究还是蛮有优势的。


首先打开网页,选择菜单栏Analyze


...


选择MyGeneVenn


...


在方框内输入我们分析的差异表达基因


在疾病中选择对应的“心房颤动”


点击Submit


...


接下来可以点击Venn图的交集部分或者点击第4项


...


这就是我们的差异表达基因


...


接下来我们就一个一个基因来查看他的inference score


...

黑衣人:我懂了,原来图a是一个一个值查看然后记录下来,手动做成的条形图啊


涛涛酱:你终于开窍了一回

...


假设我们选择FHL2


点击FHL2之后,出现这个版面。


...


然后我们选择菜单栏里的diseases


...


接着 选择心血管疾病的大分类,点击Filter


...


我们在网页中直接搜寻关键字Atrial


...


就可以显示该疾病


进一步查看该基因的inference score为23.24


...


回头看图a


...


FHL2所对应的值就是23.24


接下来同理可得其他关键基因的inference score


然后就可以组成图a啦


进一步地,可以查询其他疾病,也可以获得其他几幅图,再将它们拼图起来就可以了!


表1 五个数据集总结


...


是的,这就是作者总结了五个数据集的基本情况,再通过三线表的形式整理出来,简洁明了


举个例子,如总结GSE115574


打开仙桃学术,在里面输入要搜索的数据集


...


点击“选择样本”,即可根据红色标记栏手动整理出表1的内容啦!


...


...

黑衣人:如果是用GEO怎么整理?


涛涛酱:我前面说的难道都白说了吗→_→ 那我就再说一遍吧o(╥﹏╥)o

...


打开GEO数据库(https://www.ncbi.nlm.nih.gov/gds)


...


在方框中输入数据集名称


...


直接点击进入


...


可根据描述部分来手动整理分组,但是要留意(左侧或右侧)喔!


表2 差异基因总结


...


这是作者通过R语言算出来的差异基因的基本情况


心细的朋友可能发现,这个与我们通过仙桃学术所计算出来的有些许差别

我们通过查看仙桃的计算原理与原文作者得知


...


可能是在数据清洗时的处理模式不同,导致后续的体现在结果的logFC、P value有偏差


即下图excel中的highlight列


...


...


其实这个也很容易解释


因为算法不同,自然结果也会有些许差异啦


...

黑衣人:那……要怎么办呢?


涛涛酱:当然是你自己算出什么就做什么的图啦


黑衣人:我懂了!不能盲目跟风,算出什么就是什么!做自己!

...


所以这也解释了为什么前文几个图复现结果会与文章有些差异的原因。


不过没关系,以事实为基准,没有孰对孰错。开心就好(能发文章就很开心,对吧?)


表3 GO KEGG分析


...


打开仙桃学术(www.xiantao.love)


...


打开功能聚类(圈)——GO|KEGG富集分析


...


在分子列表里直接复制上我们计算得出的差异基因


由于7个差异基因过少,没法分析,所以我们放宽指征,更改筛选模式,只要纳入adj.p.Value <0.05即可。


...


将该列基因复制到方框中,富集条目选择GO+KEGG,点击确认

...


生成的结果中自然就有三线表的形式提供啦!


...


根据作者需要,选择BP、MF、CC的具体内容整理表格即可。


...


如果想要作图,选择“保存结果


...


接下来,在“功能聚类(圈) GO|KEGG可视化”中


在“云端数据”中,选择刚才保存的数据


...


点击“确认


...


即可出现气泡图


同样,如果想做“柱状图”,在类型中更改相应的柱状图即可完成。


...


...


聚类分析可视化网络图是在“功能聚类(圈) GO|KEGG可视化网络”中


同样选择云端保存的数据


...


即可看到更好看的可视化网络图!


...