搞生信别只盯着TCGA数据库和geo，老鸟告诉你怎么把这两个玩出花

发布时间：2026/5/11 10:19:53

做了十二年生信，说实话，现在入行的年轻人太焦虑了。一上来就喊要发高分文章，问的最多的就是TCGA数据库和geo。这两个确实是老生常谈，但很多人根本没用对。今天我不讲那些虚头巴脑的理论，就讲讲我踩过的坑，怎么把这两个资源结合起来用，做出点真东西。

先说TCGA。这玩意儿大家都知道，癌症基因组图谱。数据全，临床信息丰富。但它的缺点也很明显，主要是RNA-seq数据，而且大部分是肿瘤组织，正常对照往往来自癌旁。这就有个大问题，癌旁组织真的正常吗？不一定，它可能已经受到肿瘤微环境的影响。如果你只拿TCGA做差异表达，结果可能偏差很大。比如我去年帮一个客户看乳腺癌数据，直接用TCGA里的ER+和ER-对比，结果发现一堆基因差异显著，但去验证的时候，死活复现不出来。为啥？因为样本异质性太大，批次效应没处理好。

这时候，geo就派上用场了。geo是什么？Gene Expression Omnibus，海量的小样本、各种平台的数据。它的优势是样本量大，而且有很多独立的验证队列。但geo的坑在于，数据太乱了。不同芯片平台，不同实验室，处理流程都不一样。你要是直接拿过来跑，那结果简直是灾难。我之前有个学生，从geo下了几十个项目，直接合并分析，结果聚类图都看不清，导师气得差点把电脑砸了。

所以，正确的姿势是什么？是互补。用TCGA做初筛，找到核心候选基因；然后用geo里的独立队列做验证。比如，你在TCGA里发现某个基因在胃癌中高表达，且与不良预后相关。别急着写文章，去geo里搜几个胃癌的芯片数据集，看看这个基因是不是也高表达。如果多个独立队列都支持，那这个基因的可信度就大大提高了。

具体操作呢？我有几个建议。第一，批次效应校正一定要做。ComBat或者SVA，别偷懒。第二，临床信息要仔细核对。TCGA的临床数据虽然全，但有些缺失值，得手动补或者剔除。geo的临床数据更碎，得一个个项目去翻，很麻烦，但必须做。第三，功能富集分析别只看GO和KEGG，试试GSEA，能发现更细微的变化。

我拿一个实际案例来说。有个做肝癌的客户，想找个新的生物标志物。我们先用TCGA-LIHC数据，筛选出差异表达基因，再结合生存分析，锁定5个核心基因。然后，去geo里找了3个独立的肝癌芯片数据集，对这5个基因进行验证。结果发现，其中2个基因在多个队列中 consistently 高表达，且与患者总生存期显著相关。最后，我们拿这2个基因做了个列线图，预测效果还不错，发了一篇IF 5分左右的文章。

当然，这过程并不轻松。数据下载、格式转换、清洗、分析，每一步都可能出错。特别是geo的数据，有时候元数据都不全，你得靠猜。但我告诉你，正是这些繁琐的工作，才构成了你文章的深度。那些只会在网上抄代码的人，发不了好文章。

最后，想说句心里话。生信不是点鼠标，它是逻辑推理，是生物学问题的计算表达。别总想着走捷径，TCGA和geo只是工具，关键是你怎么用。多读文献，多思考生物学意义，别为了分析而分析。只有这样，你才能在这个行业里站稳脚跟。

本文关键词：tcga数据库和geo