别瞎搞了！GEO和TCGA数据合并分析那点坑，血泪教训都在这

发布时间：2026/6/10 4:48:18

昨天有个兄弟私信我，说搞生物信息分析搞到头秃，GEO和TCGA的数据死活合不到一块去，跑出来的PCA图乱成一锅粥。我一看他发的图，差点没忍住笑出声。兄弟，你这哪是合并数据，你这是把苹果和橘子强行榨成汁，还指望喝出葡萄味儿来？

咱们做GEO和TCGA数据合并分析，最忌讳的就是“拿来主义”。很多新手觉得，既然都是RNA-seq或者芯片数据，下载下来直接扔进DESeq2或者limma里跑一跑不就完了？太天真了。你以为你在做科学，其实你在制造垃圾。

先说个大坑：批次效应。这玩意儿比前女友的心还难捉摸。GEO里的数据，那是全球各地实验室、不同年份、不同测序平台搞出来的杂烩。TCGA则是统一的大项目，相对规范。你直接把这两堆数据拼在一起，PCA图上，第一主成分绝对不是生物差异，而是“数据来源”。你看到的所谓“差异基因”，很可能只是A实验室的机器比B实验室的机器敏感了那么一点点。

我见过太多人，为了省事，不去做ComBat或者Harmony校正，或者校正参数调得乱七八糟。结果呢？校正过头，把真实的生物学信号给抹平了；校正不够，批次效应还在那儿蹦迪。这就导致后续的差异分析、富集分析全是歪的。

再说说预处理。GEO的数据格式五花八门，有的给的是raw count，有的给的是FPKM，还有的给的是表达矩阵。TCGA一般给的是HTSeq-count。你拿FPKM去跟count混用，那是对统计模型的侮辱。必须统一转换，要么都转成log2(TPM+1)，要么都转成标准化后的count。这一步要是偷懒，后面所有的分析都是建立在沙滩上的城堡，潮水一来，全塌。

还有啊，样本量的问题。TCGA的样本量通常比较大，几百个肿瘤加几百个正常。GEO里的单个研究可能也就几十个样本。合并的时候，如果GEO的样本太少，它对整个模型的权重影响虽然小，但它的噪声可能很大。这时候，要么剔除那些质量差的GEO队列，要么增加TCGA的权重。但这都不是简单的加减法，得看具体的研究目的。

我有个客户，之前为了凑样本量，硬是把三个质量参差不齐的GEO数据集跟TCGA合并。结果做生存分析的时候，P值显著得离谱，R方却低得可怜。我帮他重新梳理，发现其中一个GEO数据集的对照组里混入了几个早期肿瘤样本，这直接拉偏了基准线。这种低级错误，在GEO和TCGA数据合并分析中简直不要太常见。

所以，听我一句劝，别急着跑代码。先花80%的时间在数据清洗和质量控制上。检查样本的临床信息是否对齐，检查表达量的分布是否合理，检查是否有极端离群值。这些工作枯燥又繁琐，但这是保证结果可信度的唯一途径。

别想着走捷径，生物信息学没有捷径。每一个显著的结果背后，都是对数据深深的敬畏和细致的处理。当你看到校正后的PCA图，样本按照生物学分组清晰聚类，而不是按照来源聚类时，那种成就感，比发文章还爽。

最后提醒一句，代码里的注释一定要写清楚，尤其是批次校正的参数来源。不然半年后你自己回头看，都搞不清当时是怎么处理的。咱们这行，严谨就是生命。别让你的努力，毁在一个马虎的参数设置上。

本文关键词：GEO和TCGA数据合并分析