geo数据库联合孟德尔：手把手教你做GWAS与转录组联合分析避坑指南

发布时间：2026/5/10 20:15:21

做生信分析的朋友都知道，光靠找差异基因太单薄了，现在发文章都得搞点联合分析。今天我就把geo数据库联合孟德尔这个流程给大家捋一捋，别整那些虚头巴脑的理论，直接上干货，保证你看完能跟着做。

第一步，去GEO数据库里捞数据。别一上来就下载，先看样本量。我上次帮一个学生看数据，他选了个只有5个样本的队列，结果做出来P值全是0.05，尴尬不？一定要选有足够统计效力的数据。比如你想研究高血压，就搜"Hypertension"，然后看GSE编号，点进去看Series Matrix File。这里有个小坑，有时候元数据里写的表型描述和实际数据对不上，你得下载下来用R语言或者Excel打开看看，确认一下分组标签是不是Healthy和Disease，别搞反了。

第二步，提取差异表达基因（DEGs）。这一步用R语言最稳。加载包的时候记得更新，不然有些旧包会报错。我一般用limma包，因为它对微阵列数据比较友好。筛选标准别太严，|logFC|>1，P<0.05就行。如果你发现差异基因特别少，比如才几十个，那可能这个数据集不适合做后续分析，得换数据集。记得保存好上调和下调的基因列表，后面要用。

第三步，引入孟德尔随机化（MR）数据。这里很多人容易晕。MR需要的是全基因组关联分析（GWAS）的汇总统计数据。你去IEU OpenGWAS项目或者FinnGen网站找目标疾病的GWAS数据。注意，样本人群要和你的GEO数据尽量匹配，比如都是欧洲人群，避免种族偏差。下载下来的文件通常是txt格式，里面包含SNP、效应等位基因、beta值、se等。预处理的时候，要把GEO数据得到的基因对应的SNP位点找出来，这一步最费时间，建议用HomoMADS或者类似的工具映射。

第四步，执行MR分析。这一步我用TwoSampleMR包。导入暴露和结局数据后，先做一致性检验，剔除那些方向相反的SNP。然后跑IVW方法，这是最常用的。如果异质性很大，就用MR-Egger。我有一次跑出来P值显著，但漏斗图不对称，后来发现是某个强离群值导致的，剔除后结果就稳健了。这时候你可以说找到了潜在的因果基因。

第五步，可视化与验证。画个森林图，看看各个SNP的贡献。再把你之前从GEO找到的差异基因和MR找到的因果基因取交集。如果交集里的基因在GEO里也是显著差异表达的，那说服力就强多了。最后做个GO富集分析，看看这些基因主要参与什么通路，比如炎症反应、细胞凋亡之类的，这样故事就完整了。

说实话，这个过程挺折磨人的。特别是数据清洗那块，经常因为格式不对报错。我上次就因为一个列名多了一个空格，折腾了半小时。还有啊，MR分析假设前提很多，比如无多效性，你得在讨论部分承认这些局限性，不然审稿人肯定会怼你。

别指望一次成功，多试几个数据集。geo数据库联合孟德尔这种组合拳，现在确实挺流行，但也因为做得人多，同质化严重。你得在生物学解释上下功夫，不能光堆图表。比如你发现某个基因是因果的，去PubMed搜搜有没有文献支持它的功能，加进去你的讨论里，文章档次立马不一样。

最后提醒一下，代码一定要备份！我有一次电脑突然蓝屏，没保存中间结果，重跑了两遍，头发都掉了一把。希望这些经验能帮你少走弯路。要是遇到具体报错，别慌，去Stack Overflow搜搜，大概率有人遇到过。加油吧，生信人！

本文关键词：geo数据库联合孟德尔