本文关键词:geo差异分析需要几个样品
刚入行那会儿,我也犯过傻。
总觉得样品越多越好,恨不得把实验室翻个底朝天。
结果呢?
数据跑出来,一堆噪音,根本看不出个所以然。
后来做了八年,踩过无数坑,终于明白一个道理。
做geo差异分析需要几个样品,真不是拍脑袋决定的。
今天咱不整那些虚头巴脑的理论。
就聊聊实战里怎么定数量。
先说个真事。
有个客户找我,手里只有3个样本。
两组,每组3个。
他问我能不能做差异分析。
我直接劝退。
为什么?
统计学上,n=3是底线,但那是理想状态。
实际数据里,个体差异大得吓人。
如果你每组只有3个,一旦有一个离群值,整个结果就废了。
这时候做geo差异分析需要几个样品?
至少每组6个起步。
这是很多核心实验室的默认门槛。
但别急着加样,先看看你的研究目的。
如果是找那些表达量变化巨大的基因。
比如 Fold Change 大于2的。
那每组4-5个可能就够了。
这种信号强,容易抓。
但如果你想找细微变化的基因。
比如 Fold Change 在1.5左右的。
那你每组没8个以上,根本玩不转。
因为背景噪音会把你的信号淹死。
这时候做geo差异分析需要几个样品,就得看统计功效了。
还有个坑,就是批次效应。
很多新手不管不顾,把不同时间、不同人做的样本混在一起。
结果差异分析出来,发现分组没区别,批次区别大了。
这数据还能看吗?
不能。
所以,设计实验的时候,一定要平衡。
尽量让每组的样本处理时间、操作人员一致。
如果做不到,那就增加样本量来抵消批次影响。
一般来说,每组8-10个是比较稳妥的选择。
虽然贵点,但省心。
我有个朋友,为了省钱,每组只做了4个。
最后发文章被审稿人怼得体无完肤。
理由就是统计效力不足。
他说那几天头发都掉了一把。
所以,别为了省那点测序费,最后把整个项目搭进去。
再说说特殊情况。
如果你是做罕见病,或者样本特别难拿。
比如某种特定的肿瘤亚型。
那每组3-4个也是能做的。
但这时候,你得用更严格的过滤条件。
P值要调得更严,比如用FDR校正。
而且,一定要结合文献,看看别人是怎么做的。
如果别人也是小样本,那你得在讨论部分把局限性写清楚。
不然,容易被质疑。
还有一点,很多人忽略。
就是重复次数。
生物学重复和技术重复是两码事。
geo差异分析需要几个样品,指的是生物学重复。
也就是不同的个体。
技术重复只能测测序质量,不能算样本量。
别把同一份RNA测三遍,当成三个样本。
那是自欺欺人。
最后总结一下。
别纠结于一个固定的数字。
要看你的效应量大小。
效应量大,样本少点也行。
效应量小,样本必须多。
一般建议,每组6-10个。
这是性价比最高的区间。
太少,统计没意义。
太多,钱不够花,而且边际效益递减。
记住,好的数据设计,比后期的补救重要一万倍。
希望这点经验,能帮你少走弯路。
毕竟,头发只有一头,得省着点用。