大数据负二项分布在差异分析中的应用是怎样的

发布时间：2021-11-23 15:42:39 来源：亿速云阅读：215 作者：柒染栏目：大数据

大数据负二项分布在差异分析中的应用是怎样的，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

为什么要要基于负二项分布呢？

从统计学的角度出发，进行差异分析肯定会需要假设检验，通常对于分布已知的数据，运用参数检验结果的假阳性率会更低。转录组数据中，raw count值符合什么样的分布呢？

count值本质是reads的数目，是一个非零整数，而且是离散的，其分布肯定也是离散型分布。对于转录组数据，学术界常用的分布包括泊松分布和负二项分布两种。

在数据分析的早期，确实有学者采用泊松分布进行差异分析，但是发展到现在，几乎全部都是基于负二项分布了，究竟是什么因素导致了这种现象呢？为了解释这个问题，我们必须提到一个概念overdispersion。

dispersion指的是离散程度，研究一个数据分布的离散程度，我们常用方差这个指标。对于泊松分布而言，其均值和方差是相等的，但是我们的数据确不符合这样的规律。通过计算所有基因的均值和方差，可以绘制如下的图片

大数据负二项分布在差异分析中的应用是怎样的

横坐标为基因在所有样本中的均值，纵坐标为基因在所有样本中的方差，直线的斜率为1，代表泊松分布的均值和方差的分布。可以看到，真实数据的分布是偏离了泊松分布的，方差明显比均值要大。

上述图片对应的代码如下

mean <- log10(apply(x, 1, mean))
var <- log10(apply(x, 1, var))
plot(x = mean, y = var, pch = 20)
abline(a = 0, b=1)

如果假定总体分布为泊松分布，根据我们的定量数据是无法估计出一个合理的参数，能够符合上图中所示分布的，这样的现象就称之为overdispersion。

正是由于真实数据与泊松分布之间的overdispersion，才会选择负二项分布作为总体的分布。

关于大数据负二项分布在差异分析中的应用是怎样的问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注亿速云行业资讯频道了解更多相关知识。

向AI问一下细节

猜你喜欢