今天哈哈娱乐网给各位分享洛克皮尔森啤酒的知识,其中也会对皮尔森r语言,【R语言编程】---根据表达量计算mRNA与lncRNA的皮尔森相关系数「知识普及」进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在我们开始吧!

【R语言编程】---根据表达量计算mRNA与lncRNA的皮尔森相关系数

前言: 在构建ceRNA 网络时,需要计算lncRNA 与 蛋白编码gene (pc gene) 间的表达相关性,一般采用皮尔逊相关系数。具体如何做呢?

2.获得mRNA的表达矩阵
4个基因在100个样本的表达量矩阵:

3.计算lncRNA 与gene 的表达相关性
使用cor()函数进行皮尔森相关系数计算,就是这么简单:

r语言中,求自相关系数cov cov(x, y = NULL, use = "everything", method = c("pearson", "kendall", "spe

cov用来算列于列之间的协方差
cor求的是列于列之间的相关系数
内部参数两者是一致的
x就是你要计算的矩阵
method是你要计算的方法 这里给出的分别是 皮尔森
肯德尔,斯皮尔曼三种 任选一个就行

RNA-Seq(5):构建表达矩阵,归一化样本数据以及检测数据可信度并可视化

但是我们并不能直接拿着数据去做后面的差异分析,得将数据归一化后才能进行下一步操作。那么问题来了,为什么得归一化后才能进行下一步操作,如何归一化。

这里我采用的是使用DESeq2包归一化的两种方法获取归一化数值(当然你也可以采用其它办法归一化),有对归一化过程感兴趣的可以看归一化的算法, excel演示DESeq2归一化原理 - (jianshu.com)

为了探究样本之间的相关性,将使用两个方法主成分分析(PCA)和相关性分析并进行层次聚类分析方法执行样本级质量控制。这些方法允许我们检查重复样本彼此之间的相似程度(聚类),并确保实验条件是数据变异的主要来源。
1.什么是PCA:笔记正在写

2.什么是相关性分析并进行层次聚类分析方法:
1. 协方差与相关系数 - (jianshu.com)
2.层次聚类是将研究对象按照它们的相似性关系用树形图进行呈现。

也可以根据这篇文章画PCA分析图 R语言主成分分析(PCA)加“置信椭圆” - (jianshu.com)

横纵坐标为各个样本,将这些样本两两进行比较,得出皮尔森相关系数。图中可以看出,样本自己与自己比较,皮尔森相关系数是1,与其他样本进行比较,皮尔森相关系数均大于0.9表明各样本之间的正相关性比较好,这也说明送样样本的生物学重复很好,数据是可信的。

r语言中,求自相关系数cov cov(x, y = NULL, use = "everything", method = c("pearson", "kendall", "spe

cov用来算列于列之间的协方差
cor求的是列于列之间的相关系数
内部参数两者是一致的
x就是你要计算的矩阵
method是你要计算的方法
这里给出的分别是
皮尔森
肯德尔,斯皮尔曼三种
任选一个就行

皮尔逊相关系数中的双尾是什么意思?

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:

上式定义了总体相关系数,常用希腊小写字母作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母代表:

亦可由样本点的标准分数均值估计,得到与上式等价的表达式:

其中、及分别是对样本的标准分数、样本平均值和样本标准差。

数学特性
总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确的落在直线上(计算样本皮尔逊系数的情况),或者双变量分布完全在直线上(计算总体皮尔逊系数的情况),则相关系数等于1或-1。皮尔逊系数是对称的:。

皮尔逊相关系数有一个重要的数学特性是,因两个变量的位置和尺度的变化并不会引起该系数的改变,即它该变化的不变量(由符号确定)。也就是说,我们如果把移动到和把Y移动到,其中a、b、c和d是常数,并不会改变两个变量的相关系数(该结论在总体和样本皮尔逊相关系数中都成立)。我们发现更一般的线性变换则会改变相关系数:

由于,,也类似, 并且

故相关系数也可以表示成

对于样本皮尔逊相关系数:

以上方程给出了计算样本皮尔逊相关系数简单的单流程算法,但是其依赖于涉及到的数据,有时它可能是数值不稳定的。