Ⅰ 技术 | 单细胞转录组测序之10x Genomics
10X Genomics 是一个综合的单细胞测序技术平台,可以应用于多种单细胞测序上,包括Single cell gene expression, Single cell Immune Profiling, Single cell CNV, Single cell ATAC。这篇文章将主要简述10X Genomics在 单细胞基因表达 检测方面,也就是scRNA-seq上的应用咐枣。
10X Genomics 一次测序可以捕捉 100-80,000个细胞 ,具有极高的细胞通量。单细胞的测序通量平均也在 50,000 reads/per cell 左右,而如果使用细胞核进行测序则平均通量为 25,000 reads/per nuclei。比起使用FACS进行细空简羡胞分选的单细胞测序技术而言,10X Genomics的细胞通量有显着的提高。
10X Genomics与其他测序技术的主要区别在于其 barcode和建库 的操作。虽然上样之后都是自动化操作,但了解其建库原理对后续的生物信息学分析也是有必要的。
10X Genomics运用微流控系统进行细胞分选,带有Barcode的Gel Beads 匀速地从左方进入,待分选的细胞和酶从下方以一定时间间隔进入,并与Gel Beads结合,进入油相中形成 GEMs(Gel Bead in emulsion)
Gel Beads上的Barcode带有一段每个细胞特异的 UMI ,在随后的文库构建中,只要是由该细胞扩增出的cDNA都会带上这段UMI以及前面的10x Barcode。因此,便可区分出不同细胞扩增出的cDNA。要注意的是,10X Genomics也是通过poly(dT)富集细胞的mRNA,会有无法避免的3‘ bias.
一般而言,每个GEMs会形成如上图一般的结构,即一个细胞一个gel beads。但有时候也会出现一个GEM里有0或多个细胞(empty droplet or doublet),对于这种GEMs则需要通过我们在后续分析中识别出来并进行排除。
形成GEMs后, 细胞裂解后经过反转录(RT) —— cDNA generation 便形成cDNA文库。这一系列建库过程都在GEMs中发生,因此GEMs的存在相当于一个物理隔离,保证每个单细胞都在独特的“小室”中发生。另外,由于GEMs是在油相中形成了一种乳浊液(emulsion) 的形态 ,而乳浊液中会形成上万个微液滴,每一个微液滴就是一个GEMs,这也解释了为何10X Geonmics细胞通量如此之高的原因。
建库完成后,采用Illumina的测序仪进行测序,通常进行双端不等长测序。其中5'测28nt检测barcode与UMI,3'测90nt用于定量基因表达。
最后,测序完成后,现在的10X Genomics测序仪会同时进行一斗拍些简单的数据分析,包括每个样品的数据量,mapping rate,data filtering ,每细胞reads等等。当然,我们也可以自己拿数据跑Cell Ranger,随后可以用seurat包等进行后续的个性化分析也是没有问题的。
以上就是对10X Genomics平台的简单介绍。
完。
Ⅱ 重磅干货—10XGenomics单细胞转录组FAQ来啦
随着09年单细胞转录组技术的现世,使得科研精度从组织转变为单个细胞的层面。10XGenomics单细胞脊掘转录组技术作为其中目前来说最为大火的技术,对于细胞发育、肿瘤异质性以及细胞图谱等等方面的研究发挥着越来越重要的作用。今天我们一起看下其中可能遇到的问题吧~
Q1. 什么样的原始数据可以直接用于cellranger分析呢?
A1. 使用cellranger软件进行分析,使用的是:
*_S1_L001_R1_001.fastq.gz
*_S1_L001_R2_001.fastq.gz
分析软件只识别形如以下格式的fq文件:
“Sample Name_S1_L00[Lane Number]_[Read Type]_001.fastq.gz
Q2. 通常样品nGene和nUMI的相关性系数模野槐要在0.8以上,但是这次实验的相关性在0.5以下,怎么解释这个情况,得到的实验下机数据还可靠吗?
A2. 影响相关性的因素有文库制备过程的稳定性和细胞状态的一致性。如果相关性较低,可能是由于文库中细胞状态差异较大。
可能与细胞检测时的状态有关,有些细胞可能活性降低,核酸存在降解的状态。
Q3. 检测线粒体表达量目的是为了作为阴性对照吗?正常线粒体基因在细胞中含量不是很多,那检测线粒体表达量是评价测序结果好坏的一个阴性对照吗?
A3. 检测线粒体基因的表达量是一个数据分析质控指标。除了部分特殊类型的细胞(如卵细胞)。如果定位到线粒体的比例高,表明细胞质量较低,这可能是细胞凋亡增加所致。
Q4. valid barcodes只有92%,请问其他的reads是不带标记还是带错误标记呢?如果是错误标记,该错误是在哪一步引入的?
A4. 都会有barcode,这个barcode不在白名单里面,可能是错配较多,或者质量较差。
Q5. 能否根据已知的某一个或者某几个的marker基因,过滤出高表达这些maker基因的细胞,然后对这些细胞重新进行聚类分析呢?
A5. 可以。可以直接计算出每个细胞中这些marker基因的表达比例,然后挑选高表达(需要确定高表达的阈值)这些基因的细胞做后续分析。
Q6. 关注的基因表达量水平比较低,分析中采用的归一化方法对低表达量基因的影响是否很大呢?
A6. seurat分析中,默认采用LogNormalize归一化算法。该归一化对低表达的基因没有影响。
Q7. seurat分析里P_val和p_val_adj要考虑么?p_val_adj有数值为1的,应该选取什么样的数值呢?
A7.seurat软件结果只对旦友avg_logFC有个阈值控制(seurat软件默认),一般为0.25。
对其他值比如P_val和p_val_adj都没有设定阈值,所以会出现有p_val_adj值为1的结果。
主要原因是由于单细胞数据表达量数据较低(与bulk RNA相比较),设定太严格的阈值可能会造成有些有意义的数据被过滤掉了。
P_val和p_val_adj的值可以参考一下,差异倍数相差不大的话,可以考虑一下这两个值。
参考文献
https://www.biorxiv.org/content/biorxiv/early/2019/03/18/576827.full.pdf