Ⅰ 技術 | 單細胞轉錄組測序之10x Genomics
10X Genomics 是一個綜合的單細胞測序技術平台,可以應用於多種單細胞測序上,包括Single cell gene expression, Single cell Immune Profiling, Single cell CNV, Single cell ATAC。這篇文章將主要簡述10X Genomics在 單細胞基因表達 檢測方面,也就是scRNA-seq上的應用咐棗。
10X Genomics 一次測序可以捕捉 100-80,000個細胞 ,具有極高的細胞通量。單細胞的測序通量平均也在 50,000 reads/per cell 左右,而如果使用細胞核進行測序則平均通量為 25,000 reads/per nuclei。比起使用FACS進行細空簡羨胞分選的單細胞測序技術而言,10X Genomics的細胞通量有顯著的提高。
10X Genomics與其他測序技術的主要區別在於其 barcode和建庫 的操作。雖然上樣之後都是自動化操作,但了解其建庫原理對後續的生物信息學分析也是有必要的。
10X Genomics運用微流控系統進行細胞分選,帶有Barcode的Gel Beads 勻速地從左方進入,待分選的細胞和酶從下方以一定時間間隔進入,並與Gel Beads結合,進入油相中形成 GEMs(Gel Bead in emulsion)
Gel Beads上的Barcode帶有一段每個細胞特異的 UMI ,在隨後的文庫構建中,只要是由該細胞擴增出的cDNA都會帶上這段UMI以及前面的10x Barcode。因此,便可區分出不同細胞擴增出的cDNA。要注意的是,10X Genomics也是通過poly(dT)富集細胞的mRNA,會有無法避免的3『 bias.
一般而言,每個GEMs會形成如上圖一般的結構,即一個細胞一個gel beads。但有時候也會出現一個GEM里有0或多個細胞(empty droplet or doublet),對於這種GEMs則需要通過我們在後續分析中識別出來並進行排除。
形成GEMs後, 細胞裂解後經過反轉錄(RT) —— cDNA generation 便形成cDNA文庫。這一系列建庫過程都在GEMs中發生,因此GEMs的存在相當於一個物理隔離,保證每個單細胞都在獨特的「小室」中發生。另外,由於GEMs是在油相中形成了一種乳濁液(emulsion) 的形態 ,而乳濁液中會形成上萬個微液滴,每一個微液滴就是一個GEMs,這也解釋了為何10X Geonmics細胞通量如此之高的原因。
建庫完成後,採用Illumina的測序儀進行測序,通常進行雙端不等長測序。其中5'測28nt檢測barcode與UMI,3'測90nt用於定量基因表達。
最後,測序完成後,現在的10X Genomics測序儀會同時進行一斗拍些簡單的數據分析,包括每個樣品的數據量,mapping rate,data filtering ,每細胞reads等等。當然,我們也可以自己拿數據跑Cell Ranger,隨後可以用seurat包等進行後續的個性化分析也是沒有問題的。
以上就是對10X Genomics平台的簡單介紹。
完。
Ⅱ 重磅干貨—10XGenomics單細胞轉錄組FAQ來啦
隨著09年單細胞轉錄組技術的現世,使得科研精度從組織轉變為單個細胞的層面。10XGenomics單細胞脊掘轉錄組技術作為其中目前來說最為大火的技術,對於細胞發育、腫瘤異質性以及細胞圖譜等等方面的研究發揮著越來越重要的作用。今天我們一起看下其中可能遇到的問題吧~
Q1. 什麼樣的原始數據可以直接用於cellranger分析呢?
A1. 使用cellranger軟體進行分析,使用的是:
*_S1_L001_R1_001.fastq.gz
*_S1_L001_R2_001.fastq.gz
分析軟體只識別形如以下格式的fq文件:
「Sample Name_S1_L00[Lane Number]_[Read Type]_001.fastq.gz
Q2. 通常樣品nGene和nUMI的相關性系數模野槐要在0.8以上,但是這次實驗的相關性在0.5以下,怎麼解釋這個情況,得到的實驗下機數據還可靠嗎?
A2. 影響相關性的因素有文庫制備過程的穩定性和細胞狀態的一致性。如果相關性較低,可能是由於文庫中細胞狀態差異較大。
可能與細胞檢測時的狀態有關,有些細胞可能活性降低,核酸存在降解的狀態。
Q3. 檢測線粒體表達量目的是為了作為陰性對照嗎?正常線粒體基因在細胞中含量不是很多,那檢測線粒體表達量是評價測序結果好壞的一個陰性對照嗎?
A3. 檢測線粒體基因的表達量是一個數據分析質控指標。除了部分特殊類型的細胞(如卵細胞)。如果定位到線粒體的比例高,表明細胞質量較低,這可能是細胞凋亡增加所致。
Q4. valid barcodes只有92%,請問其他的reads是不帶標記還是帶錯誤標記呢?如果是錯誤標記,該錯誤是在哪一步引入的?
A4. 都會有barcode,這個barcode不在白名單裡面,可能是錯配較多,或者質量較差。
Q5. 能否根據已知的某一個或者某幾個的marker基因,過濾出高表達這些maker基因的細胞,然後對這些細胞重新進行聚類分析呢?
A5. 可以。可以直接計算出每個細胞中這些marker基因的表達比例,然後挑選高表達(需要確定高表達的閾值)這些基因的細胞做後續分析。
Q6. 關注的基因表達量水平比較低,分析中採用的歸一化方法對低表達量基因的影響是否很大呢?
A6. seurat分析中,默認採用LogNormalize歸一化演算法。該歸一化對低表達的基因沒有影響。
Q7. seurat分析里P_val和p_val_adj要考慮么?p_val_adj有數值為1的,應該選取什麼樣的數值呢?
A7.seurat軟體結果只對旦友avg_logFC有個閾值控制(seurat軟體默認),一般為0.25。
對其他值比如P_val和p_val_adj都沒有設定閾值,所以會出現有p_val_adj值為1的結果。
主要原因是由於單細胞數據表達量數據較低(與bulk RNA相比較),設定太嚴格的閾值可能會造成有些有意義的數據被過濾掉了。
P_val和p_val_adj的值可以參考一下,差異倍數相差不大的話,可以考慮一下這兩個值。
參考文獻
https://www.biorxiv.org/content/biorxiv/early/2019/03/18/576827.full.pdf