清華學(xué)者利用深度學(xué)習(xí)人工智能算法分析單細(xì)胞ATAC-seq數(shù)據(jù)
?SCALE的模型框架
● ● ●
2019年10月8日,清華大學(xué)生命學(xué)院的張強(qiáng)鋒課題組在《自然通訊》(Nature Communications)上發(fā)表題為“SCALE方法基于隱特征提取進(jìn)行單細(xì)胞ATAC-seq數(shù)據(jù)分析”(SCALE method for single-cell ATAC-seq analysis via latent feature extraction)的學(xué)術(shù)文章。
真核生物的染色質(zhì)具有復(fù)雜的高級(jí)結(jié)構(gòu),由DNA一圈一圈纏繞在組蛋白上形成串珠式模型并進(jìn)一步折疊聚集而成?;虻霓D(zhuǎn)錄必須要將相應(yīng)的染色質(zhì)打開(kāi)形成開(kāi)放區(qū)域才能結(jié)合其他的轉(zhuǎn)錄調(diào)控因子。因此可以說(shuō)染色質(zhì)開(kāi)發(fā)區(qū)域是基因組編碼生命的窗口。單細(xì)胞ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing)技術(shù)在單細(xì)胞層次上通過(guò)Tn5 DNA轉(zhuǎn)座酶在開(kāi)放染色質(zhì)插入測(cè)序接頭進(jìn)行標(biāo)記并測(cè)序,從而獲取“高分辨“的單細(xì)胞精度的染色質(zhì)開(kāi)放圖譜,并依此揭示細(xì)胞異質(zhì)性的調(diào)控機(jī)制。
越來(lái)越多的研究者們應(yīng)用單細(xì)胞ATAC-seq技術(shù),在腫瘤、免疫、發(fā)育領(lǐng)域獲取大量的測(cè)序數(shù)據(jù)。然而,目前沒(méi)有一個(gè)有效的方法可以很好地分析挖掘海量的單細(xì)胞ATAC-seq數(shù)據(jù)中寶貴的生物信息。單細(xì)胞ATAC-seq數(shù)據(jù)分析的難點(diǎn)在于數(shù)據(jù)本身。第一,細(xì)胞整體的染色質(zhì)開(kāi)放位點(diǎn)數(shù)有幾十萬(wàn)之多,造成所謂的“維度災(zāi)難”。另外,由于生物的原因許多潛在的開(kāi)放沒(méi)有信號(hào),數(shù)據(jù)異常稀疏,技術(shù)限制帶來(lái)的數(shù)據(jù)丟失極大程度上加劇了這種現(xiàn)象。特別的,在二倍體基因組上一個(gè)開(kāi)放區(qū)域一般至多只有兩個(gè)拷貝,使得數(shù)據(jù)近乎二值化。這些問(wèn)題都給單細(xì)胞ATAC-seq數(shù)據(jù)的分析帶來(lái)了巨大挑戰(zhàn)。
近日,張強(qiáng)鋒課題組發(fā)表的文章提出了SCALE,利用人工智能深度學(xué)習(xí)的方法,結(jié)合變分自編碼器和高斯混合模型,提取單細(xì)胞ATAC-seq數(shù)據(jù)的隱層特征,將問(wèn)題從復(fù)雜稀疏的高維度的染色質(zhì)開(kāi)放圖譜空間投射到了簡(jiǎn)單抽象的低緯度特征空間。這種處理不但可以發(fā)現(xiàn)和解析細(xì)胞特異性的染色質(zhì)圖譜模式,還通過(guò)相似細(xì)胞信息共享,填補(bǔ)了技術(shù)限制導(dǎo)致的缺失值,從而巧妙地解決了單細(xì)胞ATAC-seq數(shù)據(jù)中高維度、稀疏性、二值化等問(wèn)題。SCALE提供了完整的可視化、聚類、數(shù)據(jù)增強(qiáng)、幫助下游生物信息的挖掘,為研究者們解碼單細(xì)胞表觀遺傳學(xué)提供了有力的工具。
清華大學(xué)生命學(xué)院研究員張強(qiáng)鋒為本文通訊作者,CLS項(xiàng)目博士生熊磊為本文第一作者。本工作得到了北京大學(xué)高歌教授、清華大學(xué)張奇?zhèn)ソ淌谝约凹又荽髮W(xué)河邊分校和清華大學(xué)姜濤教授的幫助,并獲得國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目、國(guó)家自然科學(xué)基金、清華大學(xué)結(jié)構(gòu)生物學(xué)高精尖中心、清華-北大生命科學(xué)聯(lián)合中心和國(guó)家青年千人計(jì)劃項(xiàng)目的資金支持。
注:本文轉(zhuǎn)載自清華大學(xué)生命科學(xué)學(xué)院。