单细胞生物学是当今的热门话题。其中,最前沿的领域当属单细胞RNA测序(scRNA-seq)了。
常规RNA测序方法能一次性加工测序成千上万个细胞,并给出平均差异。但没有两个细胞是完全一样的,而新型的scRNA-seq方法就能揭示细胞中产生每种特异性的微小改变,甚至这种技术还能阐明完整的新细胞类型。
例如,当美国马萨诸塞州博德研究所研究员Aviv Regev等人利用scRNA-seq对2400个免疫系统细胞进行探查时,无意中发现了一些具有潜在T细胞激活活性的树突细胞。Regev表示,能刺激这些细胞的疫苗或可潜在增强机体免疫系统,并且保护机体抵御癌症。
但这些发现都来之不易。与大量细胞相比,研究人员很难对单个细胞做相关操作,因为每种细胞仅会产生少量的RNA,于是没有犯错的余地。另外一个问题是,如何对大量数据来进行分析目前的工具可能并不直观。
《自然》杂志报道指出,一般而言,RNA测序数据能被以指令的形式输入到Unix操作系统中做多元化的分析。数据文件会从一个软件包传输到另外一个,在这样的一个过程中,每个工具都要对每个步骤做处理:例如基因组比对、质量控制、识别突变体等。而这样的一个过程非常复杂。
但对于大量的RNA测序而言,研究人能利用算法对每个步骤做处理,而且他们也很清楚每个过程的运作状况。英国癌症研究所计算生物学家Aaron Lun表示,为分析不同的基因表达,大规模RNA测序“基本上能处理问题”。对于scRNA-seq而言,人们还需要找到更便捷的方法分析数据集和编写更有用的算法。
如今,人们有很多在线资源和工具能简化scRNA-seq数据分析过程,其中名为GitHub的平台就整合了70多种工具和资源,而且相关的工具和资源能覆盖分析过程的每一步。
美国夏威夷大学生物信息学家Lana Garmire在2016年发表的一篇研究报告中列出了他们进行scRNA-seq数据分析的基本步骤。尽管每个实验都具有特殊性,但很多分析流程都是按照相同的步骤对数据来进行过滤以及排序的,同时还能够找出哪些转录物会被表达,并能纠正扩增效率的差异性。随后研究人员就可以有效的进行一个或多个二级分析检测亚群和其他功能。
威斯康星大学麦迪逊分校生物统计学家Christina Kendziorski谈道,在许多情况下,大规模RNA测序使用的工具也能应用于scRNA-seq。但数据的根本差异意味着,这并不总是可行的。
Lun也表示,一方面,单细胞测序数据的背景噪声更大。在如此少量RNA的情况下,扩增和捕获效率的微小变化,就可能在细胞间产生与生物学无关的巨大差异。因此,研究人员一定对“批量效应”保持警惕,因为在不同日期制备的看似相同的细胞,可能因为纯粹的技术原因而不完全一样,导致“中途退出”的基因在一些细胞中表达,但在测序的数据中却没有发现。
另外,澳大利亚张任谦心脏研究所生物信息学家Joshua Ho指出,研究人员面临的一个挑战就是规模问题。经典的RNA测序实验往往包含了少量样本,但scRNA-seq研究中则含有成千上万个样本。而当前工具在遭遇十倍甚至百倍的样本时,其效率通常就会降低。
即使是一个看似简单的问题例如,好的细胞制备工作包含什么,在scRNA-seq的世界也是复杂的。“或许因为目标不同,因此不同测序方法需要不同的工具分析数据。”Lun说。
例如,一种最常见的单细胞分析类型就是维数约减,这一过程就能够简化数据集以促进对相同细胞的识别。英国桑格学院研究所计算机生物学家Martin Hemberg认为,scRNA-seq数据能够把单个细胞描绘成为“具有20000个基因表达值的一览表”。而诸如主成分分析法(PCA)和t-分布邻域嵌入算法(t-SNE)等维数约减算法则能有效地将这些形状投射到两个或三个维度,从而使得相似的细胞聚集在一起。
另外一种流行的应用就是拟时分析。2014年,美国华盛顿大学生物学家Cole Trapnell就开发了首个此类工具,名为Monocle。该工具能利用机器学习的方法来对scRNA-seq实验性的数据来进行推断。
诸如哈佛大学医学院的Peter Kharchenko 开发的Pagoda等工具还能够解决亚群特征检测和空间位置确定等信息,其能利用组织中基因表达的分布数据确定每一个组织中的转录组学表达情况。
此外,纽约基因组研究中心研究者Rahul Satija开发了一种名为Seurat的工具,该工具能利用这一些数据将细胞定位在三维空间中的点。“我们之所以将其命名为打包Seurat,是因为这些点提醒我们想起点彩派画家绘画中的点。”Satija说。
如今,研究人员已经开发出了一些即用型的检测“流水线”,并还有一些端对端的图像工具,包括一些商业性的SeqGeq包以及一些成对儿的网络开放性工具,比如Granatum和ASAP(自动的单细胞分析流水线,the Automated Single-cell Analysis Pipeline);Granatum和ASAP能利用网络浏览器提供相对简单、交互式的工作站来帮助科学家们以图形化的模式来深度分析数据;目前这两个工具能够更好地帮助科学家们进行日常的测序工作。
尽管定位于特定任务,这些工具通常能处理很多问题。例如,Seurat能助力细胞亚群分析,Regev用来鉴别新的免疫细胞类型。
实际上,加州大学圣迭戈分校生物信息学家Gene Yeo表示,大多数的scRNA-seq工具都是基于R语言的Unix程序或软件包编程的,但相对而言,很少有生物学家在这些环境中工作。即便是这样,他们也可能没时间下载和配置所有工作,使这些工具真正发挥作用。
不过,研究人员已经开发了一些即用型的流程。还有端到端的图形工具,包括来自FlowJo的商业化GenSeq软件包,以及一对开源的Web工具:来自Garmire集团的Granatum和来自瑞士联邦理工学院Bart Deplancke实验室的ASAP(自动单细胞分析流程)。
ASAP和Granatum使用Web浏览器提供相对简单的交互式工作流程,使研究人员能够以图形的方式探索数据。在用户上传了数据后,软件会逐步走完他们的步骤。对于ASAP而言,这在某种程度上预示着通过可预处理、可视化、聚类和基因表达差异分析获取数据;Granatum还允许拟时间分析和蛋白质交互作用数据的整合。
Garmire和Deplancke也都表示,ASAP和Granatum旨在让生物信息等多个领域的研究人员共同合作。研究人员曾经认为,“(生物信息学家)获取数据并产生结果是十分神奇的。”夏威夷大学博士生、Granatum首席研发人员Xun Zhu表示,“现在研究人能参与一些参数的调整,这是一件好事。”
当然,这些工具并不是在每一种情况下都是完美的。例如一种能够精确鉴别细胞类型的“流水线”或许在进行拟时间分析上并不擅长。此外,加州大学伯克利分校生物统计学家Sandrine Dudoit表示,一些适当的方法或许还具有一定的数据依赖性。
这些方法和参数在大多数情况下要根据序列长度等变量做调整。不过,英国癌症研究所的John Marioni认为,重要的是不要完全信任它们。“人们不可能只因为卫星导航让自己开车冲进河里就这样做。”他说。
对于初学者而言,严谨是非常必要的,生物信息学工具几乎总能给出一个答案,那么问题是,这些答案意味着什么?对此,科学家建议进行一些探索性分析,同时对人们选择的算法进行一些假设性的研究。
而Satija指出,有些分析性的任务仍然极具挑战性,包括将来自实验条件下或有机体中的数据同来自不同组学整合的数据来进行对比。
不过,目前研究人员可使用足够多的工具进行研究,而那些对其感兴趣的科学家也在不断钻研。每种新型工具都能揭示生物学的另一面,因此只要时刻关注科学,人们就能做出明确的选择。(张章编译)