One Codex欲成为基因组数据搜索领域的“谷歌”:其数据库中保存的3万种细菌、病毒和真菌进行搜索,在短短数分钟内就能找到自己需要的数据集

随着医院和公共健康服务机构转而采用基因组数据进行病菌检测,过滤基因组数据可能会耗费技术人员一定的时间。获得知名孵化器Y Combinator支持的创业公司OneCodex希望能帮助研究人员、临床医生和公共卫生部门官员搜索这种数据。这些医疗从业人员已经对超过10万个基因组进行了排序,生成了数PB级的数据。

One Codex由前数据科学家尼克·格林菲尔德(Nick Greenfield)及持有华盛顿大学基因组学博士学位的尼克·克鲁姆(Nik Krumm)创办,是一个面向基因组学的服务平台。由于基因组排序革命的推动,基因组学正在不断得到发展。

除了采用搜索技术外,OneCodex还充当了一个有索引、经策展的参照平台的作用。One Codex目前仍然处于开放测试阶段,用户可以实时对其数据库中保存的3万种细菌、病毒和真菌进行搜索,在短短数分钟内就能找到自己需要的数据集(每秒钟能过滤数百万个DNA碱基对)。

目前,用于基因组搜索的最常用工具是一种名为“BLAST”的算法,即“基本局部比对搜索工具”(Basic Local Alignment Search Tool)的英文首字母缩写形式,这种算法可以对主要的生物排序信息进行比对。

通常情况下,格林菲尔德将一份文件上传至BLAST需要花费2分30秒。然而,使用One Codex上传同样大小的数据,花费的时间还不到20分之一秒,也就是说,它的上传速度比BLAST工具快了3000倍。

格林菲尔德表示,OneCodex希望能将这项技术推广到临床传染病市场。他说:“医生不必使用特殊手段来检测肺结核,只要提取了样本,对样本进行排序,将这种样本转化为数据,然后就可以在所有病原体中搜索相关数据,结果可以告诉你,你是否患有肺结核,肺结核的类型,这种肺结核对抗生素是否有抗药性等等。”

One Codex还在积极开拓公共健康和食物安全市场,因为像食品与药品管理局这样的美国政府机构每年都会对食物病原体进行大概5亿次检测,而这种检测如今正被转变为基于基因组学的检测。one_codex_beta_1600px

用户能以FASTA和FASTQ格式上传任何排序平台的数据,然后由One Codex的搜索平台来分类。FASTA和FASTQ都是基于文本的格式,可以保存生物序列和相应的质量代码。

One Codex利用两个数据库来给用户输入的数据分类:一是RefSeq 65 CompleteGenomes数据库,该数据库含有2,718个细菌基因组和2,318个病毒基因组;二是One Codex 28,000数据库,除了含有RefSeq 65数据库的基因组数据外,它还拥有美国全国生物技术信息中心(National Center for Biotechnology Information)数据库提供的额外22,710个基因组,这样,One Codex 28,000数据库的细菌基因组数达到23,498个,病毒基因组数达到3,995个,真菌基因组数为364个。

目前,One Codex专注于在医院和政府机构测试这个平台,然后它才会考虑对其服务进行商业化。六年前,对人类基因组进行排序的费用高达1000万美元,而今天这项费用大概只有1200美元,鉴于此,One Codex显然在一个合适的时间出现在了一个合适的地方。

(译/皓岳 TECHCRUNCH 编/WA众医网)

Leave a Reply