今天就跟大家聊聊有关导致uBAM迟迟无法流行起来的4个原因分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
uBAM就是非比对的BAM文件,fastq可以通过picard这个工具将其转为这个格式。
它有不少优于fastq格式的地方,比如:同一个read的数据都在同一行;拓展性强,可以添加丰富的metadata;方便维护,同一个样本的测序数据甚至可以只通过一份uBAM来存储就行了等。
从我第一次知道uBAM的时候算起,已经过去4+年了。我也曾非常看好它,认为它必是以后存储下机数据的标准。然而时隔多年,很奇怪,uBAM这么好(GATK也都一直支持着这个格式),为什么还是迟迟不见它流行起来呢?
目前,使用uBAM格式的单位据我所知也仅仅只是一些比较大型的研究机构,比如美国的Broad Institute和英国的Sanger会采用它来存储下机数据。
这段时间思考下来觉得可能有以下几个原因,与诸位共享:
BAM是“笨重”的,它并不是文本文件,你无法直接通过文本工具打开它查看具体内容。只能通过第三方工具或者专门的SAM/BAM程序包(或者API)来实现对它的操作。这对许多不熟悉这一处理方式的研究者来说,会带来很多麻烦。这等于是直接提高了操作这个文件的门槛,从这一点看使用体验确实远不如fastq;
主流工具还不完全支持,除了samtools和与它相关的少量工具,并没有太多其他的工具直接支持在命令行操作BAM;
BAM文件的空间占比并不比压缩了的fastq小很多,优势有限;
底层IO效率方面,实际上也是文本格式的fastq(或者gzip压缩的fastq)要高于BAM。
从uBAM的这个现象,或许也侧面折射出了一些关于产品设计(或者方案设计)的问题。关于这个问题,我看到了三个地方,欢迎大家拍砖:
第一、体验。一个产品或者方案要流行起来,除了解决需求之外,对使用体验的关注度要高于技术的先进性和产品本身的完备性;
第二、先发优势。时间一旦落后了(比如fastq早于uBAM很多年),用户习惯的更改需要有完备的技术解决工具来支持,降低切换成本,甚至实现无痛切换,从而最大程度的保留新产品的优势;
第三、看似简单的事物越是难以被取缔。fastq格式是一个存储测序数据极为简单、简明的数据格式,它只包含所有必须包含的内容,而且目标明确,就是序列ID、测序数据和质量值,它们都是必不可缺的信息,再多无用,似乎已是极致。
看完上述内容,你们对导致uBAM迟迟无法流行起来的4个原因分别是什么有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注亿速云行业资讯频道,感谢大家的支持。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。