今天就跟大家聊聊有关怎么使用hi-C数据辅助埃及伊蚊基因组的组装,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
早在2013年的时候, 就已经有科学家提出了利用Hi-C数据来辅助基因组组装的思路,可以将scaffold进一步提升到染色体级别的长度,并提供了配套的分析软件LACHESIS
。该软件默认输入的基因组组装结果完全正确,后续的操作都是建立在这个前提下。然而实际情况中,受到组装算法的限制,基因组草图中会存在拼接错误的情况。
分析思路: 首先会根据hi-c数据的结果,对输入的基因组组装结果中的拼接错误进行校正,然后在进行后续分析,整个pipeline如下图所示
可以分成以下4个大的步骤
preliminary filtration
misjoin correction
ordering and orientation
overlap merging
第一步首先对基因组组装的结果进行预处理,去除长度太短的scafflod。长度过短的scaffold在hi-c图谱中对应的交互信息会非常的少,没有足够的交互信息无法有效的进行后续分析;第二步利用hi-c数据校正scaffold中存在的拼接错误,对于检测到存在拼接错误的scaffold, 将其切割为存在拼接错误的inconsistent
部分和未检测到拼接错误的consistent
部分,inconsistent
部分不会进行后续分析。
第三步确定归属同一条染色体的scaffold,并进行排序和调整方向;第四步检测同一条染色体上的scaffold间是否存在overlap, 对于存在overlap的scaffold, 进行merge。
应用该算法结合hi-c数据对埃及伊蚊的基因组结果重新组装后,效果如下所示
可以看到,由最初的草图组装到了最终的染色体级别。该算法对任意的基因组组装都是适用的,值得一提的是该文章指出,通过hi-c数据辅助基因组组装得到的最终结果中,还是会存在部分的错误结果,这个是不可避免的。
看完上述内容,你们对怎么使用hi-C数据辅助埃及伊蚊基因组的组装有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注亿速云行业资讯频道,感谢大家的支持。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。