这篇文章将为大家详细讲解有关CNCI工具有什么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
CPC是一款使用率非常高的lncRNA预测软件,但是它也存在一些问题。利用二代测序得到的转录组数据,我们组装得到的转录本往往是不完整的,基于非全长的转录本去预测lncRNA,如果这个lncRNA和蛋白编码基因存在overlap,那么很容易造成误判;其次对于没有物种注释的物种,其效果也很差。
为了克服上述问题,研究人员开发出了一款新的工具CNCI
, 和CPC
不同,该软件基于三联体碱基的构成来区分coding和noncoding转录本,论文发表在Nucleic Acids Research上,网址如下
https://academic.oup.com/nar/article/41/17/e166/2411728
三联体碱基指的就是三个连续的碱基,和密码子类似,称之为ANT
, 该软件利用人和小鼠的转录本数据,构建了一个支持向量机的模型,用于对脊椎动物进行分类,示意如下
对于不同长度的转录本序列,和其他软件的性能比较如下
可以看到CNCI在各个长度区间性能都比较好。该软件的源代码保存在github上,网址如下
https://github.com/www-bioinfo-org/CNCI
安装方式如下
git clone git@github.com:www-bioinfo-org/CNCI.git cd CNCI unzip libsvm-3.0.zip cd libsvm-3.0 make
CNCI的执行脚本是采用python开发的,直接用就可以的,但是该软件依赖libsvm
, 所以需要安装这个库文件。基本用法如下
python CNCI.py \ -f transcript.fasta \ -o test \ -m ve \ -p 8 \
-f
指定转录本序列文件,可以是fasta格式,也可以是gtf格式,如果是gtf格式,需要同时指定-g
和-d
参数;-p
参数指定并行的CPU个数;-m
指定使用的模型,ve
代表脊椎动
物,p
代表植物;-o
指定输出结果的目录。
在结果目录下,有一个名为CNCI.index
的文件,内容示意如下
第二列表明转录本的分类结果。更多用法和详细信息请参考官方文档。
关于“CNCI工具有什么用”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。