CPAT软件有什么用

发布时间：2022-01-17 10:58:21 阅读：270 作者：小新栏目：大数据

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

小编给大家分享一下CPAT软件有什么用，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！

随着高通量测序在lncRNA研究领域的应用, 越来越多的lncRNA被发现。对于转录组测序的数据而言，组装得到转录本之后，首先要做的就是区分蛋白编码和非蛋白编码的RNA。

目前针对这一问题，有多种解决方案，基本可以分为以下两类

第一种算法基于序列比对，可以较好的识别保守性较好的蛋白编码基因，包括CPC,PhyloCSF等软件; 第二种算法不需要比对，而是通过coding和non-coding转录本的序列特征来进行区分，包括CNCI, CPAT, PLEK等。

lncRNA在物种间的保守性较差，另外部分lncRNA的染色体位置和蛋白编码基因存在重叠，通过序列比对的方式来区分容易造成误判。除此之外，基于序列比对的软件，其运行速度相对较慢，所以采用第二种算法的软件综合效果更好。

本文主要介绍CPAT的使用，网址如下

http://lilab.research.bcm.edu/cpat/

对于一个转录本而言，它是coding还是noncoding, 本质上是一个二分类问题，所以CPAT的开发者想到了通过逻辑回归来解决这个问题。该软件基于以下四个特征构建了逻辑回归模型来区分coding和noncoding

前两个因素都是针对开放阅读框定义的，第一个因素是开放阅读框的大小，第二个因素是开放阅读框占转录本总长度的比例，第三个因素基于序列的碱基组成和密码子分布进行定义，第四个因素基于序列中六聚体的频率进行定义。

在论文中，针对以上4种特征，首先评估在coding和noncoding中的分布，图示如下

CPAT软件有什么用

可以看到，coding和noncoding形成了两个不同的峰，说明这4种特征在coding和noncoding之间确实存在差异。

在论文中还通过ROC曲线评估了不同软件的性能，结果如下

CPAT软件有什么用

可以看到CPAT和CPC的效果是最好的。CPAT基于python编程语言开发，安装非常的简便，代码如下

pip install CPAT

该软件既可以在本地运行，也提供了在线版本。

在线版本的网址如下

http://lilab.research.bcm.edu/cpat/

可以直接输入fasta格式的序列，也可以输入bed格式的文件，此时需要指定对应的基因组版本，示意如下

CPAT软件有什么用

本地版本对应的也有两种用法，输入bed文件的用法如下

cpat.py -r /database/hg19.fa \
-g mRNA_hg19.bed \
-d dat/Human_logitModel.RData \
-x  dat/Human_Hexamer.tsv \
-o output.txt

输入fasta文件的用法如下

cpat.py -g transcript.fa \
-d dat/Human_logitModel.RData \
-x dat/Human_Hexamer.tsv \
-o output.txt

-d和-x参数对应的文件为软件构建好的模型，位于软件的安装目录下。软件的输出结果如下所示

CPAT软件有什么用

最后一列给出了转录本的蛋白编码信息，yes代表该转录本为protein-coding转录本，no代表该转录本为noncoding转录本。

看完了这篇文章，相信你对“CPAT软件有什么用”有了一定的了解，如果想了解更多相关知识，欢迎关注亿速云行业资讯频道，感谢各位的阅读！

向AI问一下细节

猜你喜欢