继续分享资源。我没用过这软件。所以只是简单介绍一下。有用过的朋友可以详细讲讲用法。
CD-HIT
简介:CD-HIT stands for Cluster Database at High Identity with Tolerance. The program (cd-hit) takes a fasta format sequence database as input and produces a set of 'non-redundant' (nr) representative sequences as output. In addition cd-hit outputs a cluster file, documenting the sequence 'groupies' for each nr sequence representative.
输入的文件是fasta格式的序列文件,通过序列比对聚类(Cluster)的方法去除冗除、相似的序列,最后输出一个非冗除(non-redundant,nr)的序列文件。 另外,还有一个序列比对的结果。
网址:http://cd-hit.org ;http://www.bioinformatics.org/cd-hit/ ;
下载:http://www.bioinformatics.org/cd-hit/
运行环境:Linux
CD-HIT在线服务
CD-HIT也有在线运行的服务。
网址:http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/
CDHIT-454:http://weizhong-lab.ucsd.edu/cdhit_454/cgi-bin/(CDHIT-454 is a new program to identify exact duplicates and near identical duplicates in pyrosequencing reads)
有点相关的问题
- blast 蛋白质 冗余 (0.571)
- 有没有一些可以批量去蛋白质冗余的工具呢? (0.571)
- 如何利用perl和blast从多个序列中寻找到一条大概21至24bp左右的公共序列? (0.429)
- 新手请教,clustal 序列比对 (0.429)
- ncRNA定位 (0.429)
学习了……貌似我不明白……
1●