chr1
atctaaaggggccccccccc……..(文件大小是160M)
现在想取其中一段序列,比如123456bp-12345678bp的序列
由于是一般的电脑,只有2G内存,因此bioperl的模块用不了,内存存不了那么大的序列,这种情况下怎么才能把序列取出来呢?
谢谢大家帮帮忙!
有点相关的问题
- 如何根据部分基因注释信息找到染色体上所有的基因的cds呢.... (0.600)
- 不同物种转录子序列查找 (0.400)
- 如何将fasta序列批量保存在本地txt.格式文件中 (0.400)
用perl的substr函数不可以吗?
●
要内存溢出
●
可以用Biopython的 SeqIO.index()函数,这个函数不把序列存到内存里,只是存序列在文件中的起始位置
●
参考 http://www.biopython.org/DIST/docs/tutorial/Tutorial.html#htoc56
●
嗯嗯,谢谢,去学习下
●
用linux下cut命令是最方便的了。
先把序列变成一行。
再用cut,
cut -c 123456-12345678 file_name
●
对一条序列是cut掉了,但是,对需要多条序列,有没有批量的方法?
●
@rebeccajiejie:
自己写个脚本批量cut就是咯
●
思路呢?
谢谢柳同学
●
@rebeccajiejie:
#!/usr/bin/perl
while(<>){
chomp;
$result = `cut -c$_`;
chomp($result);
print $result,"\n";
}
●
好了,谢谢万能的柳同学啦
●
@rebeccajiejie: 嘿~
●