扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
blast 的全称是 basic local alignment search tool 是一种极其常见的序列比对工具。其中包含几个模块(可以这么认为),blastn blastp blastx,tblastx 等等。blastp 用于蛋白序列之间的比对。
用C++重构的那个版本,蛋白比对速度快了好多倍。
不要直接blastx。你既然是mRNA,那么ORF显然只有一个。先找出这个,然后直接做blastp。
不要使用全蛋白的数据库,而是做一些筛选。你可以选择:
只选出mRNA对应目标物种的蛋白。
只使用注释良好的蛋白,比如用SwissProt。
使用去冗余的蛋白库,比如UniRef90,或者自己去冗余。
也可以以上都做。
当然,你还可以搞个大点的电脑。NCBI的blast可以开多线程。
BLAST中使用的统计值有概率p值和期望e值。
E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值(E值)小于该值(10),则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。
p值表示比对结果得到的分数值的可信度。一般说来,p值越接近于零,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能性越大。
到此,以上就是小编对于blast和bomb的问题就介绍到这了,希望这4点解答对大家有用。
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流