GitHub 代码共享
软件文献引用
Cui X, Li C, Qin S, Huang Z, Gan B, Jiang Z, Huang X, Yang X, Li Q, Xiang X, Chen J, Zhao Y, Rong J. High-throughput sequencing-based microsatellite genotyping for polyploids to resolve allele dosage uncertainty and improve analyses of genetic diversity, structure and differentiation: A case study of the hexaploid Camellia oleifera. Mol Ecol Resour. 2021 Jul 14. doi: 10.1111/1755-0998.13469. Epub ahead of print. PMID: 34260828.
说明
本STR分型软件,是基于天昊生物二代测序技术捕获的STR序列测序深度信息进行的分析。
1)
丰度文件格式:支持两种格式,'row format' 和 'col format'
row 格式:每一行记录所有样本在该片段上含有这种STR序列的reads数量,如果不含有,可以设为0或者空着。
第一列:片段名
第二列:STR序列类型
第三列及以后:每个样本含有的该STR序列的reads数量
文件必须包含表头,前两列名字随意,推荐:target、str。之后的表头即为样本名称。
参考示例:
input_example_row.txt
col 格式:每一行记录某一个样本在该片段上含有的这种STR序列的reads数量,如果不含有,可以设为0或者删除该行,不允许空着。必须由4列构成
第一列:片段名
第二列:STR序列类型
第三列:样本名称
第四列:reads数量
参考示例:
input_example_col.txt
注意事项:
(a)片段名:取名随意,尽可能使用英文字母、数字、下划线命名,不要含有空格。片段名必须唯一(分析的同一个目标片段的STR,必须拥有相同的片段名称),否则会出现意料之外的错误。
(b)STR序列类型:在天昊,格式是固定的,表现形式为“motif(n)”,即:该STR是由n个motif构成的序列。motif是由ATCG构成的短序列,必须大写。
示例:AGT(8)
2)
motif文件格式:该文件声明每个片段motif信息、拷贝数信息等(必须包含所有出现在input中的片段,表头的名称固定)
参考示例:
motif_example.txt
必须包含6列数据,列名分别是:
target |
片段名称 |
motif |
片段STR的最小组成单位,大写的ATCG构成的短序列,必须与input文件中的motif一致 |
ploid |
物种的倍体数量 |
homology |
该片段在基因组上的同源数量,通常设为1。如果有n个同源(即基因组n个不同的位置有完全一样的序列),则设为n 注:最终分型的拷贝数 = ploid * homology |
noise_cutoff |
拷贝数分析时,噪音的阈值(频率低于噪音阈值的STR会被直接排除),通常设定为 0.6 * type_cutoff |
type_cutoff |
拷贝数分析时,分型的阈值(频率高于分型阈值的STR会认为真实存在),通常设定为0.5 * (1 / (ploid * homology)) 介于噪音阈值和分型阈值之间的STR会通过一系列的算法进行矫正、分型 |
3) 最低测序深度阈值 : 样本分型所需要的最少reads数量,默认:30
4) 最小相对拷贝数阈值 : 分型时,最小的相对拷贝数, 取值(0.0, 1.0), 如果样本的相对拷贝数低于该值,则直接排除该等位基因, 默认: 0