logoSSRSeq V1.1基于二代SSR丰度表的分型工具 english
输入文件准备

样本STR丰度表 :    row format 示例文件: input_example_row.txt ; col format 示例文件: input_example_col.txt
STR motif信息表 :    motif信息表 示例文件: motif_example.txt
   文件格式、参数的解释请参考网页‘说明’

分析参数设置
丰度表格式 : row format col format
最低测序深度阈值 :
最小相对拷贝数阈值 :

运行
GitHub 代码共享
软件名称 描述 地址
SSRseq_count 基于SSR二代测序数据的丰度识别工具 https://github.com/ccoo22/SSRseq_count
SSRSeq 基于SSR丰度表的分型工具 https://github.com/ccoo22/SSRSeq

软件文献引用
Cui X, Li C, Qin S, Huang Z, Gan B, Jiang Z, Huang X, Yang X, Li Q, Xiang X, Chen J, Zhao Y, Rong J. High-throughput sequencing-based microsatellite genotyping for polyploids to resolve allele dosage uncertainty and improve analyses of genetic diversity, structure and differentiation: A case study of the hexaploid Camellia oleifera. Mol Ecol Resour. 2021 Jul 14. doi: 10.1111/1755-0998.13469. Epub ahead of print. PMID: 34260828.

说明
本STR分型软件,是基于天昊生物二代测序技术捕获的STR序列测序深度信息进行的分析。
1) 丰度文件格式:支持两种格式,'row format' 和 'col format'
     row 格式:每一行记录所有样本在该片段上含有这种STR序列的reads数量,如果不含有,可以设为0或者空着。
     第一列:片段名
     第二列:STR序列类型
     第三列及以后:每个样本含有的该STR序列的reads数量
     文件必须包含表头,前两列名字随意,推荐:target、str。之后的表头即为样本名称。
     参考示例: input_example_row.txt

    col 格式:每一行记录某一个样本在该片段上含有的这种STR序列的reads数量,如果不含有,可以设为0或者删除该行,不允许空着。必须由4列构成
     第一列:片段名
     第二列:STR序列类型
     第三列:样本名称
     第四列:reads数量
     参考示例: input_example_col.txt

注意事项
    (a)片段名:取名随意,尽可能使用英文字母、数字、下划线命名,不要含有空格。片段名必须唯一(分析的同一个目标片段的STR,必须拥有相同的片段名称),否则会出现意料之外的错误。
    (b)STR序列类型:在天昊,格式是固定的,表现形式为“motif(n)”,即:该STR是由n个motif构成的序列。motif是由ATCG构成的短序列,必须大写。
        示例:AGT(8)

2) motif文件格式:该文件声明每个片段motif信息、拷贝数信息等(必须包含所有出现在input中的片段,表头的名称固定)
    参考示例: motif_example.txt
    必须包含6列数据,列名分别是:
target 片段名称
motif 片段STR的最小组成单位,大写的ATCG构成的短序列,必须与input文件中的motif一致
ploid 物种的倍体数量
homology 该片段在基因组上的同源数量,通常设为1。如果有n个同源(即基因组n个不同的位置有完全一样的序列),则设为n
注:最终分型的拷贝数 = ploid * homology
noise_cutoff 拷贝数分析时,噪音的阈值(频率低于噪音阈值的STR会被直接排除),通常设定为 0.6 * type_cutoff
type_cutoff 拷贝数分析时,分型的阈值(频率高于分型阈值的STR会认为真实存在),通常设定为0.5 * (1 / (ploid * homology))
介于噪音阈值和分型阈值之间的STR会通过一系列的算法进行矫正、分型

3) 最低测序深度阈值 : 样本分型所需要的最少reads数量,默认:30
4) 最小相对拷贝数阈值 : 分型时,最小的相对拷贝数, 取值(0.0, 1.0), 如果样本的相对拷贝数低于该值,则直接排除该等位基因, 默认: 0