SSRSeq V1.1

GitHub 代码共享

软件名称	描述	地址
SSRseq_count	基于SSR二代测序数据的丰度识别工具	https://github.com/ccoo22/SSRseq_count
SSRSeq	基于SSR丰度表的分型工具	https://github.com/ccoo22/SSRSeq

软件文献引用

Cui X, Li C, Qin S, Huang Z, Gan B, Jiang Z, Huang X, Yang X, Li Q, Xiang X, Chen J, Zhao Y, Rong J. High-throughput sequencing-based microsatellite genotyping for polyploids to resolve allele dosage uncertainty and improve analyses of genetic diversity, structure and differentiation: A case study of the hexaploid Camellia oleifera. Mol Ecol Resour. 2021 Jul 14. doi: 10.1111/1755-0998.13469. Epub ahead of print. PMID: 34260828.

说明

本STR分型软件，是基于天昊生物二代测序技术捕获的STR序列测序深度信息进行的分析。
1) 丰度文件格式：支持两种格式，'row format' 和 'col format'
     row 格式：每一行记录所有样本在该片段上含有这种STR序列的reads数量，如果不含有，可以设为0或者空着。
     第一列：片段名
     第二列：STR序列类型
     第三列及以后：每个样本含有的该STR序列的reads数量
     文件必须包含表头，前两列名字随意，推荐：target、str。之后的表头即为样本名称。
     参考示例： input_example_row.txt

    col 格式：每一行记录某一个样本在该片段上含有的这种STR序列的reads数量，如果不含有，可以设为0或者删除该行，不允许空着。必须由4列构成
     第一列：片段名
     第二列：STR序列类型
     第三列：样本名称
     第四列：reads数量
     参考示例： input_example_col.txt

注意事项：
    （a）片段名：取名随意，尽可能使用英文字母、数字、下划线命名，不要含有空格。片段名必须唯一（分析的同一个目标片段的STR，必须拥有相同的片段名称），否则会出现意料之外的错误。
    （b）STR序列类型：在天昊，格式是固定的，表现形式为“motif(n)”，即：该STR是由n个motif构成的序列。motif是由ATCG构成的短序列，必须大写。
        示例：AGT(8)

2) motif文件格式：该文件声明每个片段motif信息、拷贝数信息等(必须包含所有出现在input中的片段，表头的名称固定)
    参考示例： motif_example.txt
    必须包含6列数据，列名分别是:

target	片段名称
motif	片段STR的最小组成单位，大写的ATCG构成的短序列，必须与input文件中的motif一致
ploid	物种的倍体数量
homology	该片段在基因组上的同源数量，通常设为1。如果有n个同源（即基因组n个不同的位置有完全一样的序列），则设为n 注：最终分型的拷贝数 = ploid * homology
noise_cutoff	拷贝数分析时，噪音的阈值(频率低于噪音阈值的STR会被直接排除)，通常设定为 0.6 * type_cutoff
type_cutoff	拷贝数分析时，分型的阈值（频率高于分型阈值的STR会认为真实存在），通常设定为0.5 * (1 / (ploid * homology)) 介于噪音阈值和分型阈值之间的STR会通过一系列的算法进行矫正、分型

3) 最低测序深度阈值 : 样本分型所需要的最少reads数量,默认：30
4) 最小相对拷贝数阈值 : 分型时，最小的相对拷贝数, 取值(0.0, 1.0), 如果样本的相对拷贝数低于该值，则直接排除该等位基因, 默认： 0

样本STR丰度表 :		row format 示例文件： input_example_row.txt ; col format 示例文件： input_example_col.txt
STR motif信息表 :		motif信息表示例文件： motif_example.txt
		文件格式、参数的解释请参考网页‘说明’

丰度表格式 :	row format col format
最低测序深度阈值 :
最小相对拷贝数阈值 :