Variant Calling
Introdução
Variant calling é o processo de identificação de variações genéticas comparando sequências obtidas por sequenciamento com um genoma de referência.
Essas variantes representam diferenças genéticas entre indivíduos e podem incluir substituições de nucleotídeos, inserções, deleções e rearranjos estruturais.
A detecção de variantes é um passo central em estudos de genômica, medicina personalizada e pesquisa biomédica.
Tipos de Variantes
| Tipo | Descrição |
|---|---|
| SNP | Substituição de um único nucleotídeo |
| Indel | Inserção ou deleção de nucleotídeos |
| CNV | Variação no número de cópias de genes |
| Structural Variant | Inversões, duplicações e translocações |
Pipeline de Variant Calling
Sequenciamento ↓ FASTQ ↓ Controle de qualidade ↓ Alinhamento ↓ BAM ↓ Processamento do alinhamento ↓ Variant Calling ↓ VCF ↓ Anotação funcional
Formatos de Arquivos
| Formato | Função |
|---|---|
| FASTQ | Sequências brutas com qualidade |
| BAM | Sequências alinhadas ao genoma |
| VCF | Lista de variantes detectadas |
Modelos Estatísticos
Algoritmos de variant calling utilizam modelos probabilísticos para distinguir erros de sequenciamento de variantes reais.
Principais abordagens:- Modelos bayesianos
- Modelos de máxima verossimilhança
- Modelos baseados em aprendizado de máquina
Métricas Importantes
| Métrica | Descrição |
|---|---|
| DP | Depth de cobertura |
| QUAL | Qualidade da variante |
| GQ | Qualidade do genótipo |
| AF | Frequência alélica |
Ferramentas de Variant Calling
| Ferramenta | Descrição |
|---|---|
| GATK | Framework amplamente utilizado para análise de variantes |
| FreeBayes | Variant caller baseado em haplótipos |
| DeepVariant | Caller baseado em deep learning |
| Samtools | Ferramenta clássica para análise de alinhamentos |
Pipeline GATK Best Practices
FASTQ ↓ BWA alignment ↓ Mark duplicates ↓ Base quality recalibration ↓ HaplotypeCaller ↓ VCF
Filtragem de Variantes
Após a chamada de variantes, filtros são aplicados para remover variantes de baixa confiança.
Critérios comuns:- Qualidade mínima
- Profundidade mínima de leitura
- Frequência alélica
Anotação Funcional
Após identificar variantes, é necessário avaliar seu impacto biológico.
Ferramentas populares:- ANNOVAR
- SnpEff
- VEP (Variant Effect Predictor)
Visualização de Variantes
Ferramentas utilizadas:- IGV (Integrative Genomics Viewer)
- UCSC Genome Browser
Aplicações Científicas
- Diagnóstico genético
- Pesquisa em câncer
- Medicina personalizada
- Estudos populacionais
- Farmacogenômica
Recursos e Documentação
- GATK: https://gatk.broadinstitute.org
- 1000 Genomes Project: https://www.internationalgenome.org
- dbSNP: https://www.ncbi.nlm.nih.gov/snp
- Ensembl Variant Effect Predictor: https://www.ensembl.org