Variant Calling

Introdução

Variant calling é o processo de identificação de variações genéticas comparando sequências obtidas por sequenciamento com um genoma de referência.

Essas variantes representam diferenças genéticas entre indivíduos e podem incluir substituições de nucleotídeos, inserções, deleções e rearranjos estruturais.

A detecção de variantes é um passo central em estudos de genômica, medicina personalizada e pesquisa biomédica.

Tipos de Variantes

Tipo Descrição
SNP Substituição de um único nucleotídeo
Indel Inserção ou deleção de nucleotídeos
CNV Variação no número de cópias de genes
Structural Variant Inversões, duplicações e translocações

Pipeline de Variant Calling


Sequenciamento
 ↓
FASTQ
 ↓
Controle de qualidade
 ↓
Alinhamento
 ↓
BAM
 ↓
Processamento do alinhamento
 ↓
Variant Calling
 ↓
VCF
 ↓
Anotação funcional

Formatos de Arquivos

Formato Função
FASTQ Sequências brutas com qualidade
BAM Sequências alinhadas ao genoma
VCF Lista de variantes detectadas

Modelos Estatísticos

Algoritmos de variant calling utilizam modelos probabilísticos para distinguir erros de sequenciamento de variantes reais.

Principais abordagens:
  • Modelos bayesianos
  • Modelos de máxima verossimilhança
  • Modelos baseados em aprendizado de máquina

Métricas Importantes

Métrica Descrição
DP Depth de cobertura
QUAL Qualidade da variante
GQ Qualidade do genótipo
AF Frequência alélica

Ferramentas de Variant Calling

Ferramenta Descrição
GATK Framework amplamente utilizado para análise de variantes
FreeBayes Variant caller baseado em haplótipos
DeepVariant Caller baseado em deep learning
Samtools Ferramenta clássica para análise de alinhamentos

Pipeline GATK Best Practices


FASTQ
 ↓
BWA alignment
 ↓
Mark duplicates
 ↓
Base quality recalibration
 ↓
HaplotypeCaller
 ↓
VCF

Filtragem de Variantes

Após a chamada de variantes, filtros são aplicados para remover variantes de baixa confiança.

Critérios comuns:
  • Qualidade mínima
  • Profundidade mínima de leitura
  • Frequência alélica

Anotação Funcional

Após identificar variantes, é necessário avaliar seu impacto biológico.

Ferramentas populares:
  • ANNOVAR
  • SnpEff
  • VEP (Variant Effect Predictor)

Visualização de Variantes

Ferramentas utilizadas:
  • IGV (Integrative Genomics Viewer)
  • UCSC Genome Browser

Aplicações Científicas

  • Diagnóstico genético
  • Pesquisa em câncer
  • Medicina personalizada
  • Estudos populacionais
  • Farmacogenômica

Recursos e Documentação

  • GATK: https://gatk.broadinstitute.org
  • 1000 Genomes Project: https://www.internationalgenome.org
  • dbSNP: https://www.ncbi.nlm.nih.gov/snp
  • Ensembl Variant Effect Predictor: https://www.ensembl.org