Arquitetura Medallion (Bronze, Silver, Gold) x Modelo SOR, SOT e SPEC

Na engenharia de dados, extrair informações de diversas fontes e jogá-las em um repositório sem organização é a receita perfeita para criar um “Pântano de Dados” (Data Swamp). Para que os dados sejam úteis, eles precisam passar por estágios de refinamento.

É exatamente para estruturar esse fluxo que existem frameworks arquiteturais como o Medallion (Bronze, Silver, Gold) e o modelo SOR, SOT, SPEC. Na prática, ambos descrevem a mesma jornada de amadurecimento do dado, mas com origens e focos ligeiramente diferentes.

A Arquitetura Medallion (Bronze, Silver, Gold)

O conceito foi introduzido pela equipe da Databricks (liderada por nomes como Ali Ghodsi, CEO e cofundador) por volta de 2020 junto com o conceito de Data Lakehouse, a arquitetura Medallion foca no estado de qualidade e refinamento dos arquivos e tabelas dentro de um pipeline de Big Data.

https://learn.microsoft.com/pt-br/azure/databricks/lakehouse/medallion

A analogia é simples: o dado entra bruto e vai sendo “lapidado” até virar ouro.

Camada Bronze (Raw / Bruta): É a zona de aterrissagem. Os dados chegam aqui exatamente no mesmo formato dos sistemas de origem (APIs, ERPs, CRMs, logs), sem nenhuma alteração.

Objetivo: Manter o histórico imutável. Se houver um erro no processamento futuro, você sempre pode voltar à camada Bronze e reprocessar o dado original.

Camada Silver (Cleansed / Conformed): É onde a faxina acontece. Os dados da Bronze são lidos, filtrados, padronizados (ex: transformar todas as datas para o formato YYYY-MM-DD), desduplicados e têm seus tipos de dados corrigidos.

Objetivo: Criar uma base de dados limpa, integrada e confiável que representa a operação da empresa, pronta para exploração por analistas e cientistas de dados.

Camada Gold (Curated / Aggregated): É a camada de negócio. Aqui, os dados da Silver são agregados, somados e cruzados para responder a perguntas específicas (ex: “Total de vendas por região por mês”).

Objetivo: Entregar dados altamente otimizados e prontos para consumo por ferramentas de BI (Tableau, Power BI, Metabase) ou modelos de Machine Learning.

O Modelo SOR, SOT e SPEC

Enquanto o Medallion nasceu no mundo do Big Data e processamento em nuvem, a nomenclatura SOR, SOT e SPEC tem raízes mais profundas na Governança de Dados clássica e em arquiteturas de Data Warehousing (como as de Ralph Kimball e Bill Inmon). O termo ganhou força com Bill Inmon (conhecido como o “Pai do Data Warehouse. O foco aqui é a confiabilidade e o propósito do dado.

sor, sot e spec
sor, sot e spec

SOR (System of Record – Sistema de Registro): É a origem do dado. Em arquitetura de dados, representa a camada onde a informação é armazenada de forma bruta e fidedigna ao sistema transacional que a gerou.

Equivalência: É a representação lógica da camada Bronze.

SOT (Source of Truth / Single Source of Truth – Fonte Única da Verdade): É o coração da governança. É a camada onde as discrepâncias entre diferentes sistemas foram resolvidas. Se o sistema de Vendas diz que o cliente é “João S.” e o sistema de Entregas diz “João Silva”, a SOT resolve esse conflito e consolida o dado oficial da empresa.

Equivalência: É a representação lógica da camada Silver.

SPEC (Specific / System of Engagement – Específico): São as visões de dados criadas para propósitos específicos de um departamento ou caso de uso. O RH não quer ver a base inteira da empresa; ele quer um conjunto de dados focado em métricas de contratação e turnover (um Data Mart).

Equivalência: É a representação lógica da camada Gold.

Qual a diferença real entre eles?

A diferença não está na tecnologia ou no fluxo (ambos usam pipelines de extração, limpeza e agregação), mas sim na filosofia e no vocabulário adotado pela equipe.

sor, sot e spec
CaracterísticaArquitetura Medallion (Databricks)Arquitetura SOR / SOT / SPEC
Origem do ConceitoEngenharia de Dados Moderna (Data Lakehouse, Spark).Governança de Dados e Data Warehousing tradicional.
Foco PrincipalEstágio de processamento e qualidade do dado (Bruto $\rightarrow$ Limpo $\rightarrow$ Agregado).Autoridade, governança e consumo do dado (Registro $\rightarrow$ Verdade $\rightarrow$ Aplicação).
Camada 1 (Bruto)Bronze: Pouso do dado bruto e retenção de histórico.SOR: O espelho exato do sistema de origem.
Camada 2 (Limpo)Silver: Dados padronizados, desduplicados e modelados.SOT: A “Fonte Única da Verdade” validada para toda a empresa.
Camada 3 (Negócio)Gold: Dados agregados e otimizados para dashboards de BI.SPEC: Visões departamentais específicas (Data Marts) e produtos de dados.

Na prática das empresas modernas, esses termos frequentemente se misturam. Um Arquiteto de Dados pode perfeitamente desenhar um pipeline dizendo: “Vamos usar a camada Silver do nosso Data Lake como a nossa Source of Truth (SOT) corporativa”.

Se você abrir o banco de dados de uma empresa madura, a tabela que o engenheiro chama de “Silver” é a exata mesma tabela que o time de governança chama de “SOT” (Source of Truth).

A diferença não está na tecnologia ou no fluxo dos dados. A diferença está na perspectiva de quem está olhando e no vocabulário usado para resolver problemas diferentes.

Pense nisso como duas “lentes” para olhar o mesmo funil de dados: a lente da Engenharia e a lente do Negócio/Governança.

Lente 1: Medallion (A Visão da Engenharia)

O Medallion (Bronze, Silver, Gold) foca no estado de processamento e qualidade do dado. É o vocabulário de quem “põe a mão na massa” (Engenheiros de Dados, Arquitetos Cloud).

  • A pergunta que ele responde: “O quanto de código, limpeza e transformação nós já rodamos nesse dado?”
  • Na prática: Você usa esses termos em reuniões técnicas.
    • Exemplo: “A pipeline deu erro porque o arquivo JSON que chegou na Bronze veio corrompido, então o script do Spark não conseguiu limpar e jogar para a Silver.”

Lente 2: SOR, SOT, SPEC (A Visão do Negócio e Governança)

O SOR/SOT/SPEC foca na confiabilidade, auditoria e autoridade do dado. É o vocabulário de quem consome o dado e toma decisões de negócio (Diretores, Analistas de Negócio, Auditores, Data Stewards).

  • A pergunta que ele responde: “Eu posso confiar nesse número para apresentar para o conselho diretivo? Quem é o dono dessa informação?”
  • Na prática: Você usa esses termos em reuniões de alinhamento estratégico ou resolução de conflitos.
    • Exemplo: “O dashboard de Vendas e o de Finanças estão mostrando faturamentos diferentes. Precisamos definir que a tabela X do Data Warehouse será a nossa SOT (Fonte Única da Verdade) para o faturamento global da empresa.”

Quando usar um vocabulário no lugar do outro?

Aqui está a regra de ouro para o seu dia a dia profissional: Você não escolhe um modelo em detrimento do outro, você os usa simultaneamente dependendo com quem está falando.

Veja como os dois mundos se mapeiam perfeitamente na mesma infraestrutura:

A Tabela Física no BancoComo o Engenheiro chama (Medallion)Como o Negócio chama (Governança)O que acontece ali na prática?
Pasta raw_vendas no Data LakeBronze (Porque o dado está cru, recém-chegado da API).SOR (System of Record – O espelho exato do sistema que originou a venda).É o backup intocável. Se der problema, todo mundo volta aqui para auditar o que aconteceu originalmente.
Tabela clientes_limpos no BigQuerySilver (Porque o código já removeu duplicatas e arrumou os CPFs).SOT (Source of Truth – Porque o negócio decidiu que essa tabela é a verdade corporativa sobre quem é cliente).É a base central da empresa. Todos os departamentos devem ler daqui para não haver divergência de números.
Tabela vendas_agregadas_rhGold (Porque cruzou vendas com a tabela de funcionários para calcular comissões).SPEC (System of Engagement/Specific – Porque foi feita especificamente para o RH calcular a folha de pagamento).É o dado final, resumido e otimizado apenas para quem vai consumir aquele painel ou relatório.

Resumo:

  • Você fala Bronze, Silver e Gold quando está discutindo com outro desenvolvedor sobre como o código vai transformar o arquivo.
  • Você fala SOR, SOT e SPEC quando o Diretor pergunta: “De onde veio esse número e por que eu deveria confiar nele?”.
Compartilhe nas redes sociais:
Alexandre Polselli
Alexandre Polselli

Escrevo artigos e desenvolvo projetos nas minhas áreas de maior interesse: Engenharia de Dados e Data Science.

Artigos: 57