Na engenharia de dados, extrair informações de diversas fontes e jogá-las em um repositório sem organização é a receita perfeita para criar um “Pântano de Dados” (Data Swamp). Para que os dados sejam úteis, eles precisam passar por estágios de refinamento.
É exatamente para estruturar esse fluxo que existem frameworks arquiteturais como o Medallion (Bronze, Silver, Gold) e o modelo SOR, SOT, SPEC. Na prática, ambos descrevem a mesma jornada de amadurecimento do dado, mas com origens e focos ligeiramente diferentes.
A Arquitetura Medallion (Bronze, Silver, Gold)
O conceito foi introduzido pela equipe da Databricks (liderada por nomes como Ali Ghodsi, CEO e cofundador) por volta de 2020 junto com o conceito de Data Lakehouse, a arquitetura Medallion foca no estado de qualidade e refinamento dos arquivos e tabelas dentro de um pipeline de Big Data.

A analogia é simples: o dado entra bruto e vai sendo “lapidado” até virar ouro.
Camada Bronze (Raw / Bruta): É a zona de aterrissagem. Os dados chegam aqui exatamente no mesmo formato dos sistemas de origem (APIs, ERPs, CRMs, logs), sem nenhuma alteração.
Objetivo: Manter o histórico imutável. Se houver um erro no processamento futuro, você sempre pode voltar à camada Bronze e reprocessar o dado original.
Camada Silver (Cleansed / Conformed): É onde a faxina acontece. Os dados da Bronze são lidos, filtrados, padronizados (ex: transformar todas as datas para o formato YYYY-MM-DD), desduplicados e têm seus tipos de dados corrigidos.
Objetivo: Criar uma base de dados limpa, integrada e confiável que representa a operação da empresa, pronta para exploração por analistas e cientistas de dados.
Camada Gold (Curated / Aggregated): É a camada de negócio. Aqui, os dados da Silver são agregados, somados e cruzados para responder a perguntas específicas (ex: “Total de vendas por região por mês”).
Objetivo: Entregar dados altamente otimizados e prontos para consumo por ferramentas de BI (Tableau, Power BI, Metabase) ou modelos de Machine Learning.
O Modelo SOR, SOT e SPEC
Enquanto o Medallion nasceu no mundo do Big Data e processamento em nuvem, a nomenclatura SOR, SOT e SPEC tem raízes mais profundas na Governança de Dados clássica e em arquiteturas de Data Warehousing (como as de Ralph Kimball e Bill Inmon). O termo ganhou força com Bill Inmon (conhecido como o “Pai do Data Warehouse. O foco aqui é a confiabilidade e o propósito do dado.


SOR (System of Record – Sistema de Registro): É a origem do dado. Em arquitetura de dados, representa a camada onde a informação é armazenada de forma bruta e fidedigna ao sistema transacional que a gerou.
Equivalência: É a representação lógica da camada Bronze.
SOT (Source of Truth / Single Source of Truth – Fonte Única da Verdade): É o coração da governança. É a camada onde as discrepâncias entre diferentes sistemas foram resolvidas. Se o sistema de Vendas diz que o cliente é “João S.” e o sistema de Entregas diz “João Silva”, a SOT resolve esse conflito e consolida o dado oficial da empresa.
Equivalência: É a representação lógica da camada Silver.
SPEC (Specific / System of Engagement – Específico): São as visões de dados criadas para propósitos específicos de um departamento ou caso de uso. O RH não quer ver a base inteira da empresa; ele quer um conjunto de dados focado em métricas de contratação e turnover (um Data Mart).
Equivalência: É a representação lógica da camada Gold.
Qual a diferença real entre eles?
A diferença não está na tecnologia ou no fluxo (ambos usam pipelines de extração, limpeza e agregação), mas sim na filosofia e no vocabulário adotado pela equipe.

| Característica | Arquitetura Medallion (Databricks) | Arquitetura SOR / SOT / SPEC |
| Origem do Conceito | Engenharia de Dados Moderna (Data Lakehouse, Spark). | Governança de Dados e Data Warehousing tradicional. |
| Foco Principal | Estágio de processamento e qualidade do dado (Bruto $\rightarrow$ Limpo $\rightarrow$ Agregado). | Autoridade, governança e consumo do dado (Registro $\rightarrow$ Verdade $\rightarrow$ Aplicação). |
| Camada 1 (Bruto) | Bronze: Pouso do dado bruto e retenção de histórico. | SOR: O espelho exato do sistema de origem. |
| Camada 2 (Limpo) | Silver: Dados padronizados, desduplicados e modelados. | SOT: A “Fonte Única da Verdade” validada para toda a empresa. |
| Camada 3 (Negócio) | Gold: Dados agregados e otimizados para dashboards de BI. | SPEC: Visões departamentais específicas (Data Marts) e produtos de dados. |
Na prática das empresas modernas, esses termos frequentemente se misturam. Um Arquiteto de Dados pode perfeitamente desenhar um pipeline dizendo: “Vamos usar a camada Silver do nosso Data Lake como a nossa Source of Truth (SOT) corporativa”.
Se você abrir o banco de dados de uma empresa madura, a tabela que o engenheiro chama de “Silver” é a exata mesma tabela que o time de governança chama de “SOT” (Source of Truth).
A diferença não está na tecnologia ou no fluxo dos dados. A diferença está na perspectiva de quem está olhando e no vocabulário usado para resolver problemas diferentes.
Pense nisso como duas “lentes” para olhar o mesmo funil de dados: a lente da Engenharia e a lente do Negócio/Governança.
Lente 1: Medallion (A Visão da Engenharia)
O Medallion (Bronze, Silver, Gold) foca no estado de processamento e qualidade do dado. É o vocabulário de quem “põe a mão na massa” (Engenheiros de Dados, Arquitetos Cloud).
- A pergunta que ele responde: “O quanto de código, limpeza e transformação nós já rodamos nesse dado?”
- Na prática: Você usa esses termos em reuniões técnicas.
- Exemplo: “A pipeline deu erro porque o arquivo JSON que chegou na Bronze veio corrompido, então o script do Spark não conseguiu limpar e jogar para a Silver.”
Lente 2: SOR, SOT, SPEC (A Visão do Negócio e Governança)
O SOR/SOT/SPEC foca na confiabilidade, auditoria e autoridade do dado. É o vocabulário de quem consome o dado e toma decisões de negócio (Diretores, Analistas de Negócio, Auditores, Data Stewards).
- A pergunta que ele responde: “Eu posso confiar nesse número para apresentar para o conselho diretivo? Quem é o dono dessa informação?”
- Na prática: Você usa esses termos em reuniões de alinhamento estratégico ou resolução de conflitos.
- Exemplo: “O dashboard de Vendas e o de Finanças estão mostrando faturamentos diferentes. Precisamos definir que a tabela X do Data Warehouse será a nossa SOT (Fonte Única da Verdade) para o faturamento global da empresa.”
Quando usar um vocabulário no lugar do outro?
Aqui está a regra de ouro para o seu dia a dia profissional: Você não escolhe um modelo em detrimento do outro, você os usa simultaneamente dependendo com quem está falando.
Veja como os dois mundos se mapeiam perfeitamente na mesma infraestrutura:
| A Tabela Física no Banco | Como o Engenheiro chama (Medallion) | Como o Negócio chama (Governança) | O que acontece ali na prática? |
Pasta raw_vendas no Data Lake | Bronze (Porque o dado está cru, recém-chegado da API). | SOR (System of Record – O espelho exato do sistema que originou a venda). | É o backup intocável. Se der problema, todo mundo volta aqui para auditar o que aconteceu originalmente. |
Tabela clientes_limpos no BigQuery | Silver (Porque o código já removeu duplicatas e arrumou os CPFs). | SOT (Source of Truth – Porque o negócio decidiu que essa tabela é a verdade corporativa sobre quem é cliente). | É a base central da empresa. Todos os departamentos devem ler daqui para não haver divergência de números. |
Tabela vendas_agregadas_rh | Gold (Porque cruzou vendas com a tabela de funcionários para calcular comissões). | SPEC (System of Engagement/Specific – Porque foi feita especificamente para o RH calcular a folha de pagamento). | É o dado final, resumido e otimizado apenas para quem vai consumir aquele painel ou relatório. |
Resumo:
- Você fala Bronze, Silver e Gold quando está discutindo com outro desenvolvedor sobre como o código vai transformar o arquivo.
- Você fala SOR, SOT e SPEC quando o Diretor pergunta: “De onde veio esse número e por que eu deveria confiar nele?”.
