Início · Introdução

Introdução ao Large Financial Data Model

O Large Financial Data Model (LFDM) é uma família de modelos fundacionais treinados sobre dados financeiros regulados. A documentação a seguir descreve o conceito, a arquitetura da plataforma Brikz, o ciclo de vida dos modelos e a especificação dos agentes que operam o LFDM.


O que é um Large Financial Data Model

O LFDM é uma classe de modelo fundacional especializado em dados financeiros — transações, recebíveis, documentos regulatórios, séries temporais de fluxo de caixa, vínculos societários e decisões humanas registradas. Diferente de modelos de linguagem, que tratam texto como uma sequência genérica, o LFDM aprende a estrutura nativa de cada modalidade financeira e a relação entre elas.

A plataforma Brikz expõe o LFDM através de agentes — cada agente combina uma seleção de encoders, ferramentas, regulamento parametrizado e protocolos de handoff humano para operar um ciclo regulatório específico.

Modalidades cobertas

Visão geral da plataforma

A plataforma é estruturada em cinco componentes principais, todos rodando sobre Google Cloud em região São Paulo dedicada:

ComponenteFunçãoGoogle Cloud
brikz/connectorsIngestão de dado de registradoras, Open Finance, ERPs e sistemas internos.Pub/Sub, Dataflow, Cloud Storage
brikz/datasetsCuradoria, validação, versionamento e governança dos datasets de treino.BigQuery, Dataplex, Iceberg
brikz/trainingTreinamento dos foundation models e adaptação por instituição via LoRA.Vertex AI, TPU v5p, GPU H100
brikz/agentsAgentes verticais — FIDC, PLD/FT, Vida Financeira — sobre o LFDM.Vertex AI, Spanner Graph, BigQuery Graph, Document AI
brikz/servingInferência serverless pay-per-query, endpoints regionais e API.Cloud Run, GKE, Vertex AI Endpoints
A plataforma opera 100% sobre Google Cloud em região São Paulo dedicada. Compute confidencial garante isolamento criptográfico de tenant regulado.

Stack Google Cloud

Primeiros passos

O fluxo típico de adoção segue quatro etapas:

  1. Conectar fontes de dado — transacional, cadastral, documental, registradoras.
  2. Curar os primeiros datasets — particionamento temporal, validação e linhagem.
  3. Treinar o adapter da instituição — LoRA sobre o LFDM base.
  4. Servir o agente — endpoint dedicado, dashboard e API.

O Modo A leva quatro semanas em configuração padrão para a primeira fila de exceções rodar em produção. Modos B e C têm prazos distintos descritos abaixo.


Modo A · Plataforma gerenciada

Configuração padrão de entrega. A Brikz hospeda toda a infraestrutura em região São Paulo dedicada. O cliente acessa o produto por dashboard web e API. Não opera modelo, não opera GPU, não opera pipeline de dado.

Responsabilidades

ResponsabilidadeBrikzCliente
Pré-treino e atualização dos foundation models
Operação de GPU/TPU e MLOps
Treinamento do adapter LoRA com dado do cliente
Configuração do regulamento parametrizadoAssessoria
Tratamento de exceções e overrides operacionais
Conformidade contábil e jurídica do FIDC

Time-to-produção

Configuração padrão atinge a primeira fila de exceções rodando sobre dado real do cliente em quatro semanas após o contrato.

Quando usar

Gestoras, administradores fiduciários e custodiantes que precisam de operação imediata sem investir em time de IA.

Modo B · API embarcada

O cliente integra a API dos agentes Brikz dentro do próprio produto digital, sem usar o dashboard Brikz. A decisão regulatória vira capacidade do produto do cliente, com white-label opcional.

Responsabilidades

ResponsabilidadeBrikzCliente
Operação dos foundation models e endpoints
Disponibilidade da API e SLA
Integração com o produto do clienteSuporte
Experiência do usuário final
Branding e fluxo de UX

Integração

REST API com OAuth 2.0 + mTLS opcional. Webhooks para eventos de decisão. SDK Python e TypeScript. Documentação de cada endpoint no capítulo API deste guia.

Quando usar

Fintechs de crédito, BaaS, securitizadoras e originadoras com produto digital próprio que querem oferecer decisão regulatória sem operar a IA.

Modo C · Tenant do cliente

A Brikz deploya a stack completa no projeto Google Cloud do próprio cliente, via Terraform e Helm. Dado, modelo e inferência permanecem dentro do perímetro do cliente. A Brikz mantém o ciclo de vida dos modelos via runbook auditável compartilhado.

Responsabilidades

ResponsabilidadeBrikzCliente
Definição da arquitetura e runbook
Projeto Google Cloud e billing
Deploy via Terraform + HelmAprovação
Atualizações de foundation modelsJanela
Operação de segurança e redeAssessoria

Componentes provisionados

Time-to-produção

Oito a doze semanas, incluindo provisionamento de infraestrutura, integração com SSO corporativo, configuração de rede e validação de segurança pelo time do cliente.

Quando usar

Bancos médios e digitais, grandes gestoras e instituições com exigência interna de tenant dedicado próprio, controle de chave criptográfica e auditoria interna obrigatória.

Propriedade intelectual

Em qualquer modo de entrega, a divisão de IP é a mesma:


Agente FIDC

O agente brikz/agent-fidc opera o ciclo previsto pela CVM 175 para fundos de investimento em direitos creditórios. Cada decisão acompanha dossiê auditável com rationale, snapshot do regulamento aplicado e versão de modelo.

Etapas operadas

EtapaRegulaçãoCapacidade
Onboarding jurídicoCVM 175 · diligênciaKYC documental, cadeia societária, UBO
Elegibilidade e cessãoCVM 175 · cessãoRegulamento → regras SQL por recebível
Lastro, registro e custódiaCVM 175 · lastroReconciliação com CERC, B3, TAG, CIP
Monitoramento contínuoCVM 175 · monitoramentoAdimplência, subordinação, substituição

Endpoint

POST /v1/agents/fidc/decide
{
  "fund_id": "FIDC-2025-0042",
  "receivable_batch": "s3://...",
  "event": "assignment"
}

8 camadas operacionais do Agente FIDC

O Agente FIDC executa o ciclo CVM 175 em oito camadas conectadas. Cada camada tem responsabilidade declarada, modelo fundacional dedicado, produto Google Cloud associado e saída intermediária consumível pelas camadas seguintes. A trilha auditável é construída camada por camada — toda decisão da camada L8 carrega rastreabilidade até a evidência bruta na camada L1.

L#CamadaResponsabilidadeModelo fundacionalGoogle Cloud
L1IngestãoRecebíveis (CNAB), documentos, cadastro, registradoras, eventosPub/Sub · Dataflow · Cloud Storage
L2Document AIExtração estruturada multi-modal de regulamento, escritura, contrato, CCBDocument FMDocument AI · Gemini
L3Resolução de entidadeKYC, KYB, UBO, QSA, vínculos e partes relacionadasGraph FMSpanner Graph
L4Firmas e poderesRepresentantes, limites de poder, regras de assinaturaDocument FMDocument AI
L5Elegibilidade e cessãoRegulamento parametrizado em regras SQL por recebível · CVM 175 · cessãoTabular FMBigQuery
L6Lastro e custódiaExistência, unicidade, titularidade e reconciliação · CVM 175 · lastroGraph FMSpanner Graph · BigQuery Graph
L7Monitoramento contínuoAdimplência, subordinação, substituição, waterfall · CVM 175 · monitoramentoTime-series FMVertex AI Endpoints
L8Reporte e dossiêDashboards, alertas auditáveis, dossiês CVM/Anbima, API legadaCloud Run · Apigee · Looker

Garantia de rastreabilidade

Toda decisão da camada L8 inclui:

Agente PLD/FT

O agente brikz/agent-pld opera o ciclo previsto pela CVM 50 para prevenção à lavagem de dinheiro e financiamento ao terrorismo. O foco operacional é priorização sob orçamento de inspeção — concentrar ilícito nas posições de maior risco do ranking.

Pipeline em duas fases

Métricas operacionais

MétricaValor observadoCenário
Recall@1%0,877AML100k
IPI@1%7,94AML100k
Throughput de inferência740K edges/sA100 80GB
Volume processado124M arestasAML1M
Métricas medidas sobre AMLSim. Reproduzíveis em ambiente isolado da Brikz mediante solicitação técnica.

Agente Vida Financeira

O agente brikz/agent-life constrói representação contínua de cada cliente PF/PJ a partir de transações, contratos, vínculos e séries de fluxo de caixa. Produz um vetor denso por cliente, consumível por casos de uso de crédito, scoring, fraude e recomendação. A dimensão do vetor é parâmetro de configuração por instituição.

customer_embedding = LFDM.encode(
  transactions = stream("pix", "ted", "card"),
  documents    = ["payroll.pdf", "contracts/"],
  graph        = relationship_graph(cpf),
  timeseries   = cashflow_history(36_months),
  context      = open_finance_consent()
)

O embedding é atualizado em streaming e exposto via endpoint dedicado. Casos de uso comuns: principalidade dinâmica, Next Best Action, stress financeiro precoce.


Conectores

A plataforma oferece conectores nativos para as fontes de dado mais comuns no mercado brasileiro:

Datasets

Datasets são versionados em formato Iceberg ou Delta, com particionamento por data de carga e linhagem auditável. Cada dataset carrega esquema declarado, qualidade observada e snapshot de regulamento associado quando aplicável.

Ingestão e qualidade

A ingestão suporta batch e streaming. Validações de qualidade incluem reconciliação contábil, detecção de duplicidade, completude de campos obrigatórios e consistência referencial. Eventos de qualidade alimentam o painel de governança e podem disparar bloqueio automático de uso para treino ou inferência.

Treinamento

O treinamento dos modelos fundacionais combina pré-treino self-supervised sobre grandes volumes de dado não rotulado e pós-treino supervisionado sobre tarefas específicas. A execução acontece no Vertex AI, com pools de TPU v5p e Trillium para pré-treino e NVIDIA A100/H100/H200 para tarefas específicas e fine-tuning.

Configuração observada

ArquiteturaTempo (s)VRAM (GiB)Uso
GraphSAGE216,72,4Produção AML
GATv2241,717,5Comparação
GINE220,57,9Comparação
MLP baseline55,90,7Baseline

Adaptação por cliente

Cada instituição recebe um adapter dedicado treinado por LoRA, QLoRA ou DoRA sobre o LFDM base. O adapter captura particularidades do dado e da política da instituição sem expor o dado de treino a outros tenants. Versionamento, registro e promoção entre ambientes pelo Model Registry do Vertex AI, com lineage integrado ao Dataplex.

Benchmark

A plataforma mantém um benchmark interno para comparar arquiteturas e checkpoints. Métricas reportadas incluem AUC-ROC, Average Precision, Recall@k, Lift@k e IPI@k para tarefas de priorização; AUC-ROC e KS para tarefas de scoring; e métricas de cobertura e pureza para tarefas de extração de caso.

Inferência

Inferência é servida em endpoints serverless pay-per-query, sempre quentes, sobre Cloud Run, GKE e Vertex AI Endpoints. O runtime usa vLLM ou SGLang para modelos generativos, TensorRT-LLM para casos de alta vazão, e containers customizados para GraphSAGE e modelos tabulares.

Performance observada

API

A API segue padrão REST com autenticação OAuth 2.0 e mTLS opcional. Todas as chamadas retornam o ID da decisão e o ponteiro para o dossiê auditável correspondente.

curl -X POST https://api.brikz.io/v1/agents/fidc/decide \
  -H "Authorization: Bearer $TOKEN" \
  -d '{"fund_id":"FIDC-2025-0042","event":"assignment"}'

Trilha auditável

Cada decisão da plataforma é registrada com rationale gerado, versão de modelo, versão de adapter, snapshot do regulamento aplicado, identificador da execução e identidade do solicitante. Trilha exportável em formato compatível com auditoria interna e externa.

Segurança e isolamento

Dados ficam em região São Paulo dedicada no Google Cloud. Confidential Compute isola o ambiente de execução de cada tenant criptograficamente. Acesso controlado por Cloud IAM granular com auditoria de cada operação no Cloud Audit Logs. Criptografia em trânsito e em repouso por padrão, com CMEK opcional.

Regulação aplicável

Glossário

TermoDefinição
LFDMLarge Financial Data Model. Família de foundation models da Brikz.
GraphSAGEArquitetura de GNN baseada em sample + aggregate de vizinhança.
Recall@kFração de positivos recuperados ao inspecionar o top-k% do ranking.
IPI@kInspeções por ilícito no top-k. Mede esforço operacional.
LoRALow-Rank Adaptation. Técnica de adaptação eficiente de modelos.
FIDCFundo de Investimento em Direitos Creditórios.
UBOUltimate Beneficial Owner. Beneficiário final de uma estrutura societária.