Início · Introdução

Introdução ao Large Financial Data Model

O Large Financial Data Model (LFDM) é uma família de modelos fundacionais treinados sobre dados financeiros regulados. A documentação a seguir descreve o conceito, a arquitetura da plataforma Brikz, o ciclo de vida dos modelos e a especificação dos agentes que operam o LFDM.

O que é um Large Financial Data Model

O LFDM é uma classe de modelo fundacional especializado em dados financeiros — transações, recebíveis, documentos regulatórios, séries temporais de fluxo de caixa, vínculos societários e decisões humanas registradas. Diferente de modelos de linguagem, que tratam texto como uma sequência genérica, o LFDM aprende a estrutura nativa de cada modalidade financeira e a relação entre elas.

A plataforma Brikz expõe o LFDM através de agentes — cada agente combina uma seleção de encoders, ferramentas, regulamento parametrizado e protocolos de handoff humano para operar um ciclo regulatório específico.

Modalidades cobertas

Document FM — extração estruturada multi-modal de regulamento de fundo, escritura, contrato e CCB.
Time-series FM — backbone Mamba-2 para forecast de aging, PD e fluxo de caixa em janelas longas.
Tabular FM — TabPFN-v2 fine-tuned para scoring contextual sobre cedente, sacado e contraparte.
Graph FM — GraphSAGE produtivo sobre grafo direcionado de transações e cadeia societária.

Visão geral da plataforma

A plataforma é estruturada em cinco componentes principais, todos rodando sobre Google Cloud em região São Paulo dedicada:

Componente	Função	Google Cloud
`brikz/connectors`	Ingestão de dado de registradoras, Open Finance, ERPs e sistemas internos.	Pub/Sub, Dataflow, Cloud Storage
`brikz/datasets`	Curadoria, validação, versionamento e governança dos datasets de treino.	BigQuery, Dataplex, Iceberg
`brikz/training`	Treinamento dos foundation models e adaptação por instituição via LoRA.	Vertex AI, TPU v5p, GPU H100
`brikz/agents`	Agentes verticais — FIDC, PLD/FT, Vida Financeira — sobre o LFDM.	Vertex AI, Spanner Graph, BigQuery Graph, Document AI
`brikz/serving`	Inferência serverless pay-per-query, endpoints regionais e API.	Cloud Run, GKE, Vertex AI Endpoints

A plataforma opera 100% sobre Google Cloud em região São Paulo dedicada. Compute confidencial garante isolamento criptográfico de tenant regulado.

Stack Google Cloud

Gemini (Vertex AI Model Garden) — família Gemini Pro e Flash via Model Garden, motor de raciocínio dos agentes.
Gemini Enterprise — tier corporativo do Gemini com data residency, controles IAM e auditoria, aplicável a agentes em workloads de cliente regulado.
Vertex AI — treino, fine-tuning, MLOps e serving de foundation models e adapters LoRA por tenant.
TPU v5p / Trillium — aceleradores para pré-treino dos foundation models. Suporte complementar a NVIDIA A100/H100/H200.
BigQuery — warehouse serverless, pay-per-query, com embeddings nativos via BQML.
BigQuery Graph — queries de grafo sobre o histórico transacional e a cadeia societária no próprio warehouse.
Spanner Graph — representação operacional do grafo de cedente, sacado, UBO e partes relacionadas com consistência forte.
Document AI — extração estruturada multi-modal sobre regulamento, escritura, contrato, CCB e ata.
Cloud Run · GKE — inferência serverless e endpoints regionais sempre quentes.
Pub/Sub · Dataflow — ingestão em tempo real de Pix, TED, cartões e eventos de liquidação.
Cloud Storage — datalake em formato aberto Iceberg, particionado por LoadDate.
Confidential Compute — isolamento criptográfico do ambiente de execução por tenant.
Dataplex · IAM — catálogo de dado, lineage e controle de acesso granular.

Primeiros passos

O fluxo típico de adoção segue quatro etapas:

Conectar fontes de dado — transacional, cadastral, documental, registradoras.
Curar os primeiros datasets — particionamento temporal, validação e linhagem.
Treinar o adapter da instituição — LoRA sobre o LFDM base.
Servir o agente — endpoint dedicado, dashboard e API.

O Modo A leva quatro semanas em configuração padrão para a primeira fila de exceções rodar em produção. Modos B e C têm prazos distintos descritos abaixo.

Modo A · Plataforma gerenciada

Configuração padrão de entrega. A Brikz hospeda toda a infraestrutura em região São Paulo dedicada. O cliente acessa o produto por dashboard web e API. Não opera modelo, não opera GPU, não opera pipeline de dado.

Responsabilidades

Responsabilidade	Brikz	Cliente
Pré-treino e atualização dos foundation models	✓
Operação de GPU/TPU e MLOps	✓
Treinamento do adapter LoRA com dado do cliente	✓
Configuração do regulamento parametrizado	Assessoria	✓
Tratamento de exceções e overrides operacionais		✓
Conformidade contábil e jurídica do FIDC		✓

Time-to-produção

Configuração padrão atinge a primeira fila de exceções rodando sobre dado real do cliente em quatro semanas após o contrato.

Quando usar

Gestoras, administradores fiduciários e custodiantes que precisam de operação imediata sem investir em time de IA.

Modo B · API embarcada

O cliente integra a API dos agentes Brikz dentro do próprio produto digital, sem usar o dashboard Brikz. A decisão regulatória vira capacidade do produto do cliente, com white-label opcional.

Responsabilidades

Responsabilidade	Brikz	Cliente
Operação dos foundation models e endpoints	✓
Disponibilidade da API e SLA	✓
Integração com o produto do cliente	Suporte	✓
Experiência do usuário final		✓
Branding e fluxo de UX		✓

Integração

REST API com OAuth 2.0 + mTLS opcional. Webhooks para eventos de decisão. SDK Python e TypeScript. Documentação de cada endpoint no capítulo API deste guia.

Quando usar

Fintechs de crédito, BaaS, securitizadoras e originadoras com produto digital próprio que querem oferecer decisão regulatória sem operar a IA.

Modo C · Tenant do cliente

A Brikz deploya a stack completa no projeto Google Cloud do próprio cliente, via Terraform e Helm. Dado, modelo e inferência permanecem dentro do perímetro do cliente. A Brikz mantém o ciclo de vida dos modelos via runbook auditável compartilhado.

Responsabilidades

Responsabilidade	Brikz	Cliente
Definição da arquitetura e runbook	✓
Projeto Google Cloud e billing		✓
Deploy via Terraform + Helm	✓	Aprovação
Atualizações de foundation models	✓	Janela
Operação de segurança e rede	Assessoria	✓

Componentes provisionados

Project, billing, redes e VPC Service Controls no Google Cloud do cliente
Vertex AI Pipelines, Vertex AI Endpoints, Cloud Run, GKE Autopilot
BigQuery, BigQuery Graph, Spanner Graph, Cloud Storage
Confidential Compute, Cloud KMS com CMEK
Dataplex, Cloud IAM, Cloud Audit Logs, Cloud Monitoring

Time-to-produção

Oito a doze semanas, incluindo provisionamento de infraestrutura, integração com SSO corporativo, configuração de rede e validação de segurança pelo time do cliente.

Quando usar

Bancos médios e digitais, grandes gestoras e instituições com exigência interna de tenant dedicado próprio, controle de chave criptográfica e auditoria interna obrigatória.

Propriedade intelectual

Em qualquer modo de entrega, a divisão de IP é a mesma:

Os foundation models do LFDM (Document FM, Time-series FM, Tabular FM, Graph FM) permanecem como propriedade intelectual da Brikz Tecnologia Ltda.
O adapter LoRA treinado sobre o dado da instituição é IP do próprio cliente. Permanece criptograficamente isolado e é exportável a qualquer momento sob solicitação do cliente.
O dado bruto do cliente é IP do cliente. Em nenhum modo, dado de um cliente é usado para fine-tuning de outro cliente.

Agente FIDC

O agente brikz/agent-fidc opera o ciclo previsto pela CVM 175 para fundos de investimento em direitos creditórios. Cada decisão acompanha dossiê auditável com rationale, snapshot do regulamento aplicado e versão de modelo.

Etapas operadas

Etapa	Regulação	Capacidade
Onboarding jurídico	CVM 175 · diligência	KYC documental, cadeia societária, UBO
Elegibilidade e cessão	CVM 175 · cessão	Regulamento → regras SQL por recebível
Lastro, registro e custódia	CVM 175 · lastro	Reconciliação com CERC, B3, TAG, CIP
Monitoramento contínuo	CVM 175 · monitoramento	Adimplência, subordinação, substituição

Endpoint

POST /v1/agents/fidc/decide
{
  "fund_id": "FIDC-2025-0042",
  "receivable_batch": "s3://...",
  "event": "assignment"
}

8 camadas operacionais do Agente FIDC

O Agente FIDC executa o ciclo CVM 175 em oito camadas conectadas. Cada camada tem responsabilidade declarada, modelo fundacional dedicado, produto Google Cloud associado e saída intermediária consumível pelas camadas seguintes. A trilha auditável é construída camada por camada — toda decisão da camada L8 carrega rastreabilidade até a evidência bruta na camada L1.

L#	Camada	Responsabilidade	Modelo fundacional	Google Cloud
L1	Ingestão	Recebíveis (CNAB), documentos, cadastro, registradoras, eventos	—	Pub/Sub · Dataflow · Cloud Storage
L2	Document AI	Extração estruturada multi-modal de regulamento, escritura, contrato, CCB	Document FM	Document AI · Gemini
L3	Resolução de entidade	KYC, KYB, UBO, QSA, vínculos e partes relacionadas	Graph FM	Spanner Graph
L4	Firmas e poderes	Representantes, limites de poder, regras de assinatura	Document FM	Document AI
L5	Elegibilidade e cessão	Regulamento parametrizado em regras SQL por recebível · CVM 175 · cessão	Tabular FM	BigQuery
L6	Lastro e custódia	Existência, unicidade, titularidade e reconciliação · CVM 175 · lastro	Graph FM	Spanner Graph · BigQuery Graph
L7	Monitoramento contínuo	Adimplência, subordinação, substituição, waterfall · CVM 175 · monitoramento	Time-series FM	Vertex AI Endpoints
L8	Reporte e dossiê	Dashboards, alertas auditáveis, dossiês CVM/Anbima, API legada	—	Cloud Run · Apigee · Looker

Garantia de rastreabilidade

Toda decisão da camada L8 inclui:

ID da execução do agente e timestamp UTC
Versão do foundation model em uso por camada
Versão do adapter LoRA do cliente
Snapshot do regulamento aplicado, incluindo cláusulas exatas
Ponteiros para a evidência bruta consumida (documento PDF, registro CERC, entrada CNAB)

Agente PLD/FT

O agente brikz/agent-pld opera o ciclo previsto pela CVM 50 para prevenção à lavagem de dinheiro e financiamento ao terrorismo. O foco operacional é priorização sob orçamento de inspeção — concentrar ilícito nas posições de maior risco do ranking.

Pipeline em duas fases

Fase 1 — Ranking transacional: construção de grafo direcionado, encoding por GraphSAGE, decodificação por MLP em probabilidade por aresta.
Fase 2 — Casos investigáveis: extração do top-k%, indução de subgrafo, decomposição em componentes conectadas (n_min = 3), subgrafo contextual para a fila de exceções.

Métricas operacionais

Métrica	Valor observado	Cenário
Recall@1%	0,877	AML100k
IPI@1%	7,94	AML100k
Throughput de inferência	740K edges/s	A100 80GB
Volume processado	124M arestas	AML1M

Métricas medidas sobre AMLSim. Reproduzíveis em ambiente isolado da Brikz mediante solicitação técnica.

Agente Vida Financeira

O agente brikz/agent-life constrói representação contínua de cada cliente PF/PJ a partir de transações, contratos, vínculos e séries de fluxo de caixa. Produz um vetor denso por cliente, consumível por casos de uso de crédito, scoring, fraude e recomendação. A dimensão do vetor é parâmetro de configuração por instituição.

customer_embedding = LFDM.encode(
  transactions = stream("pix", "ted", "card"),
  documents    = ["payroll.pdf", "contracts/"],
  graph        = relationship_graph(cpf),
  timeseries   = cashflow_history(36_months),
  context      = open_finance_consent()
)

O embedding é atualizado em streaming e exposto via endpoint dedicado. Casos de uso comuns: principalidade dinâmica, Next Best Action, stress financeiro precoce.

Conectores

A plataforma oferece conectores nativos para as fontes de dado mais comuns no mercado brasileiro:

Registradoras de recebíveis — CERC, B3, TAG, CIP.
Pix, TED, boleto e cartões — via ERP, core bancário ou agregador.
Open Finance — via API de iniciador autorizado.
Documentos — escritura, regulamento, contratos, CCB, comprovantes.
Cadastrais — Receita Federal, Bacen, OFAC, sanções e PEP.

Datasets

Datasets são versionados em formato Iceberg ou Delta, com particionamento por data de carga e linhagem auditável. Cada dataset carrega esquema declarado, qualidade observada e snapshot de regulamento associado quando aplicável.

Ingestão e qualidade

A ingestão suporta batch e streaming. Validações de qualidade incluem reconciliação contábil, detecção de duplicidade, completude de campos obrigatórios e consistência referencial. Eventos de qualidade alimentam o painel de governança e podem disparar bloqueio automático de uso para treino ou inferência.

Treinamento

O treinamento dos modelos fundacionais combina pré-treino self-supervised sobre grandes volumes de dado não rotulado e pós-treino supervisionado sobre tarefas específicas. A execução acontece no Vertex AI, com pools de TPU v5p e Trillium para pré-treino e NVIDIA A100/H100/H200 para tarefas específicas e fine-tuning.

Configuração observada

Arquitetura	Tempo (s)	VRAM (GiB)	Uso
GraphSAGE	216,7	2,4	Produção AML
GATv2	241,7	17,5	Comparação
GINE	220,5	7,9	Comparação
MLP baseline	55,9	0,7	Baseline

Adaptação por cliente

Cada instituição recebe um adapter dedicado treinado por LoRA, QLoRA ou DoRA sobre o LFDM base. O adapter captura particularidades do dado e da política da instituição sem expor o dado de treino a outros tenants. Versionamento, registro e promoção entre ambientes pelo Model Registry do Vertex AI, com lineage integrado ao Dataplex.

Benchmark

A plataforma mantém um benchmark interno para comparar arquiteturas e checkpoints. Métricas reportadas incluem AUC-ROC, Average Precision, Recall@k, Lift@k e IPI@k para tarefas de priorização; AUC-ROC e KS para tarefas de scoring; e métricas de cobertura e pureza para tarefas de extração de caso.

Inferência

Inferência é servida em endpoints serverless pay-per-query, sempre quentes, sobre Cloud Run, GKE e Vertex AI Endpoints. O runtime usa vLLM ou SGLang para modelos generativos, TensorRT-LLM para casos de alta vazão, e containers customizados para GraphSAGE e modelos tabulares.

Performance observada

Ranking transacional (PLD): 740K edges/segundo em NVIDIA A100 80GB, medido sobre AMLSim 124M transações.
Demais métricas de latência e vazão por agente são reportadas no benchmark interno e disponibilizadas mediante solicitação técnica para cada modo de entrega.

API

A API segue padrão REST com autenticação OAuth 2.0 e mTLS opcional. Todas as chamadas retornam o ID da decisão e o ponteiro para o dossiê auditável correspondente.

curl -X POST https://api.brikz.io/v1/agents/fidc/decide \
  -H "Authorization: Bearer $TOKEN" \
  -d '{"fund_id":"FIDC-2025-0042","event":"assignment"}'

Trilha auditável

Cada decisão da plataforma é registrada com rationale gerado, versão de modelo, versão de adapter, snapshot do regulamento aplicado, identificador da execução e identidade do solicitante. Trilha exportável em formato compatível com auditoria interna e externa.

Segurança e isolamento

Dados ficam em região São Paulo dedicada no Google Cloud. Confidential Compute isola o ambiente de execução de cada tenant criptograficamente. Acesso controlado por Cloud IAM granular com auditoria de cada operação no Cloud Audit Logs. Criptografia em trânsito e em repouso por padrão, com CMEK opcional.

Regulação aplicável

CVM 175 — operação de FIDCs, obrigações de elegibilidade, lastro e monitoramento.
CVM 50 — prevenção à lavagem de dinheiro e financiamento ao terrorismo.
BCB 119 — gestão de risco e cibersegurança para instituições financeiras.
LGPD — proteção de dados pessoais.
COAF — comunicação de operações atípicas em até 24h.

Glossário

Termo	Definição
LFDM	Large Financial Data Model. Família de foundation models da Brikz.
GraphSAGE	Arquitetura de GNN baseada em sample + aggregate de vizinhança.
Recall@k	Fração de positivos recuperados ao inspecionar o top-k% do ranking.
IPI@k	Inspeções por ilícito no top-k. Mede esforço operacional.
LoRA	Low-Rank Adaptation. Técnica de adaptação eficiente de modelos.
FIDC	Fundo de Investimento em Direitos Creditórios.
UBO	Ultimate Beneficial Owner. Beneficiário final de uma estrutura societária.

← Voltar ao site Solicitar acesso técnico →