Brikz Labs · Demo 04 · Document FM

Regulamento de FIDC parseado em regras executáveis.

Esta demo replica a camada de leitura documental do Agente FIDC. O Document FM consome o regulamento do fundo e extrai cláusulas de elegibilidade, concentração, lastro e gatilhos em regras SQL aplicáveis por recebível. Cole um regulamento, escolha um dos exemplos pré-carregados, ou edite o texto livremente.

Regulamento do fundo

0 caracteres

Texto destacado por cláusula

Regras extraídas

0 regras

Aguardando parseamento — clique em "Parsear regulamento" para extrair as cláusulas.

O que o Document FM faz

Document FM aplicado ao regulamento de FIDC.

Toda gestora de FIDC mantém o regulamento do fundo em PDF. Verificar se um recebível atende aos critérios do regulamento é trabalho manual repetitivo: leitura, planilha, dupla checagem. O Document FM lê o PDF, identifica cláusulas-chave e produz regras SQL aplicáveis por recebível em milissegundos.

Cada regra carrega ponteiro para a cláusula original do regulamento, mantendo trilha auditável. A gestora consegue auditar a decisão até a citação exata da norma.

Categorias de regra cobertas

  • Elegibilidade do recebívelCVM 175 · cessão
  • Concentraçãocedente · sacado · setor
  • Prazo e vencimentoDV01 · duration
  • Performanceaging · inadimplência
  • Subordinaçãocotas sênior · mezz · sub
  • Gatilhos de eventoliquidação antecipada

Estado da arte e próximos passos

Document AI para regulamento financeiro.

Esta demo usa regex heurística para fins de visualização. Em produção, a camada Document FM combina vision-language models recentes com retrieval sobre o regulamento estruturado. A escolha do modelo depende do trade-off entre custo de inferência, qualidade em PT-BR financeiro e capacidade de raciocínio sobre cláusulas longas.

Família ColVision

ColPali, ColQwen2 e ColSmol

Família de modelos de recuperação visual de documento que aplica interação tardia tipo ColBERT sobre patches da página. Indexa PDF de regulamento e relatório financeiro nativamente, sem OCR. ColPali é o modelo mais maduro; ColQwen2 e ColSmol exploram backbones alternativos para latência menor.

Faysse et al., arXiv:2407.01449 (2024) · repositório illuin-tech/colpali

RAG multimodal financeiro

ColPali + Gemini sobre 10-Q

Aplicação documentada de ColPali combinado com Gemini para RAG sobre relatórios 10-Q (financeiros americanos). Tabelas, gráficos e cláusulas são recuperados visualmente e raciocinados pelo VLM. Análogo direto para regulamento de FIDC e ITR de gestora.

Hernández Leal, "Interpretability of ColPali in Financial Documents" (2025)

Framework de avaliação 2026

MCERF

Multimodal ColPali Enhanced Retrieval Framework, recente. Acopla recuperador multimodal com raciocínio de LLM para questionamento sobre documento técnico. Aplicável a regulamento + jurisprudência da CVM como corpus combinado.

arXiv:2604.09552 (2026)

Texto + layout + imagem

LayoutLMv3 e descendentes

Pré-treino unificado sobre as três modalidades. Forte em extração estruturada de campos posicionais — tabelas de concentração, lista de exceções, gatilhos numerados. Referência clássica que segue competitiva onde o layout é fixo e tabular.

Huang et al., ACM MM 2022

VLMs generalistas

Qwen2-VL, InternVL, Gemini

VLMs generalistas parsam documento financeiro em PT-BR em zero-shot com qualidade próxima de modelos especializados, com raciocínio multi-step sobre cláusulas dependentes. Trade-off versus ColPali: VLM puro é mais caro de inferência; recuperador é mais rápido mas precisa de raciocinador acoplado.

Wang et al., Qwen2-VL 2024 · Chen et al., InternVL 2024 · Gemini 1.5 Tech Report

Donut e Pix2Struct

OCR-free encoder-decoder

Modelo image-to-text direto, sem pipeline de OCR. Robusto a layout irregular, carimbos e assinaturas — frequente em contratos de cessão e regulamentos consolidados. Linha estabelecida que segue competitiva para extração estruturada quando layout é variável.

Kim et al., ECCV 2022 · Lee et al., ICML 2023

GraphRAG e LoRA federado sobre corpus regulatório

Cláusulas conectadas a citações cruzadas

O regulamento de cada FIDC depende de termos definidos em outros documentos — escritura, contratos de cessão, atos da CVM, jurisprudência do CARF. GraphRAG (Microsoft) e LightRAG modelam o corpus como grafo de cláusulas, regras e citações cruzadas, e respondem consultas com rastreabilidade até a citação original. Para multi-gestora, LoRA federado sobre Document FM base preserva o corpus privado de cada instituição enquanto o vocabulário regulatório é compartilhado.

Edge et al., Microsoft GraphRAG (2024) · Guo et al., LightRAG (2024) · Hu et al., LoRA arXiv:2106.09685

Document FM com rastreabilidade até a cláusula.