SynthFin é uma plataforma de geração de dados sintéticos de fraude financeira brasileira. Gera datasets realistas de transações PIX, cartão, TED e boleto com padrões de fraude calibrados com dados reais do BACEN e FEBRABAN, para treinar modelos de ML antifraude.

Como usar o SynthFin para treinar modelos de ML?

Cadastre-se em app.synthfin.com.br, obtenha sua API key e use POST /v2/generate para gerar datasets nos formatos JSONL, CSV ou Parquet. Os dados incluem 114+ campos como fraud_score, fraud_signals, biometria comportamental e sinais PIX BACEN ideais para treinar modelos XGBoost, LightGBM ou redes neurais.

Quais tipos de fraude o SynthFin gera?

SynthFin gera 25 tipos de fraude bancária brasileira: PIX Golpe, Conta Tomada (ATO), Cartão Clonado, SIM Swap, Mão Fantasma (RAT), Credential Stuffing, Boleto Falso, Engenharia Social, SGBL Consignado, Mula Financeira, Card Testing, QR Code Adulterado, entre outros.

Os dados do SynthFin são reais?

Não. Todos os dados gerados pelo SynthFin são 100% sintéticos e LGPD-compliant. Nenhum dado real de clientes é utilizado. Os padrões de fraude são calibrados com estatísticas reais do BACEN e FEBRABAN, mas os registros individuais são gerados artificialmente.

25 tipos de fraude · 8 enrichers · BACEN + IBGE real · AUC-ROC 99.9%

Dados sintéticos de fraude financeira prontos em segundos

Gere datasets realistas de PIX, cartão e débito para treinar modelos antifraude — sem depender de dados sensíveis de produção. 100% LGPD-compliant.

Começar — 7 dias grátis →Ver Open Source ↗

terminal

curl -X POST https://api.synthfin.com.br/v2/generate \
  -H "Authorization: Bearer fgen_sk_..." \
  -d '{"type":"transactions","count":100000,
       "fraud_rate":0.05,"format":"parquet"}'

# → {"job_id":"j_a1b2c3","eta_seconds":2}

Pipeline de enriquecimento

8 enrichers. Um pipeline determinístico.

Cada transação passa por 8 camadas que constroem contexto realista de fraude — do timestamp ao comportamento biométrico.

›

01Temporal

Horários incomuns, sazonalidade semanal, time_anomaly flag

›

02Geo

Centróide IBGE real, código 7 dígitos, pesos Censo 2022

›

03Fraud

Injeção de tipo, multiplicador de valor, ruído log-normal

›

04PIX

end_to_end_id, ISPB real BACEN, pacs.008 / pacs.004

›

05Device

device_age_days, emulator_detected, vpn_active, rooted

›

06Session

velocity_24h, new_beneficiary, accumulated_amount_24h

›

07Risk

17 sinais → fraud_risk_score 0–100 (pesos calibrados)

08Biometric

typing_speed_ms, touch_pressure, scroll_before_confirm

is_fraudfraud_typefraud_risk_scorefraud_signals[]end_to_end_idtyping_speed_avg_ms+108 campos

25 padrões bancários

Fraudes calibradas com dados reais

Cada tipo tem pesos de enricher, perfis de velocidade, sinais de device e multiplicadores de valor derivados de relatórios BCB/Febraban/MJSP.

Novo · Exclusivo para planos pagos

ML Quality Lab

Valide a separabilidade adversarial dos seus datasets gerados. Um classificador LightGBM avalia a qualidade dos seus dados em ~30s.

1

Selecione um dataset gerado

Escolha qualquer job concluído no seu dashboard — JSONL, CSV ou Parquet.

2

Rode a análise

O backend treina um LightGBM binário + 25 classificadores OvR por tipo de fraude.

3

Interprete os resultados

AUC-ROC geral, AUC por tipo, feature importance e quality flags diagnosticam seus enrichers.

Diagnóstico por AUC

> 0.99

Trivial

0.85–0.99

Saudável (alto sinal)

0.70–0.85

Saudável (baixo sinal)

< 0.70

Ruído insuficiente

quality_report.json

{
  "overall":  { "auc_roc": 0.997, "auc_pr": 0.981 },
  "per_type": {
    "CONTA_TOMADA":      { "auc_roc": 0.961 },
    "ENGENHARIA_SOCIAL": { "auc_roc": 0.847 },
    "CREDENTIAL_STUFFING": { "auc_roc": 0.999 }
  },
  "quality_flags": [
    { "fraud_type": "CREDENTIAL_STUFFING",
      "flag": "too_easy" }
  ]
}

Abrir ML Quality Lab →

Referências reais

Não dados aleatórios. Metadados do Brasil real.

Nos planos pagos, cada evento usa dados oficiais do BACEN e IBGE. Seus modelos treinam com a realidade geográfica e financeira do Brasil.

Casos de uso

Quem usa o SynthFin?

ROI

Quanto você economiza?

	Abordagem tradicional	SynthFin
1M transações rotuladas	$2.000–$15.000	$79 / mês
Tempo para obtenção	2–8 semanas	< 5 minutos
Compliance LGPD	Revisão jurídica	Zero risco
Reprodutibilidade	Difícil	Seed fixo
Taxa de fraude configurável	Fixo no dataset	0% – 100%

Preços

Comece de graça. Escale quando precisar.

Trial de 7 dias nos planos pagos. Cancele a qualquer momento.

Ver comparação detalhada

Recurso	Open Source	Starter	Pro	Team	Enterprise
Eventos / mês	Local	2M	20M	100M	Contrato
Jobs simultâneos	Local	3	10	20	Ilimitado
Streaming	—	10/s	100/s	500/s	Ilimitado
Webhook por job	—	—	✓	✓	✓
ML Quality Lab	—	—	✓	✓	✓
Fraud Lab (chat AI)	—	—	✓	✓	✓
Dados BACEN/IBGE	—	✓	✓	✓	✓
Suporte prioritário	—	—	—	✓	✓
Deploy on-premise	—	—	—	—	✓
Trial grátis	—	7 dias	7 dias	—	—

FAQ

Perguntas frequentes

Pronto para gerar seu primeiro dataset?

Starter com 7 dias grátis — sem cartão. Ou use a versão Open Source localmente, para sempre.

Ver planos e começar →Open Source no GitHub ↗

Dados sintéticos de fraude financeira prontos em segundos

8 enrichers. Um pipeline determinístico.

Fraudes calibradas com dados reais

ML Quality Lab

Não dados aleatórios. Metadados do Brasil real.

ISPBs e COMPE reais

Código IBGE 7 dígitos

Centróide GPS real

CEP real por município

Biometria comportamental

Peso por população

Quem usa o SynthFin?

Time de antifraude

Engenharia de dados

Pesquisa acadêmica

Quanto você economiza?

Comece de graça. Escale quando precisar.

Open Source

Starter

Pro

Team

Enterprise

Perguntas frequentes

Os dados gerados são reais?

É compatível com a LGPD?

O que é o ML Quality Lab?

Posso automatizar o download quando o job terminar?

Quanto tempo leva para gerar 1 milhão de registros?

Quais formatos são suportados?

Pronto para gerar seu primeiro dataset?