SSynthFin
25 tipos de fraude · 8 enrichers · BACEN + IBGE real · AUC-ROC 99.9%

Dados sintéticos de fraude financeira prontos em segundos

Gere datasets realistas de PIX, cartão e débito para treinar modelos antifraude — sem depender de dados sensíveis de produção. 100% LGPD-compliant.

terminal
curl -X POST https://api.synthfin.com.br/v2/generate \
  -H "Authorization: Bearer fgen_sk_..." \
  -d '{"type":"transactions","count":100000,
       "fraud_rate":0.05,"format":"parquet"}'

# → {"job_id":"j_a1b2c3","eta_seconds":2}
0Keventos/seg
Throughput (8 workers)
0enrichers
Pipeline determinístico
0tipos de fraude
Calibrados BCB/Febraban
0+campos
Por transação gerada
Pipeline de enriquecimento

8 enrichers. Um pipeline determinístico.

Cada transação passa por 8 camadas que constroem contexto realista de fraude — do timestamp ao comportamento biométrico.

01Temporal

Horários incomuns, sazonalidade semanal, time_anomaly flag

02Geo

Centróide IBGE real, código 7 dígitos, pesos Censo 2022

03Fraud

Injeção de tipo, multiplicador de valor, ruído log-normal

04PIX

end_to_end_id, ISPB real BACEN, pacs.008 / pacs.004

05Device

device_age_days, emulator_detected, vpn_active, rooted

06Session

velocity_24h, new_beneficiary, accumulated_amount_24h

07Risk

17 sinais → fraud_risk_score 0–100 (pesos calibrados)

08Biometric

typing_speed_ms, touch_pressure, scroll_before_confirm

is_fraudfraud_typefraud_risk_scorefraud_signals[]end_to_end_idtyping_speed_avg_ms+108 campos
25 padrões bancários

Fraudes calibradas com dados reais

Cada tipo tem pesos de enricher, perfis de velocidade, sinais de device e multiplicadores de valor derivados de relatórios BCB/Febraban/MJSP.

Conta Tomada

ATO — device novo + IP diferente + 168h inativas

PIX Golpe

Novo beneficiário + conta < 7 dias + pressão social

Engenharia Social

Ligação ativa + notificação ignorada + device próprio

SIM Swap

sim_swap_recent + device novo + velocidade ATO

Cartão Clonado

IP mismatch + alta velocidade + canal CNP

Credential Stuffing

Emulador + bot typing < 15 ms entre teclas

Mão Fantasma

RAT — device rooted + nav anomalia + pressão zero

WhatsApp Clone

Ligação ativa + novo beneficiário + device do cliente

Micro Burst Velocity

10–50 transações em 5–15 min + múltiplos IPs

Boleto Falso

Novo beneficiário + conta destino < 7 dias

Mula Financeira

Conta de passagem — recebe e redistribui valores

Card Testing

Micro compras R$1–30 para validar cartão roubado

+13
padrões adicionais
Ver catálogo completo →
Novo · Exclusivo para planos pagos

ML Quality Lab

Valide a separabilidade adversarial dos seus datasets gerados. Um classificador LightGBM avalia a qualidade dos seus dados em ~30s.

1
Selecione um dataset gerado
Escolha qualquer job concluído no seu dashboard — JSONL, CSV ou Parquet.
2
Rode a análise
O backend treina um LightGBM binário + 25 classificadores OvR por tipo de fraude.
3
Interprete os resultados
AUC-ROC geral, AUC por tipo, feature importance e quality flags diagnosticam seus enrichers.
Diagnóstico por AUC
> 0.99
Trivial
0.85–0.99
Saudável (alto sinal)
0.70–0.85
Saudável (baixo sinal)
< 0.70
Ruído insuficiente
AUC-ROC
99.9%
Separabilidade geral fraude vs legítimo
AUC-PR
98.1%
Precision-Recall (classe desbalanceada 5%)
Score
9.7/10
Qualidade adversarial LightGBM avaliada
quality_report.json
{
  "overall":  { "auc_roc": 0.997, "auc_pr": 0.981 },
  "per_type": {
    "CONTA_TOMADA":      { "auc_roc": 0.961 },
    "ENGENHARIA_SOCIAL": { "auc_roc": 0.847 },
    "CREDENTIAL_STUFFING": { "auc_roc": 0.999 }
  },
  "quality_flags": [
    { "fraud_type": "CREDENTIAL_STUFFING",
      "flag": "too_easy" }
  ]
}
Abrir ML Quality Lab →
Fraud Lab
Assistente ML especializado
Pro+

Chat com IA especializado em detecção de fraude. Interprete resultados do ML Lab, diagnostique enrichers, sugira ajustes de parâmetro e explore os 25 padrões de fraude.

Abrir Fraud Lab →
Insights & Analytics
Uso, qualidade e histórico
Todos os planos

Dashboard de consumo com histórico de eventos por mês, distribuição por tipo de job, gráficos de fraude rate e logs de auditoria detalhados por chave de API.

Ver Insights →
Starter+
Streaming em tempo real

Kafka, webhook, stdout e redis-stream. Até 500 eventos/s no plano Team. Modo async com concorrência configurável.

🔔Pro+
Webhooks por job

POST automático na sua URL quando o job concluir — com download_url, status e tamanho. 3 tentativas em caso de falha.

🔑Todos os planos
Múltiplas API keys

Crie chaves por ambiente, rotacione sem downtime, configure permissões e monitore uso por chave nos logs de auditoria.

Referências reais

Não dados aleatórios. Metadados do Brasil real.

Nos planos pagos, cada evento usa dados oficiais do BACEN e IBGE. Seus modelos treinam com a realidade geográfica e financeira do Brasil.

Starter+🏦

ISPBs e COMPE reais

24 instituições com ISPB oficial: Nubank (18236120), Itaú (60701190), Bradesco (60746948), XP (02332886) e mais.

Starter+🗺️

Código IBGE 7 dígitos

Código oficial de município em cada transação — cruze direto com bases públicas BACEN/SUSEP.

Starter+📌

Centróide GPS real

Coordenadas geradas ao redor do centróide oficial do município (±0.05°) com peso Censo 2022.

Starter+📍

CEP real por município

Faixas de CEP dos Correios — 104 municípios mapeados. Sem CEPs totalmente fictícios.

Todos🔐

Biometria comportamental

10 campos: typing_speed_avg_ms, touch_pressure_avg, scroll_before_confirm, navigation_order_anomaly.

Starter+📊

Peso por população

Probabilidade de cada município proporcional ao Censo IBGE 2022 — não peso fixo por estado.

Casos de uso

Quem usa o SynthFin?

🛡️

Time de antifraude

  • Treinar modelos de detecção sem dados reais
  • Testar regras de negócio em staging
  • Benchmarkar recall e precision de modelos
  • Simular novos padrões antes que ocorram
⚙️

Engenharia de dados

  • Preencher pipelines em desenvolvimento
  • Testar transformações e schemas Parquet
  • Simular carga em streaming (Kafka)
  • Backtesting para relatórios BACEN
🎓

Pesquisa acadêmica

  • Dataset controlado para publicações
  • Experimentos reproduzíveis via seed fixo
  • Distribuições configuráveis de fraude
  • 100% citável sem questões éticas
ROI

Quanto você economiza?

Abordagem tradicionalSynthFin
1M transações rotuladas$2.000–$15.000$79 / mês
Tempo para obtenção2–8 semanas< 5 minutos
Compliance LGPDRevisão jurídicaZero risco
ReprodutibilidadeDifícilSeed fixo
Taxa de fraude configurávelFixo no dataset0% – 100%
Preços

Comece de graça. Escale quando precisar.

Trial de 7 dias nos planos pagos. Cancele a qualquer momento.

Open Source

Geração local ilimitada

$0para sempre
  • CLI + Python
  • JSONL · CSV · Parquet
  • Seed reproduzível
  • MIT License
Ver no GitHub →
7 dias grátis

Starter

Para projetos individuais

$79/ mês
  • 2M eventos / mês
  • 100K / req
  • Batch + Streaming 10/s
  • 3 jobs simultâneos
Mais popular

Pro

Para times de engenharia

$249/ mês
  • 20M eventos / mês
  • 1M / req
  • Streaming 100/s
  • 10 jobs · Webhook · ML Lab

Team

Para múltiplos times
$699/ mês
  • 100M eventos / mês
  • Streaming 500/s
  • 20 jobs · SLA 99.9%
  • Suporte prioritário

Enterprise

Para uso em larga escala
Sob consulta
  • Volume negociado
  • Deploy on-premise / VPC
  • Streaming ilimitado
  • Suporte dedicado · SLA
Falar com vendas →
Ver comparação detalhada
RecursoOpen SourceStarterProTeamEnterprise
Eventos / mêsLocal2M20M100MContrato
Jobs simultâneosLocal31020Ilimitado
Streaming10/s100/s500/sIlimitado
Webhook por job
ML Quality Lab
Fraud Lab (chat AI)
Dados BACEN/IBGE
Suporte prioritário
Deploy on-premise
Trial grátis7 dias7 dias
FAQ

Perguntas frequentes

Os dados gerados são reais?

Não. CPFs, nomes, valores e IDs são 100% sintéticos. O que é real: ISPBs BACEN, municípios IBGE com código de 7 dígitos, faixas de CEP dos Correios e distribuições estatísticas do Censo 2022.

É compatível com a LGPD?

Sim. Por ser totalmente sintético, não há dados pessoais reais. Use em qualquer ambiente sem restrições de privacidade.

O que é o ML Quality Lab?

Uma funcionalidade exclusiva dos planos pagos que treina um classificador LightGBM adversarial no seu dataset e mede a separabilidade por tipo de fraude. Você recebe AUC-ROC geral, AUC por tipo, feature importance e quality flags (too_easy / too_hard) para diagnosticar enriquecedores.

Posso automatizar o download quando o job terminar?

Sim. Configure um webhook_url na requisição. A API faz POST para sua URL ao concluir, com download_url, status e tamanho. 3 tentativas automáticas em caso de falha.

Quanto tempo leva para gerar 1 milhão de registros?

Aproximadamente 15 segundos. O pipeline completo de 8 enrichers processa ~70.000 eventos/segundo com 8 workers.

Quais formatos são suportados?

JSONL, CSV e Parquet (snappy/zstd/gzip/brotli). Parquet com particionamento por data está disponível a partir do plano Starter.

Pronto para gerar seu primeiro dataset?

Starter com 7 dias grátis — sem cartão. Ou use a versão Open Source localmente, para sempre.