Dados sintéticos de fraude financeira prontos em segundos
Gere datasets realistas de PIX, cartão e débito para treinar modelos antifraude — sem depender de dados sensíveis de produção. 100% LGPD-compliant.
curl -X POST https://api.synthfin.com.br/v2/generate \
-H "Authorization: Bearer fgen_sk_..." \
-d '{"type":"transactions","count":100000,
"fraud_rate":0.05,"format":"parquet"}'
# → {"job_id":"j_a1b2c3","eta_seconds":2}8 enrichers. Um pipeline determinístico.
Cada transação passa por 8 camadas que constroem contexto realista de fraude — do timestamp ao comportamento biométrico.
Horários incomuns, sazonalidade semanal, time_anomaly flag
Centróide IBGE real, código 7 dígitos, pesos Censo 2022
Injeção de tipo, multiplicador de valor, ruído log-normal
end_to_end_id, ISPB real BACEN, pacs.008 / pacs.004
device_age_days, emulator_detected, vpn_active, rooted
velocity_24h, new_beneficiary, accumulated_amount_24h
17 sinais → fraud_risk_score 0–100 (pesos calibrados)
typing_speed_ms, touch_pressure, scroll_before_confirm
Fraudes calibradas com dados reais
Cada tipo tem pesos de enricher, perfis de velocidade, sinais de device e multiplicadores de valor derivados de relatórios BCB/Febraban/MJSP.
ATO — device novo + IP diferente + 168h inativas
Novo beneficiário + conta < 7 dias + pressão social
Ligação ativa + notificação ignorada + device próprio
sim_swap_recent + device novo + velocidade ATO
IP mismatch + alta velocidade + canal CNP
Emulador + bot typing < 15 ms entre teclas
RAT — device rooted + nav anomalia + pressão zero
Ligação ativa + novo beneficiário + device do cliente
10–50 transações em 5–15 min + múltiplos IPs
Novo beneficiário + conta destino < 7 dias
Conta de passagem — recebe e redistribui valores
Micro compras R$1–30 para validar cartão roubado
ML Quality Lab
Valide a separabilidade adversarial dos seus datasets gerados. Um classificador LightGBM avalia a qualidade dos seus dados em ~30s.
{
"overall": { "auc_roc": 0.997, "auc_pr": 0.981 },
"per_type": {
"CONTA_TOMADA": { "auc_roc": 0.961 },
"ENGENHARIA_SOCIAL": { "auc_roc": 0.847 },
"CREDENTIAL_STUFFING": { "auc_roc": 0.999 }
},
"quality_flags": [
{ "fraud_type": "CREDENTIAL_STUFFING",
"flag": "too_easy" }
]
}Chat com IA especializado em detecção de fraude. Interprete resultados do ML Lab, diagnostique enrichers, sugira ajustes de parâmetro e explore os 25 padrões de fraude.
Abrir Fraud Lab →Dashboard de consumo com histórico de eventos por mês, distribuição por tipo de job, gráficos de fraude rate e logs de auditoria detalhados por chave de API.
Ver Insights →Kafka, webhook, stdout e redis-stream. Até 500 eventos/s no plano Team. Modo async com concorrência configurável.
POST automático na sua URL quando o job concluir — com download_url, status e tamanho. 3 tentativas em caso de falha.
Crie chaves por ambiente, rotacione sem downtime, configure permissões e monitore uso por chave nos logs de auditoria.
Não dados aleatórios. Metadados do Brasil real.
Nos planos pagos, cada evento usa dados oficiais do BACEN e IBGE. Seus modelos treinam com a realidade geográfica e financeira do Brasil.
ISPBs e COMPE reais
24 instituições com ISPB oficial: Nubank (18236120), Itaú (60701190), Bradesco (60746948), XP (02332886) e mais.
Código IBGE 7 dígitos
Código oficial de município em cada transação — cruze direto com bases públicas BACEN/SUSEP.
Centróide GPS real
Coordenadas geradas ao redor do centróide oficial do município (±0.05°) com peso Censo 2022.
CEP real por município
Faixas de CEP dos Correios — 104 municípios mapeados. Sem CEPs totalmente fictícios.
Biometria comportamental
10 campos: typing_speed_avg_ms, touch_pressure_avg, scroll_before_confirm, navigation_order_anomaly.
Peso por população
Probabilidade de cada município proporcional ao Censo IBGE 2022 — não peso fixo por estado.
Quem usa o SynthFin?
Time de antifraude
- →Treinar modelos de detecção sem dados reais
- →Testar regras de negócio em staging
- →Benchmarkar recall e precision de modelos
- →Simular novos padrões antes que ocorram
Engenharia de dados
- →Preencher pipelines em desenvolvimento
- →Testar transformações e schemas Parquet
- →Simular carga em streaming (Kafka)
- →Backtesting para relatórios BACEN
Pesquisa acadêmica
- →Dataset controlado para publicações
- →Experimentos reproduzíveis via seed fixo
- →Distribuições configuráveis de fraude
- →100% citável sem questões éticas
Quanto você economiza?
| Abordagem tradicional | SynthFin | |
|---|---|---|
| 1M transações rotuladas | $2.000–$15.000 | $79 / mês |
| Tempo para obtenção | 2–8 semanas | < 5 minutos |
| Compliance LGPD | Revisão jurídica | Zero risco |
| Reprodutibilidade | Difícil | Seed fixo |
| Taxa de fraude configurável | Fixo no dataset | 0% – 100% |
Comece de graça. Escale quando precisar.
Trial de 7 dias nos planos pagos. Cancele a qualquer momento.
Open Source
Geração local ilimitada
- ✓CLI + Python
- ✓JSONL · CSV · Parquet
- ✓Seed reproduzível
- ✓MIT License
Starter
Para projetos individuais
- ✓2M eventos / mês
- ✓100K / req
- ✓Batch + Streaming 10/s
- ✓3 jobs simultâneos
Pro
Para times de engenharia
- ✓20M eventos / mês
- ✓1M / req
- ✓Streaming 100/s
- ✓10 jobs · Webhook · ML Lab
Team
Para múltiplos times- ✓100M eventos / mês
- ✓Streaming 500/s
- ✓20 jobs · SLA 99.9%
- ✓Suporte prioritário
Enterprise
Para uso em larga escala- ✓Volume negociado
- ✓Deploy on-premise / VPC
- ✓Streaming ilimitado
- ✓Suporte dedicado · SLA
Ver comparação detalhada
| Recurso | Open Source | Starter | Pro | Team | Enterprise |
|---|---|---|---|---|---|
| Eventos / mês | Local | 2M | 20M | 100M | Contrato |
| Jobs simultâneos | Local | 3 | 10 | 20 | Ilimitado |
| Streaming | — | 10/s | 100/s | 500/s | Ilimitado |
| Webhook por job | — | — | ✓ | ✓ | ✓ |
| ML Quality Lab | — | — | ✓ | ✓ | ✓ |
| Fraud Lab (chat AI) | — | — | ✓ | ✓ | ✓ |
| Dados BACEN/IBGE | — | ✓ | ✓ | ✓ | ✓ |
| Suporte prioritário | — | — | — | ✓ | ✓ |
| Deploy on-premise | — | — | — | — | ✓ |
| Trial grátis | — | 7 dias | 7 dias | — | — |
Perguntas frequentes
Os dados gerados são reais?
Não. CPFs, nomes, valores e IDs são 100% sintéticos. O que é real: ISPBs BACEN, municípios IBGE com código de 7 dígitos, faixas de CEP dos Correios e distribuições estatísticas do Censo 2022.
É compatível com a LGPD?
Sim. Por ser totalmente sintético, não há dados pessoais reais. Use em qualquer ambiente sem restrições de privacidade.
O que é o ML Quality Lab?
Uma funcionalidade exclusiva dos planos pagos que treina um classificador LightGBM adversarial no seu dataset e mede a separabilidade por tipo de fraude. Você recebe AUC-ROC geral, AUC por tipo, feature importance e quality flags (too_easy / too_hard) para diagnosticar enriquecedores.
Posso automatizar o download quando o job terminar?
Sim. Configure um webhook_url na requisição. A API faz POST para sua URL ao concluir, com download_url, status e tamanho. 3 tentativas automáticas em caso de falha.
Quanto tempo leva para gerar 1 milhão de registros?
Aproximadamente 15 segundos. O pipeline completo de 8 enrichers processa ~70.000 eventos/segundo com 8 workers.
Quais formatos são suportados?
JSONL, CSV e Parquet (snappy/zstd/gzip/brotli). Parquet com particionamento por data está disponível a partir do plano Starter.
Pronto para gerar seu primeiro dataset?
Starter com 7 dias grátis — sem cartão. Ou use a versão Open Source localmente, para sempre.