Beta Program Aperto Beta Program Open

Dataset Ultra Puliti
per AI di livello superiore.
Ultra Clean Datasets
for superior AI.

Garbage in, garbage out. We fix the garbage.

PurifyFactory trasforma qualsiasi dataset testuale in un dataset Ultra Pulito — privo di errori di forma, encoding e formattazione — con AI, su scala industriale. On-premise, multi-provider, completamente automatizzato. I tuoi dati restano sul tuo server. PurifyFactory transforms any text dataset into an Ultra Clean dataset — free of formatting errors, encoding issues and inconsistencies — using AI, at industrial scale. On-premise, multi-provider, fully automated. Your data stays on your server.

purifyfactory — bash
# Split dataset into chunks
$ ./purifyfactory split --input data.jsonl
✓ 10,000 records → 200 batches

# Organize work batches
$ ./purifyfactory orchestrate
✓ 200 batches queued

# Process with AI
$ ./purifyfactory process
✓ Processing... 4 workers active
✓ 10,000/10,000 — done in 4m12s
✓ Cost: $0.87 — Tokens: 1.2M

$ ./purifyfactory report
✓ Output: final_output.jsonl

I dati sporchi distruggono i modelli AI Dirty data destroys AI models

Ogni modello AI è esattamente buono quanto i dati su cui è addestrato. La qualità batte la quantità. Every AI model is only as good as the data it's trained on. Quality beats quantity.

⚠️

Il problema The problem

I dati reali sono quasi sempre sporchi. Testi da CRM, ERP, documenti scansionati, feed automatici: contengono errori sistematici che, moltiplicati per milioni di record, degradano le prestazioni del modello. Real-world data is almost always dirty. Text from CRM, ERP, scanned documents, automated feeds: full of systematic errors that, multiplied across millions of records, measurably degrade model performance.

  • Spazi doppi, punteggiatura malformata, parole ripetuteDouble spaces, malformed punctuation, repeated words
  • Apostrofi sbagliati, maiuscole inconsistentiWrong apostrophes, inconsistent capitalization
  • Artefatti di encoding, residui di markup, tag HTMLEncoding artifacts, markup residues, HTML tags
  • Caratteri di controllo, errori tipografici sistematiciControl characters, systematic typographical errors
Il modello impara il rumore insieme al segnale. Risultato: meno preciso, meno coerente, più difficile da controllare. The model learns noise along with the signal. Result: less precise, less coherent, harder to control.

La soluzione: Dataset Ultra Puliti The solution: Ultra Clean Datasets

PurifyFactory trasforma qualsiasi dataset testuale in un dataset Ultra Pulito — privo di qualsiasi errore di forma, encoding, formattazione e coerenza — indipendentemente dalla dimensione. PurifyFactory transforms any text dataset into an Ultra Clean dataset — free of any formatting, encoding, consistency and structural errors — regardless of size.

  • Zero errori di formattazione in ogni recordZero formatting errors in every record
  • Zero ripetizioni di parole o frasiZero repeated words or phrases
  • Coerenza totale su maiuscole, punteggiatura, apostrofiTotal consistency on capitalization, punctuation, apostrophes
  • Zero artefatti: niente markup, encoding errati, tag HTMLZero artifacts: no markup, encoding errors, HTML tags
  • Qualità uniforme dal primo all'ultimo recordUniform quality from first to last record
Un modello addestrato su dati puliti con metà dei record supera un modello addestrato su dati sporchi con il doppio. A model trained on clean data with half the records outperforms one trained on dirty data with twice as many.

Architettura industriale, qualità garantita Industrial architecture, guaranteed quality

Scalabile, riproducibile, verificabile. Ogni ora investita prima dell'addestramento vale decine di ore risparmiate dopo. Scalable, reproducible, verifiable. Every hour invested before training saves dozens of hours after.

Scalabile senza limiti Unlimited scalability

Da centinaia a milioni di record, con la stessa qualità garantita. Fino a 64 worker paralleli suddividono il dataset in batch ottimali e li processano simultaneamente. From hundreds to millions of records, with the same guaranteed quality. Up to 64 parallel workers split the dataset into optimal batches and process them simultaneously.

🔁

Riproducibile al 100% 100% reproducible

Lo stesso prompt produce gli stessi risultati su qualsiasi dataset. Niente variabilità umana: regole uniformi applicate in modo coerente dal primo all'ultimo record. The same prompt produces the same results on any dataset. No human variability: uniform rules applied consistently from first to last record.

🔍

Verificabile e auditabile Verifiable and auditable

Ogni record di output affianca il testo originale e il testo pulito, permettendo audit completi. Token e costi tracciati per ogni singolo record. Every output record pairs original and cleaned text side by side, enabling complete audits. Tokens and costs tracked for every single record.

🔒

100% on-premise 100% on-premise

I dati non lasciano mai la tua infrastruttura. Il software gira interamente sul tuo server — fondamentale per dataset aziendali sensibili. Solo le chiamate API al provider AI scelto. Your data never leaves your infrastructure. The software runs entirely on your server — essential for sensitive corporate datasets. Only API calls go to your chosen AI provider.

🎯

Tu definisci le regole You define the rules

Lo standard di qualità è definito da te nel prompt di sistema. Descrivi in linguaggio naturale le regole di pulizia e PurifyFactory le applica in modo coerente su ogni record. The quality standard is defined by you in the system prompt. Describe your cleaning rules in natural language and PurifyFactory applies them consistently across every record.

🔄

Recovery automatico Automatic recovery

I batch falliti vengono recuperati automaticamente. Nessun dato perso, nessun riavvio manuale. La pipeline riprende esattamente da dove si era fermata. Failed batches are automatically recovered. No data lost, no manual restart. The pipeline resumes exactly where it left off.

Tre comandi. Fatto. Three commands. Done.

Dal dataset grezzo al dataset Ultra Pulito, senza toccare una riga di codice. From raw dataset to Ultra Clean dataset, without writing a single line of code.

1

Split

./purifyfactory split

Suddivide il dataset JSONL in blocchi ottimali per l'elaborazione parallela. Splits the JSONL dataset into optimal chunks for parallel processing.

2

Orchestrate

./purifyfactory orchestrate

Organizza i blocchi in batch di lavoro e prepara la coda di elaborazione. Organizes chunks into work batches and prepares the processing queue.

3

Process

./purifyfactory process

Elabora i batch con il provider AI scelto. Worker paralleli, recovery automatico, tracking costi. Processes batches with your chosen AI provider. Parallel workers, automatic recovery, cost tracking.

Usa il modello che preferisci Use the model you prefer

Provider-agnostic con fallback automatico. Cambia provider senza modificare la pipeline. Funziona anche con modelli locali. Provider-agnostic with automatic fallback. Switch providers without changing your pipeline. Works with local models too.

Anthropic Claude
OpenAI GPT
Google Gemini
Local (Ollama / vLLM)

Fase critica del pipeline, ora automatizzata Critical pipeline phase, now automated

Migliaia di aziende stanno costruendo modelli proprietari. Tutte dipendono dalla qualità del dato di addestramento. Thousands of companies are building proprietary models. All of them depend on training data quality.

🧠

Fine-tuning e addestramento LLM LLM fine-tuning and training

Normalizza i dataset prima dell'addestramento. Rimuovi il rumore che il modello imparerebbe insieme al segnale: artefatti, errori sistematici, inconsistenze di formattazione. Dati puliti con metà dei record battono dati sporchi con il doppio. Normalize datasets before training. Remove the noise the model would learn along with the signal: artifacts, systematic errors, formatting inconsistencies. Clean data with half the records outperforms dirty data with twice as many.

🔍

Pipeline RAG e ricerca semantica RAG and semantic search pipelines

Testi puliti producono embedding migliori e risultati di ricerca più precisi. Ogni errore di formattazione è rumore che degrada la rilevanza delle risposte generate. Clean text produces better embeddings and more precise search results. Every formatting error is noise that degrades the relevance of generated answers.

🏢

Dati aziendali da CRM / ERP Enterprise data from CRM / ERP

Standardizza feed di dati da sistemi legacy. Nomi, indirizzi, descrizioni prodotto, campi di testo libero — tutto normalizzato in un unico passaggio automatizzato secondo le tue regole. Standardize data feeds from legacy systems. Names, addresses, product descriptions, free-text fields — all normalized in a single automated pass according to your rules.

📚

OCR e digitalizzazione archivi OCR and archive digitization

Correggi artefatti OCR su larga scala. Migliaia di documenti digitalizzati con errori sistematici che variano da pagina a pagina — impossibili con regex, naturali per l'AI. Fix OCR artifacts at scale. Thousands of digitized documents with systematic errors that vary page by page — impossible with regex, natural for AI.

Diventa beta tester Become a beta tester

Cerchiamo sviluppatori, data engineer e data scientist che lavorano con grandi volumi di testo e conoscono il costo dei dati sporchi. Accesso gratuito, feedback diretto con il team di sviluppo, e il tuo contributo plasmerà il prodotto finale. We're looking for developers, data engineers and data scientists who work with large text volumes and know the cost of dirty data. Free access, direct feedback with the development team, and your input will shape the final product.

v9.1.6 Versione attuale Current version
124 Test superati Tests passing
4 Provider AI supportati Supported AI providers