ondrej.

Krtek — B2B Lead Generation Pipeline

B2B lead generation pipeline pro český trh. Stahuje ČSÚ RES dump (1.5 GB CSV), filtruje podle NACE kódů, obohacuje přes ARES API (kraj, DIČ), scrapuje firemní weby pro kontakty. Bun + bun:sqlite pro batch ops, Playwright pro JS-rendered stránky, raw fetch pro static HTML. 98 640 firem v databázi, připraveno na expanzi na NACE 620/631 (IT/SaaS).

BunTypeScriptbun:sqlitebetter-sqlite3PlaywrightCheerioARES APIČSÚ open dataNACE filter

98 640 firem v databázi

Cíl

Postavit autonomní pipeline pro generování B2B leadů z veřejných dat. NACE 692xx (účetnictví) jako první cíl.

Pipeline

StepCo dělá
1Stažení ČSÚ RES dumpu (1.5 GB CSV), filter NACE
2Hledání webů firem (search + heuristics)
3Scraping kontaktů z impresum/kontakt stránek
4Enrichment (ARES API, kraj, DIČ)
5Segmentace + export

Stack volby

  • Bun místo Node — rychlejší startup, native SQLite (bun:sqlite)
  • better-sqlite3 + Bun.sql — sync DB ops, no async overhead pro batch
  • Playwright pro JS-rendered sites, raw fetch pro static HTML

Výstup

  • 98 640 firem (Step 1 done)
  • Step 2–5 v incremental rollout
  • Database queryable přes bun:sqlite přímo z dev terminálu