Data Engineering - Skálázható Adatarchitektúrák és Data Pipeline-ok Fejlesztése

2025-2026 tavasz

Szoftver

Téma leírása

A feladat rövid összefoglalása

A hallgató feladata egy modern adat-ökoszisztéma alapjainak megtervezése és kivitelezése. A projekt fókuszában  az adatok kinyerése, tisztítása, transzformálása és hatékony tárolása áll. A cél egy olyan automatizált rendszer építése, amely képes nagy mennyiségű (Big Data) és nagy sebességű adatot megbízhatóan eljuttatni a forrástól a célrendszerig (Data Lakehouse vagy Data Warehouse).

Főbb fejlesztési területek

  • Adatkinyerés és Ingest: Különböző forrásokból (API-k, adatbázis-naplók/CDC, IoT szenzorok) érkező adatok fogadása Batch vagy Streaming módban.

  • Adattranszformáció (ETL/ELT): Nyers adatok strukturálása, validálása és üzleti logikai tisztítása (pl. dbt, Apache Spark használatával).

  • Orkesztráció és Automatizáció: Az adatfolyamok ütemezése és monitorozása, hibatűrő munkafolyamatok kialakítása (pl. Airflow).

  • Adatminőség és DataOps: Automatikus tesztek beépítése a pipeline-ba, adatsémák kezelése és verziózása.

Alkalmazható technológiák (2025-ös stack)

  • Adatfeldolgozás: Apache Spark (PySpark), Apache Flink vagy DuckDB az edge computinghoz.

  • Ütemezés: Apache Airflow, Dagster vagy Prefect.

  • Tárolási architektúrák: Delta Lake, Apache Iceberg vagy felhőalapú megoldások (Snowflake, AWS S3, BigQuery).

  • Streaming adat feldolgozása: Apache Kafka vagy RabbitMQ a valós idejű adatátvitelhez.

Miért válaszd ezt a témát?

A Data Engineering jelenleg az egyik legkeresettebb szakterület. A hallgató elsajátíthatja a felhőalapú infrastruktúra-kezelést és a szoftverfejlesztési jó gyakorlatok (CI/CD) alkalmazását az adatok világában. Konkrét projektpélda: Egy valós idejű log-elemző rendszer vagy egy pénzügyi tranzakció-figyelő pipeline fejlesztése, amely képes másodpercenként több ezer esemény feldolgozására és anomáliadetektálásra.

Megjegyzés: A téma csapatban is végezhető, illetve az összetettsége miatt több féléven keresztül (pl. Önálló labor + Szakdolgozat) is folytatható.

Maximális létszám: 2 fő