Data Engineering - Skálázható Adatarchitektúrák és Data Pipeline-ok Fejlesztése
2025-2026 tavasz
Szoftver
Téma leírása
A feladat rövid összefoglalása
A hallgató feladata egy modern adat-ökoszisztéma alapjainak megtervezése és kivitelezése. A projekt fókuszában az adatok kinyerése, tisztítása, transzformálása és hatékony tárolása áll. A cél egy olyan automatizált rendszer építése, amely képes nagy mennyiségű (Big Data) és nagy sebességű adatot megbízhatóan eljuttatni a forrástól a célrendszerig (Data Lakehouse vagy Data Warehouse).
Főbb fejlesztési területek
-
Adatkinyerés és Ingest: Különböző forrásokból (API-k, adatbázis-naplók/CDC, IoT szenzorok) érkező adatok fogadása Batch vagy Streaming módban.
-
Adattranszformáció (ETL/ELT): Nyers adatok strukturálása, validálása és üzleti logikai tisztítása (pl. dbt, Apache Spark használatával).
-
Orkesztráció és Automatizáció: Az adatfolyamok ütemezése és monitorozása, hibatűrő munkafolyamatok kialakítása (pl. Airflow).
-
Adatminőség és DataOps: Automatikus tesztek beépítése a pipeline-ba, adatsémák kezelése és verziózása.
Alkalmazható technológiák (2025-ös stack)
-
Adatfeldolgozás: Apache Spark (PySpark), Apache Flink vagy DuckDB az edge computinghoz.
-
Ütemezés: Apache Airflow, Dagster vagy Prefect.
-
Tárolási architektúrák: Delta Lake, Apache Iceberg vagy felhőalapú megoldások (Snowflake, AWS S3, BigQuery).
-
Streaming adat feldolgozása: Apache Kafka vagy RabbitMQ a valós idejű adatátvitelhez.
Miért válaszd ezt a témát?
A Data Engineering jelenleg az egyik legkeresettebb szakterület. A hallgató elsajátíthatja a felhőalapú infrastruktúra-kezelést és a szoftverfejlesztési jó gyakorlatok (CI/CD) alkalmazását az adatok világában. Konkrét projektpélda: Egy valós idejű log-elemző rendszer vagy egy pénzügyi tranzakció-figyelő pipeline fejlesztése, amely képes másodpercenként több ezer esemény feldolgozására és anomáliadetektálásra.
Megjegyzés: A téma csapatban is végezhető, illetve az összetettsége miatt több féléven keresztül (pl. Önálló labor + Szakdolgozat) is folytatható.
Maximális létszám:
2 fő