Wikidata Big Data Data Science/Data Engineering Azure infrastruktúrán
2024-2025 ősz
Szemantikus technológiák
Téma leírása
A Wikidata - hasonlóan a wikipediához - egy kollaboratívan szerkeszthető tudásbázis tényadatok (metaadatok) számára. A tárolási modell lehetővé teszi, hogy az adatok nem csak emberek számára, hanem gépek számára is értelmezhetőek legyenek, így a gépek és az emberek vállvetve tudják a tudásbázist bővíteni.
Mindennek hatására egy hatalmas méretű, meglehetősen sajátságos adatmodell alakul ki, ami ráadásul folyamatosan változik.
A projekt céljai (a jelentkezők ezek közül választhatnak):
- egyrészt egy olyan Big Data analitikai infrastruktúra kialakítása a Wikidata adatmodell folyamatos vizsgálatára, majd ezen különböző mérések, analitikák futtatása (pl. egy ősosztálynak átlagosan hány gyerekosztálya van)
- másrészt olyan Big Data infrastruktúra kialakítása, ami meghatározott feladatokra (lekérdezéshalmazra, workloadra) képes a tranzakcionális feladatok támogatására, azaz adott típusú lekérdezéseket/módosításokat másodperc közeli végrehajtási idővel végrehajtani
- harmadrészt a fenti infrastruktúrák automatizált karbantartása, frissen tartása Big Data DevOps eszközökkel
A megvalósítás Azure felhő környezetben történik, valós, teljes méretű adathalmazon. A felmerülő Azure költségeket a tanszék állja.
A téma szakdolgozatként/diplomamunkaként is folytatható.
Maximális létszám:
4 fő