Wikidata Big Data Data Science/Data Engineering Azure infrastruktúrán

2022-2023 ősz

Nincs megadva

Téma leírása

A Wikidata - hasonlóan a wikipediához - egy kollaboratívan szerkeszthető tudásbázis tényadatok (metaadatok) számára. A tárolási modell lehetővé teszi, hogy az adatok nem csak emberek számára, hanem gépek számára is értelmezhetőek legyenek, így a gépek és az emberek vállvetve tudják a tudásbázist bővíteni.

wikidata

Mindennek hatására egy hatalmas méretű, meglehetősen sajátságos adatmodell alakul ki, ami ráadásul folyamatosan változik.

A projekt céljai (a jelentkezők ezek közül választhatnak):

  • egyrészt egy olyan Big Data analitikai infrastruktúra kialakítása a Wikidata adatmodell folyamatos vizsgálatára, majd ezen különböző mérések, analitikák futtatása (pl. egy ősosztálynak átlagosan hány gyerekosztálya van)
  • másrészt olyan Big Data infrastruktúra kialakítása, ami meghatározott feladatokra (lekérdezéshalmazra, workloadra) képes a tranzakcionális feladatok támogatására, azaz adott típusú lekérdezéseket/módosításokat másodperc közeli végrehajtási idővel végrehajtani
  • harmadrészt a fenti infrastruktúrák automatizált karbantartása, frissen tartása Big Data DevOps eszközökkel

A megvalósítás Azure felhő környezetben történik, valós, teljes méretű adathalmazon. A felmerülő Azure költségeket a tanszék állja.

A téma szakdolgozatként/diplomamunkaként is folytatható.

Maximális létszám: 2 fő