Monokuláris mélységbecslés

2022-2023 tavasz

Nincs megadva

Téma leírása

A monokuláris mélységbecslés napjainkban központi téma. A feladat megoldását célzó algoritmusok találhatók például az autonóm járművek területén. A mélységbecslés a színtér geometriájára való következtetés első lépéseként tekinthető egy 2 dimenziós kép alapján. Technikailag szólva, a mélységbecslés célja az, hogy a kép minden pixeléhez mélységértéket rendeljünk. A mélységbecslés könnyebben elvégezhető sztereó kamera vagy LIDAR eszköz bevonásával. Az ilyen hardvereszközök azonban költségigényesebbek. Ezenkívül a 2D képek sokkal nagyobb léptékben állnak rendelkezésre. Példa erre a problémára a következő helyen található: https://keras.io/examples/vision/depth_estimation/.

Ebben a projektben monokuláris mélységbecslést alkalmaznak a gesztusazonosítási feladat javítására. A gesztusok fontosak lehetnek például egy adott személy érzelmeinek, készségeinek vagy kompetenciáinak megértéséhez. A mélységi koordináta fontos lehet a különböző gesztusok nagyobb pontosságú megkülönböztetéséhez. Például, ha webkamerával ránézünk egy személyre, nehéz eldönti, hogy megérinti-e az orrát, vagy csak gesztikulál, mivel az adott vetületben kezek ugyanabban a helyzetben lehetnek. Ha azonban ismerjük a mélységi koordinátát, akkor a két említett gesztus könnyen megkülönböztethető.

A projekt célja monokuláris mélységbecslés elvégzése irodai környezetben, a személyekről készült felvételek elemzésével egy webkamera előtt. A valódi mélységkoordinátákat egy sztereó kamera segítségével adjuk meg.

A tanuló a következő feladatokon fog dolgozni:

  • Gyűjtsön videókat sztereó kamerával, hogy tanító adatkészletet kapjon
  • Tanulmányozza a már meglévő gépi tanulási algoritmusokat ezen a területen
  • Alkalmazza a meglévő algoritmusokat az összegyűjtött adatokra, és remélhetőleg javítsa ezen algoritmusok teljesítményét.

Maximális létszám: 5 fő