Zeneszám azonosítás (Shazam)
2022-2023 tavasz
Nincs megadva
Téma leírása
A projekt célja a Magyarországon publikusan elérhető hagyományos broadcast tartalmak analízise. Broadcast alatt a televízió és a rádióadást értjük. Az analízis több modalitásban kerül elvégzésre, mint audió feldolgozás, videó feldolgozás, nyelvfeldolgozás.
Audió feldolgozás esetén a feladat első körben az audió szegmentálás. Ezt azt jelenti, hogy egy hosszabb (pl.: 24 órás) rádióműsort szét kell vágni a tartalom típusa (beszélgetés, reklám, spot, zene) szerint. A szegmentálás megoldható például osztályozó algoritmusok segítségével végezhető. Ez esetben jó kiindulási alap az audió tartalom spektogramja, amit Conv2D-vel dolgozunk fel. Az osztályozó algoritmus segítségével elvégezhető a szegmentálás.
A következő feladat a zenei tartalmak azonosítása. Ezt egy Shazam szerű algoritmus segítségével lehet például elvégezni. Itt szintén a spektogramból indulunk ki, majd a csúcs intenzitások meghatározása után triplet alapon ujjlenyomatot képzünk. A tartalmakat az ujjlenyomatok segítségével azonosítjuk, így ez egyben egy information retrieval feladat is.
A hallgató a területen található algoritmusok analízisét, esetleges továbbfejlesztését végzi el.
Maximális létszám:
5 fő