Zeneszám azonosítás (Shazam)

2022-2023 tavasz

Nincs megadva

Téma leírása

A projekt célja a Magyarországon publikusan elérhető hagyományos broadcast tartalmak analízise. Broadcast alatt a televízió és a rádióadást értjük. Az analízis több modalitásban kerül elvégzésre, mint audió feldolgozás, videó feldolgozás, nyelvfeldolgozás.

Audió feldolgozás esetén a feladat első körben az audió szegmentálás. Ezt azt jelenti, hogy egy hosszabb (pl.: 24 órás) rádióműsort szét kell vágni a tartalom típusa (beszélgetés, reklám, spot, zene) szerint. A szegmentálás megoldható például osztályozó algoritmusok segítségével végezhető. Ez esetben jó kiindulási alap az audió tartalom spektogramja, amit Conv2D-vel dolgozunk fel. Az osztályozó algoritmus segítségével elvégezhető a szegmentálás.

A következő feladat a zenei tartalmak azonosítása. Ezt egy Shazam szerű algoritmus segítségével lehet például elvégezni. Itt szintén a spektogramból indulunk ki, majd a csúcs intenzitások meghatározása után triplet alapon ujjlenyomatot képzünk. A tartalmakat az ujjlenyomatok segítségével azonosítjuk, így ez egyben egy information retrieval feladat is.

A hallgató a területen található algoritmusok analízisét, esetleges továbbfejlesztését végzi el.

Maximális létszám: 5 fő