Szentimentelemzés felügyelt tanulással

2016-2017 tavasz

Téma leírása

A szentimentelemzés (sentiment analysis) technológiák célja eldönteni, hogy egy szöveg egy adott terméket, személyt, márkát, stb. pozitív vagy negatív színben tüntet-e fel.
A feladat legegyszerűbb változatában külöböző entitásokról szóló szövegeket kell pontozni, ennél összetettebb feladatot jelent az aspektus-alapú szentimentelemzés, ahol azt is detektálni kell, az adott termékeket mely szempontok mentén szidja vagy dicséri egy-egy hozzászólás/kritika, így pl. meg kell tudnunk állapítani, hogy egy mobiltelefonról szóló hozzászólás az árról és a kinézetről negatívan, a funkcionalitásról és a teljesítményről pozitívan nyilatkozik.
Ugyancsak komoly kihívást jelent a rövid és/vagy zajos adatokon (pl. twitter-üzenetek, újságcikk-címek) alapján történő szentimentelemzés.
Valamennyi feladatváltozatban évről évre rendeznek versenyt a SemEval konferencia keretein belül, ahol a versenyzők ugyanazon sztenderdizált adaton taníthatják rendszereiket, melyeknek kiértékelése is egységes, összehasonlítható módon történik. Az elmúlt egy évből lásd pl:
http://alt.qcri.org/semeval2017/task4/
http://alt.qcri.org/semeval2017/task5/
http://alt.qcri.org/semeval2016/task5/

A hallgató feladata egy felügyelt tanuláson alapuló rendszer implementálása valamely fent említett feladat megoldására. A feladat első része egy erős baseline rendszer létrehozása az elmúlt években legsikeresebben szereplő rendszerek által használt feature-ök implementálásával. A következő fázisban a rendszer kimenetén hibaanalízist végezve azonosíthatjuk a fennmaradó legfontosabb kihívásokat, és különböző külső erőforrások (ontológiák, vektoros szemantikai modellek, stb.) bevonásával, új jegyek definiálásával növelhetjük a rendszer pontosságát.

A téma szakdolgozat, diplomaterv és TDK-dolgozat alapját is képezheti.

Maximális létszám: 2 fő