Szövegkivonatolás deep learning modellekkel
2022-2023 tavasz
Nyelvtechnológia
Téma leírása
Az absztraktív szövegkivonatolás során egy hosszabb szöveget, tipikusan online híreket, összegzünk teljesen új generált szöveggel. A jelenleg használatos legjobb rendszerek előretanított modellekből indulnak ki és azokat finomhangolják feladatspecifikus adaton. Magyar nyelvre mind az előretanított modellek, mind a feladatspecifikus adatok korlátosan állnak rendelkezésre.
Csapatunk már épített egy adatbázist (https://huggingface.co/datasets/SZTAKI-HLT/HunSum-1) a CommonCrawl alapjain. Több modellt is finomhangoltunk és elérhetővé tettük (https://huggingface.co/models?dataset=dataset:SZTAKI-HLT/HunSum-1). A további terveink az adatbázisnak egy bővített és javított második kiadása valamint a modellek fejlesztése. A csapat az ELKH SZTAKI-ban működik, de alapvetően távmunkában dolgozunk.
Az új érdeklődőknek kérem keressenek meg emailben a jelentkezés előtt. A téma nehézsége és a hosszú betanulási idő miatt kizárólag témalaboros és önálló laboros hallgatókat tudunk fogadni. A téma később folytatható szakmai gyakorlatként, szakdolgozatként és diplomatervként is.
Feltételek
-
Python
-
gépi tanulás alapok
-
Linux alapok
-
angol nyelvtudás
Külső partner: ELKH SZTAKI
Maximális létszám:
5 fő
Konzulens
Ács Judit
Tanársegéd
Q.B229.
+36 (1) 463-4225