Szövegkivonatolás deep learning modellekkel

2022-2023 tavasz

Nyelvtechnológia

Téma leírása

Az absztraktív szövegkivonatolás során egy hosszabb szöveget, tipikusan online híreket, összegzünk teljesen új generált szöveggel. A jelenleg használatos legjobb rendszerek előretanított modellekből indulnak ki és azokat finomhangolják feladatspecifikus adaton. Magyar nyelvre mind az előretanított modellek, mind a feladatspecifikus adatok korlátosan állnak rendelkezésre.

 

Csapatunk már épített egy adatbázist (https://huggingface.co/datasets/SZTAKI-HLT/HunSum-1) a CommonCrawl alapjain. Több modellt is finomhangoltunk és elérhetővé tettük (https://huggingface.co/models?dataset=dataset:SZTAKI-HLT/HunSum-1). A további terveink az adatbázisnak egy bővített és javított második kiadása valamint a modellek fejlesztése. A csapat az ELKH SZTAKI-ban működik, de alapvetően távmunkában dolgozunk.

 

Az új érdeklődőknek kérem keressenek meg emailben a jelentkezés előtt. A téma nehézsége és a hosszú betanulási idő miatt kizárólag témalaboros és önálló laboros hallgatókat tudunk fogadni. A téma később folytatható szakmai gyakorlatként, szakdolgozatként és diplomatervként is.

Feltételek

  • Python
  • gépi tanulás alapok
  • Linux alapok
  • angol nyelvtudás

Külső partner: ELKH SZTAKI

Maximális létszám: 5 fő