Dokumentumszintű információkinyerés nagynyelvmodellek (LLM) felhasználásával

2024-2025 tavasz

Nyelvtechnológia

Téma leírása

A projekt célja egy olyan dokumentumszintű információkinyerő (DocIE) rendszer megtervezése és megvalósítása, amely nagynyelvmodelleket (LLM) alkalmaz többmondatos szövegek entitás- és relációkinyerésére. A rendszer feladata, hogy a hosszabb szövegekben (például cikkekben vagy riportokban) felismerje és összehangolja a szereplő entitásokat, kezelje a koreferencia-jelenségeket, valamint feltárja az entitások közötti kapcsolatokat. A projekt során a hallgató megismerkedhet a LLM-alapú módszerek adaptálásával, valamint a dokumentumszintű információkinyerés kísérleti értékelésével.

Feltételek

  • Magabiztos Python ismeretek
  • PyTorch (vagy más deep learning keretrendszer) alapszintű használata
  • Alapvető gépi tanulási és NLP-ismeretek (pl. tokenizálás, embeddingek)
  • Gyakorlati problémamegoldó készség
  • Angol nyelvű szakirodalom olvasásának képessége

Külső partner: HUN-REN SZTAKI

Maximális létszám: 1 fő