PDF Értelmezés nagy nyelvi modellek (ChatGPT, Llama 3.1, ...) segítségével (Artillence)
2024-2025 ősz
Szoftver
Téma leírása
A multimodális nagy nyelvi modellek már nem csak szöveges adatok feldolgozására képesek, ezzel párhuzamosan vizuális adatok, képek feldolgozásához is értenek. Így a dokumentum feldolgozást is egyszerű, kézzelfogható feladattá teszik. Ez fontos feladatkör, ugyanis dokumentumokból nagyon sokféle létezik: számlák, specifikációk, kivonatok, dokumentációk, stb. Ezek a dokumentumok elsősorban arra szolgálnak, hogy emberileg, egymás között osszunk meg információt, viszont a gépek számára eddig nagyon nehéz volt ezekből a dokumentumokból nem csak adatot, hanem információt kinyerni.
A hallgató feladata PDF-ek feldolgozása, elsősorban multimodális nagy nyelvi modellek (pl openbmb/MiniCPM-Llama3-V-2_5) segítségével, majd a kinyert adatokból további információk kinyerése, sima nyelvi modellek segítségével (ChatGPT, Llama 3.1, ...). A feldolgozandó dokumentumok elsősorban cybersecurity hardening konfiguráció specifikációk, melyekhez egy automatikus feldolgozó pipeline-t kell készíteni, ami a dokumentumokból kinyert adatokat egy json vagy xml formátumba menti ki. A kinyert adatokból utána ugyancsak nagy nyelvi modellek segítségével további információkat kell kiszámítani.
A hallgató feladatai:
- Cybersecurity hardening konfiguráció specifikáció PDF formátumának megismerése
- Példa feladatok megfogalmazása az LLM-ek számára
- PDF-ek szekciókra bontása
- Dokumentumokból adatkinyerés multimodális LLM-ek segítségével (és amennyiben szükséges, OCR módszerekkel)
- LLM könyvtárak kiértékelése (Huggingface Transformers, LangChain)
- Automatikus információkinyerés implementálása
- Dokumentáció
Külső partner: Artillence
Maximális létszám:
2 fő