Jogi szövegek elemzése és kereshetősége RAG alapú adatbázissal

2025-2026 ősz

Szoftver

Téma leírása

A bírósági határozatok és jogi szövegek elemzése kiemelt jelentőséggel bír mind a jogászok, mind a laikus érdeklődők számára. A dokumentumok azonban gyakran hosszúak, bonyolult szaknyelvet használnak, és nehezen kereshetők. A közelmúltban megjelent Retrieval-Augmented Generation (RAG) módszerek lehetőséget kínálnak arra, hogy a nyers szövegek mellé egy vektoralapú keresési réteget építsünk, amely természetes nyelvű kérdésekre képes releváns találatokat adni. 

 

A szakdolgozat célja egy anonimizált bírósági határozatokból épített RAG-adatbázis létrehozása, valamint különböző módszerek kipróbálása a kereshetőség javítására. A vizsgálat kiterjed az embedding modellek összehasonlítására, valamint arra, hogy a határozatok szövegéből készült egyszerűsített, “közérthető magyar” összefoglalók mennyiben segíthetik egy laikus-barát keresőmotor kialakítását. A végső cél annak feltárása, hogy egy ilyen rendszer mennyiben nyújthat valódi segítséget jogászoknak vagy laikus felhasználóknak. 

 

A hallgató feladatai

  • Anonimizált bírósági határozatok adathalmazának összegyűjtése és előkészítése
  • RAG-adatbázis prototípus létrehozása (pl. LangChain, LlamaIndex, saját megoldások)
  • Többféle embedding modell kipróbálása és összehasonlítása
  • Határozatok szövegének egyszerűsítése, közérthető összefoglalók készítése
  • Kísérletezés laikus-barát keresőmotor kialakításával
  • Az eredmények kiértékelése mind jogász, mind laikus felhasználói szempontból
  • Dokumentáció és következtetések készítése

Ez a téma szakdolgozat, TDK vagy diplomadolgozat munkára is alkalmas. 


Külső partner: Artillence

Maximális létszám: 3 fő