Jogi szövegek elemzése és kereshetősége RAG alapú adatbázissal
2025-2026 ősz
Szoftver
Téma leírása
A bírósági határozatok és jogi szövegek elemzése kiemelt jelentőséggel bír mind a jogászok, mind a laikus érdeklődők számára. A dokumentumok azonban gyakran hosszúak, bonyolult szaknyelvet használnak, és nehezen kereshetők. A közelmúltban megjelent Retrieval-Augmented Generation (RAG) módszerek lehetőséget kínálnak arra, hogy a nyers szövegek mellé egy vektoralapú keresési réteget építsünk, amely természetes nyelvű kérdésekre képes releváns találatokat adni.
A szakdolgozat célja egy anonimizált bírósági határozatokból épített RAG-adatbázis létrehozása, valamint különböző módszerek kipróbálása a kereshetőség javítására. A vizsgálat kiterjed az embedding modellek összehasonlítására, valamint arra, hogy a határozatok szövegéből készült egyszerűsített, “közérthető magyar” összefoglalók mennyiben segíthetik egy laikus-barát keresőmotor kialakítását. A végső cél annak feltárása, hogy egy ilyen rendszer mennyiben nyújthat valódi segítséget jogászoknak vagy laikus felhasználóknak.
A hallgató feladatai
- Anonimizált bírósági határozatok adathalmazának összegyűjtése és előkészítése
- RAG-adatbázis prototípus létrehozása (pl. LangChain, LlamaIndex, saját megoldások)
- Többféle embedding modell kipróbálása és összehasonlítása
- Határozatok szövegének egyszerűsítése, közérthető összefoglalók készítése
- Kísérletezés laikus-barát keresőmotor kialakításával
- Az eredmények kiértékelése mind jogász, mind laikus felhasználói szempontból
- Dokumentáció és következtetések készítése
Ez a téma szakdolgozat, TDK vagy diplomadolgozat munkára is alkalmas.
Külső partner: Artillence
Maximális létszám:
3 fő