LLM-alapú intelligens HR asszisztens: Torzításmentes előszűrés és anonimizálás
2025-2026 tavasz
Nincs megadva
Téma leírása
A hallgató feladata egy olyan fejlett dokumentumfeldolgozó és döntéstámogató rendszer megtervezése és implementálása, amely képes önéletrajzok automatikus anonimizálására és strukturált elemzésére, ezáltal támogatva a modern, előítélet-mentes (blind recruitment) toborzási folyamatokat.

Kontextus: A HR szakemberekre háruló adminisztrációs teher miatt a beérkező önéletrajzok előszűrése gyakran felületes. Ezt súlyosbítja az emberi döntéshozatalban akaratlanul is jelenlévő tudattalan torzítás (unconscious bias), amely hátrányosan érinthet bizonyos demográfiai csoportokat. A jelenlegi kulcsszó-alapú szűrőszoftverek merevek, és gyakran értékes jelölteket szűrnek ki pusztán formai okokból.
A feladat részletes kifejtése
A fejlesztés több, egymásra épülő modulból áll:
-
Dokumentumfeldolgozó pipeline: Különböző formátumú (PDF, DOCX) önéletrajzok szöveges tartalmának kinyerése OCR és szövegbányászati eszközökkel.
-
Anonimizáló Ágens: Egy LLM-alapú komponens implementálása, amely felismeri és maszkolja a személyes azonosításra alkalmas adatokat (PII), mint például nevek, fotók, lakcímek, vagy nemre utaló nyelvi fordulatok, miközben a szakmai tartalmat érintetlenül hagyja.
-
Strukturálás és Rangsorolás: A megtisztított adatokból JSON formátumú egységes profilok generálása, majd ezek összevetése a pozícióleírással RAG (Retrieval-Augmented Generation) technológia segítségével.
-
Szintetikus Tesztkörnyezet (Kutatási modul): Egy generátor modul készítése, amely képes százas nagyságrendben fiktív önéletrajzokat gyártani kontrollált változókkal (pl. ugyanaz a szakmai tapasztalat, de eltérő nem vagy származás), hogy ezzel mérhetővé váljon az alapmodell esetleges torzítása.
Végeredmény: Egy webes felülettel rendelkező kliens-szerver alkalmazás, amelyre a felhasználó feltöltheti a CV-ket, és válaszul egy anonimizált, rangsorolt listát kap indoklással ellátva. A rendszer backendje Python alapú AI szolgáltatásokkal kommunikál, az adatokat (pl. vektorok) adatbázisban tárolja.
Javasolt technológiák:
-
Backend: Spring Boot (Java/Kotlin) vagy Node.js a szerver logikához.
-
Frontend: Angular vagy React a kezelőfelülethez.
-
LLM/AI: Python, LangChain vagy LangGraph (az összetett adatfeldolgozási láncokhoz), OpenAI API vagy HuggingFace modellek.
Szükséges saját eszköz: Átlagos teljesítményű laptop; a fejlesztéshez felhő alapú LLM API kulcs szükséges (ingyenes Gemini vagy Mistral vagy egyéb saját), vagy erős GPU-val rendelkező gép lokális futtatáshoz.
A téma TDK dolgozatra is alkalmas, valamint több féléves projekt laborként is továbbvihető.
Maximális létszám:
1 fő