Lekérdezésépítés LLM segítségével
2024-2025 tavasz
Szemantikus technológiák
Téma leírása
Cél, hogy az adott nyelvű (SQL, SPARQL stb.) lekérdezést LLM segítségével természetes nyelvű promptok segítségével állítsuk elő. Ez kis/egyszerű sémák és egyszerű lekérdezések esetében gyakran már alapból működik. A nagyobb méretű, komplexebb sémájú adathalmazokon vagy komplexebb lekérdezéseknél viszont már problémákba ütközhet:
- a természetes nyelvű megfogalmazásokban sok a pontatlanság, pongyolaság, többértelműség (visszautalások, rokonértelmű szavak, stb.)
- komplex kifejezések (több predikátumból álló szűrés)
- hosszabb, komplexebb lekérdezés - nő az esélye a szintaxis hibának
Mindezek szintaktikailag vagy szemantikailag hibás lekérdezést eredményezhetnek. A feladat különböző módszerek alkalmazásával a komplexitás minél jobban skálázhatóvá tenni a megoldást. A módszerek azon az alapötletre épülnek, hogy a lekérdezésépítés egy iteratív többlépéses folyamat legyen, ahol egy nagyon egyszerű lekérdezésből kiindulva egyre finomítjuk (bonyolítjuk) a lekérdezést.
Néhány módszer:
- állandó visszacsatolás minden építési lépés után (eredményhalmaz sorainak száma)
- az aktuális lekérdezés vizualizálása (pl. data flow ábrával)
- az aktuális teljes lekérdezés természetes nyelvű szövegének előállítása, átfogalmazva úgy, hogy a lehető legkevesebb többértelműség legyen benne
- (vissza)utalások lecserélése természetes nyelvű szövegben is egyértelműbben azonosítható „változók”-ra
- a lekérdezés építést LLM-en kívüli szoftveres megoldásra bízhatjuk, akkor a szintaxis szabályok betartása biztosabb
- a felhasználó javíthatja, egyértelműsítheti az aktuális építési lépést (vagy akár korábbi lépést is)
A hallgató feladata a fenti módszerek közül implementálni és validálni minél többet és/vagy új módszereket kidolgozni.
Azure OpenAI Service hozzáférés biztosított.
Maximális létszám:
2 fő