Lekérdezésépítés LLM segítségével

2024-2025 tavasz

Szemantikus technológiák

Téma leírása

Cél, hogy az adott nyelvű (SQL, SPARQL stb.) lekérdezést LLM segítségével természetes nyelvű promptok segítségével állítsuk elő. Ez kis/egyszerű sémák és egyszerű lekérdezések esetében gyakran már alapból működik. A nagyobb méretű, komplexebb sémájú adathalmazokon vagy komplexebb lekérdezéseknél viszont már problémákba ütközhet:

  • a természetes nyelvű megfogalmazásokban sok a pontatlanság, pongyolaság, többértelműség (visszautalások, rokonértelmű szavak, stb.)
  • komplex kifejezések (több predikátumból álló szűrés)
  • hosszabb, komplexebb lekérdezés - nő az esélye a szintaxis hibának

Mindezek szintaktikailag vagy szemantikailag hibás lekérdezést eredményezhetnek. A feladat különböző módszerek alkalmazásával a komplexitás minél jobban skálázhatóvá tenni a megoldást. A módszerek azon az alapötletre épülnek, hogy a lekérdezésépítés egy iteratív többlépéses folyamat legyen, ahol egy nagyon egyszerű lekérdezésből kiindulva egyre finomítjuk (bonyolítjuk) a lekérdezést.

Néhány módszer:

  • állandó visszacsatolás minden építési lépés után (eredményhalmaz sorainak száma)
  • az aktuális lekérdezés vizualizálása (pl. data flow ábrával)
  • az aktuális teljes lekérdezés természetes nyelvű szövegének előállítása, átfogalmazva úgy, hogy a lehető legkevesebb többértelműség legyen benne
  • (vissza)utalások lecserélése természetes nyelvű szövegben is egyértelműbben azonosítható „változók”-ra
  • a lekérdezés építést LLM-en kívüli szoftveres megoldásra bízhatjuk, akkor a szintaxis szabályok betartása biztosabb
  • a felhasználó javíthatja, egyértelműsítheti az aktuális építési lépést (vagy akár korábbi lépést is)

A hallgató feladata a fenti módszerek közül implementálni és validálni minél többet és/vagy új módszereket kidolgozni.

Azure OpenAI Service hozzáférés biztosított.

Maximális létszám: 2 fő