Adatbányászat
Az adatbányászat célja rejtett, korábban nem ismert és potenciálisan hasznos információ kinyerése nagy adathalmazokból. Az adatbányászati folyamat során mintákat, asszociációs szabályokat, változásokat, anomáliákat, statisztikailag meghatározó eseményeket határozhatunk meg az adathalmaz alapján. Az adatbányászat egy nagyobb folyamat, a tudásfeltárás folyamatának egy lépése.
A tudásfeltárás egy iteratív, interaktív folyamat, ahol a felhasználóknak számos helyen döntéseket kell hoznia a megfelelő eredmény elérése érdekében. A tudásfeltárás alapvető lépéseit az 1. ábra mutatja.
 | A lépések a következők: - Adatgyűjtés
- Adatkiválasztás
- Adattisztítás
- Transzformáció
- Adatfeldolgozás
- Eredmények értékelése
- Visszacsatolás
|
Az adatbányászat az adatfeldolgozás egy formája, ahol rejtett összefüggéseket szeretnénk feltárni az óriási adathalmazunkon. Az adatbányászat további alterületekre osztható aszerint, hogy milyen jellegű mintákat és információkra van szükségünk. Az alábbiakban a kutató csoportunk fókuszába került területeket ismertetjük.
Gyakori mintabányászat
Gyakori minta bányászat esetén különböző gyakran előforduló minták megtalálása a cél. A minta lehet egyszerű elemhalmaz, mint például bevásárlói kosár elemzése esetén. Ekkor a cél gyakran együtt vásárolt termékek meghatározása. Komplexebb minta megtalálása érdekében az egyes vásárlók adott esetben pontgyűjtő kártya segítségével megkülönböztethetőek. Így lehetőség nyílik arra, hogy ugyanannak a vásárlónak az egymás után történt vásárlásait is regisztráljuk, így az elemhalmazok szekvenciáinak feltárására is lehetőségünk nyílik. Gyakori minták lehetnek egészen bonyolult struktúrák is, mint fák, gráfok, szöveghalmazok.
A hatékony feldolgozáshoz különféle módszerek állnak rendelkezésre, melyek a különböző adatreprezentációk és a különböző adatkezelő struktúrák használatának előnyeit próbálják ötvözni. A 2. ábrán egy SM-Tree nevezetű struktúra látható, mely a hatékony szekvencia keresést támogatja.
Klaszterezés
A klaszterezés célja objektumok előre meg nem határozott csoportokba sorolása úgy, hogy az azonos csoportba tartozó objektumok hasonlítsanak egymásra, míg a különböző csoportba sorolt objektumok távol legyenek egymástól. A csoportba soroláshoz meg kell határozni egy hasonlósági mértéket, amelynek segítségével eldönthető, hogy két objektum inkább hasonlít, vagy inkább nem.
A klaszterező algoritmusokat alapvetően az alábbi csoportokba sorolhatjuk: - Particionáló módszerek
- Hierarchikus módszerek
- Sűrűség
- Rács alapú módszerek
- Modell alapú módszerek
- Fuzzy módszerek
- Kevert módszerek
|  |
A különbféle megközelítések különféle előnyökkel és hátrányokkal rendelkeznek, melyek alapján egy adott probléma esetén el lehet dönteni, hogy melyik módszer a legalkalmasabb a feladat megoldására. A klaszterezés eredményének minősítésére különböző jósági mutatók szolgálnak.
Osztályozás
Osztályozás esetén a rendelkezésünkre áll a csoportosítás, a feladat „csupán” a csoport tulajdonságok meghatározása, majd a feltárt szabályszerűségek felhasználásával az új elemek megfelelő csoportba sorolása. Tipikus osztályozási feladat a banki hitelbírálat. Ahol az ügyfél adatai alapján el kell dönteni, hogy kaphat-e hitelt, vagy sem.

| Az elterjedt osztályozó módszerek az alábbiak: - Döntési fák (4. ábra)
- Bayes osztályozó
- Neurális hálók
- K-legközelebbi szomszéd
- Genetikus algoritmusok
- Fuzzy osztályozó
|
Az XDataMiner keretrendszer
A kutatásaink során kifejlesztett algoritmusok tesztelésére és teljesítmény mérésére egy adatbányászati keretrendszer, az XDataMiner került kifejlesztésre. A keretrendszer gyakori minták bányászatához használatos modulokkal került implementálásra, ahol a gyakori minta, szekvencia és részfa bányászati problémákra adott megoldásainkat teszteltük.
A KMDM (Knowledge Modeler and Data Miner) keretrendszer
A KMDM egy olyan vizuális tervezőeszköz, mely megkönnyíti adatbányászati és gépi tanulóalgoritmusok fejlesztését, tesztelését és futtatását. A KMDM rendszerben WYSIWYG módon lehet modelleket összeállítani, futtatni és debuggolni, ezáltal nagymértékben nő a tudásmodellezés hatékonysága, valamint a különböző modellek összehasonlíthatósága. A keretrendszer három nagyobb komponensből áll: egy grafikus tervezőfelületből, MI és adatbányászati algoritmusokat tartalmazó komponensből és egy futtatókörnyezetből.

A projekt célja, hogy olyan eszközt adjon a kutatók kezébe, mely minimalizálja egy-egy új algoritmus fejlesztése során az ismétlődő feladatokkal való foglakozást és lehetővé teszi, hogy az új algoritmusok egyszerűen összekapcsolhatóak legyenek a már meglévőkkel. A projekt 2010-ben indult Kovács Ferenc vezetésével, hallgatók bevonásával. Az eszközt sikerrel alkalmazzuk az Adatvezérelt Alkalmazások fejlesztése tárgy oktatásában, valamint ipari projektekben.
Kapcsolódó anyagok
Cikkek
Konferencia előadások