Természetes nyelvfeldolgozás Python környezetben
2016-2017 ősz
Nincs megadva
Téma leírása
A természetes nyelvek egy több évezredes, szabálytalan fejlődés eredményei, ezért a programozási nyelvektől eltérően nem írhatók le néhány egyszerű szabállyal. A nyelvek szerkezete és a szavak eloszlása azonban bizonyos tapasztalati törvényeket követnek.
A természetes nyelvfeldolgozás vagy NLP (natural language processing) egyik legnépszerűbb nyelve a Python, ami számos kiváló könyvtárral segíti a nyelvtechnológusok munkáját.
A hallgatók feladata a következőkre terjedne ki:
- megismerkedés a Python nyelvvel, opcionálisan a Jupyter notebookkal,
- alapvető statisztikák készítése természetes nyelvű inputon (szógyakoriság, szótárméret-fedettség arány vizsgálata,
- karaktergyakoriság stb.),
- 4-5 természetes nyelv összehasonlítása az elkészített statisztikák alapján,
- statisztikák vizualizációja.
Természetes nyelvű szövegek gyűjtésére nincs szükség, rendelkezésre tudunk bocsátani nagyméretű korpuszokat (szöveggyűjteményeket).
A jól haladó hallgatók további feladatokat kaphatnak, amik már gépi tanulást (akár deep learninget) igényelnek.
A témalabor során az alábbi ismereteket lehet elsajátítani:
- Python nyelv középszinten,
- haladó stringkezelés Python3-ban,
- szövegkorpuszokkal való munka,
- Jupyter notebook használata (opcionális, de ajánlott),
- alapvető statisztikák készítése,
- alapvető vizualizáció.
A téma nyelvészeti ismereteket NEM igényel.
- gépi tanulás alapok (jól haladó hallgatóknak)
Feltételek
-
angol nyelvtudás
-
Linux parancssor alapszintű ismerete előny, de nem feltétel
Maximális létszám:
5 fő
Konzulens
Ács Judit
Tanársegéd
Q.B229.
+36 (1) 463-4225