Természetes nyelvfeldolgozás Python környezetben

2016-2017 ősz

Nincs megadva

Téma leírása

A természetes nyelvek egy több évezredes, szabálytalan fejlődés eredményei, ezért a programozási nyelvektől eltérően nem írhatók le néhány egyszerű szabállyal. A nyelvek szerkezete és a szavak eloszlása azonban bizonyos tapasztalati törvényeket követnek.

A természetes nyelvfeldolgozás vagy NLP (natural language processing) egyik legnépszerűbb nyelve a Python, ami számos kiváló könyvtárral segíti a nyelvtechnológusok munkáját.

A hallgatók feladata a következőkre terjedne ki:

  • megismerkedés a Python nyelvvel, opcionálisan a Jupyter notebookkal,
  • alapvető statisztikák készítése természetes nyelvű inputon (szógyakoriság, szótárméret-fedettség arány vizsgálata,
  • karaktergyakoriság stb.),
  • 4-5 természetes nyelv összehasonlítása az elkészített statisztikák alapján,
  • statisztikák vizualizációja.


Természetes nyelvű szövegek gyűjtésére nincs szükség, rendelkezésre tudunk bocsátani nagyméretű korpuszokat (szöveggyűjteményeket).

A jól haladó hallgatók további feladatokat kaphatnak, amik már gépi tanulást (akár deep learninget) igényelnek.

A témalabor során az alábbi ismereteket lehet elsajátítani:

  • Python nyelv középszinten,
  • haladó stringkezelés Python3-ban,
  • szövegkorpuszokkal való munka,
  • Jupyter notebook használata (opcionális, de ajánlott),
  • alapvető statisztikák készítése,
  • alapvető vizualizáció.

 

A téma nyelvészeti ismereteket NEM igényel.

  • gépi tanulás alapok (jól haladó hallgatóknak)

Feltételek

  • angol nyelvtudás
  • Linux parancssor alapszintű ismerete előny, de nem feltétel

Maximális létszám: 5 fő