A könyv fejezetei: QTA eljárások és scriptek

Szózsák

A fejezetben az információvisszakeresés, illetve az információkinyerés egyik legalapvetőbb modellje, a szózsák-modell kerül bemutatásra, melynek segítségével megvizsgálhatjuk egyes szavak és kifejezések gyakoriságát egy adott korpuszon belül. A modell legegyszerűbb formájában leginkább homogén témájú, illetve alanyú szövegek vizsgálatára alkalmas, s nem veszi figyelembe a szavak sorrendjét, kapcsolatát, csupán gyakoriságát. A fejezetben bemutatásra kerül a szöveg-előkészítés folyamata, a szózsák-modell főbb alkalmazási lehetőségei, típusfeladatai, előnyei és hátrányai, valamint hazai és külföldi alkalmazási példái, továbbá három konkrét példán keresztül bemutatjuk az alkalmazásának módját.

Névelem-felismerés

A fejezet bemutatja a névelem-felismerést (named entity recognition), mint az egyik legfontosabb szövegbányászati feladatot. Segítségével kinyerhetők egy adott korpuszon belül előforduló névelemek, s ezen belül a tulajdonnevek (személynevek, helyek, szervezetek és egyéb tulajdonnevek). A fejezetben meghatározzuk a névelem-felismeréshez kapcsolódó legfontosabb fogalmakat, valamint a módszer típusfeladatait és buktatóit. Ezt követően három konkrét példán mutatjuk be a módszer gyakorlati használatát, majd a hazai és nemzetközi alkalmazásokból mutatunk be néhányat.

Osztályozás

A fejezetben a fejlett gépi szövegbányászati feladatok egy típusával, a szövegelemek ismert csoportokba való besorolását elvégző osztályozással ismerkedünk meg. A későbbi, konkrét eljárásokat részletező fejezeteket megelőzően bemutatjuk az ilyen feladatok két legelterjedtebb megoldási módszerét: a szótáralapú megoldásokat és a felügyelt tanulási eljárásokat, ezek előnyeit és hátrányait, illetve alkalmazhatóságát. Az eljárások lépéseinek ismertetése mellett kitérünk az eredmények érvényességének problémájára is.

A fejezet a véleményelemzés (sentiment analysis) eljárását mutatja be, segít megérteni a módszer hátterében álló előfeltételezéseket, a véleményelemzést végző kutatások elméleti beágyazottságát, kérdésfelvetését és operacionalizálási logikáját. Az olvasó képet kap a megközelítés teherbíró-képességéről, erősségeiről és korlátairól. A fejezet lépésről lépésre végighalad az előkészítés, az érzelmi viszonyulások osztályozása, a szótárépítés és az indikátorszavak (indicator words) felismerése során elvégzendő feladatokon. Rámutatok azokra az eljárás során felbukkanó dilemmákra, melyek feloldása kutatói döntést igényel. A fejezet végén feltüntetett példák jelzik a véleményelemzés által feltárható eredmények használhatóságát és továbbgondolásának lehetőségeit.

A fejezethez kapcsolódó, R nyelvű forráskód megtalálható a következő oldalon: https://github.com/kubikb/QTA/blob/master/sentiment_analysis/sentiment_analysis.R

Csoportosítás

A fejezetben a dokumentumrendezési feladatok egy másik lehetséges változatát, a csoportosítást (clustering) mutatom be. Ez a módszer azokra az esetekre lett kitalálva, amikor a kutató rendelkezésére nem állnak előzetesen ismert csoportok, amelyek szerint a dokumentumot rendezni tudná, vagy a kutató szeretne új, ismeretlen csoportokat létrehozni. A csoportosítás során a dokumentumokból olyan különálló csoportokat hozunk létre, amelynek tagjai valamilyen szempontból hasonlítanak egymásra. A csoportok alkotása tehát valamilyen hasonlósági ismérv alapján történik. A csoportosítás legfőbb célja, az, hogy az egy csoportba kerülők minél inkább hasonlítsanak egymásra, miközben a különböző csoportba kerülők minél inkább eltérjenek egymástól. A fejezetben bemutatásra kerül, hogy a csoportosítás miben tér el a korábban megtanult osztályozási feladattól, miért és milyen esetekben érdemes ehhez az eljáráshoz fordulnunk, illetve röviden ismertetem a társadalomtudomány területén is használt leggyakoribb csoportosítási eljárásokat: teljesen automatizált eljárások (K-közép klaszterezés, látens Dirichlet-allokáció) és a számítógéppel támogatott klaszterezés.

A fejezethez kapcsolódó, Python és R nyelvű forráskódok megtalálhatók az alábbi weboldalon: https://github.com/kubikb/QTA/tree/master/clustering

Szótáralapú megoldások

Várható megjelenés: HAMAROSAN! 

Felügyelt tanulás

A fejezet bevezetőt nyújt a felügyelt tanulási módszerek alapvető logikájába. A szöveg fő ívét egy gyakorlati példa adja, mely egy valós politikatudományi adatbázison becsült felügyelt tanulási modell részletezéséből, becsléséből, illetve az eredmények értékeléséből áll. A módszertan illusztrálása egy R programozási nyelven írt forráskód részletezésén és lefuttatásán keresztül történik. A modellépítés egyes lépéseinél sor kerül az alapfogalmak tisztázására, illetve politikatudományi példák segítik az anyag megértését. A példamodellt követően általános és gyakorlati információk következnek. A kötet honlapján számos olyan anyag található, mely segíti az R programozási nyelvben való elmélyülést, továbbá számos szabadon elérhető forráskódot tartalmaz mind a jelenlegi, mind pedig az előző fejezetekhez kapcsolódva.

A forráskód teljes terjedelmében megtalálható a következő GitHub oldalon: https://github.com/kubikb/QTA/blob/master/supervised_learning/supervised_learning.R

Felügyelet nélküli tanulás

A fejezet a kvantitatív társadalomtudományban használt felügyelt tanulási megoldások alapelveit mutatja be. A mesterséges intelligencia területéhez tartozó kérdéskört a gép és a gondolkodni tudó gép közötti különbségek elemzésével vezetjük be. Bemutatjuk, mi a különbség a tanulás és a felhasználás folyamata között, vagyis azt, hogy hogyan jutunk el a modellünkhöz és az információk kinyeréséhez. Bemutatjuk azt a folyamatot is, amelyben a felügyelt tanulásból mesterséges intelligencia válhat(na), és azt is, miért nem válik.