Szövegbányászat és mesterséges intelligencia R-ben
2023
Üdvözöljük!
Könyvünk bevezeti az érdeklődőket a szövegbányászat és a mesterséges intelligencia társadalomtudományi alkalmazásának speciális problémáiba. Támaszkodva a Sebők Miklós által szerkesztett Kvantitatív szövegelemzés és szövegbányászat a politikatudományban (L’Harmattan, 2016) című kötet elméleti bevezetésére, ezúttal a társadalomtudományi elemzések során használható kvantitatív szövegelemzés legfontosabb gyakorlati feladatait vesszük sorra.
A szövegek adatként való értelmezése (text as data) és kvantitatív elemzése, avagy a szövegbányászat (text mining) a nemzetközi társadalomtudományi kutatások egyik leggyorsabban fejlődő irányzata. A szövegbányászat emellett a társadalomtudósok számára az egyik legnyilvánvalóbb belépési pont a mesterséges intelligenciát, ezen belül is gépi tanulást alkalmazó kutatások területére.
A magyar tankönyvpiacon elsőként ismertetünk lépésről-lépésre a nemzetközi társadalomtudományban használatos olyan kvantitatív szövegelemzési eljárásokat, mint a névelemfelismerés, a véleményelemzés, a topikmodellezés, illetve a szövegek felügyelt tanulásra épülő osztályozása. A módszereink bemutatására szolgáló elemzéseket az egyik leggyakrabban használt programnyelv, az R segítségével végeztük el. A kötet anyaga akár minimális programozási ismerettel is elsajátítható, így teljesen kezdők számára is ajánlott. A hazai olvasók érdeklődését szem előtt tartva példáink döntő többsége új, magyar nyelvű korpuszokra épül, melyek alapján megismerhetők a magyar nyelvű kvantitatív szövegelemzés módozatai.
A könyv megrendelhető a Typotex kiadó honlapján!
Az eredeti kéziratot megjelenése óta több helyen kiegészítettük gyakorlati példákkal és ábrákkal, melyek listáját alább közöljük.
2.0 - Online frissítések
Frissítve: 2022. december 20.
Az újítások teljes listája:
- A szövegbányászat egy részletesebb meghatározása és definíciója a könyv bevezetőjében.
- A gyakorlati szövegbányászat fő lépéseit egy egyszerű példa mutatja be az olvasó számára Ady Endre és Petőfi Sándor versein keresztül.
- A könyvben felhasznált adatokhoz és a könyvben előállított ábrákhoz külön leíró részeket helyeztünk a szövegbe.
- Egy új alfejezet segíti az olvasót a saját adatai használatához.
- A könyv statikus ábráit interaktív megfelelőikre cseréltük ki.
- Új információk az adatábrázolással foglalkozó alfejezetben interaktív ábrák előállítására vonatkozóan.
- Az Osztályozás és felügyelt tanulás című fejezet immár mind az SVM és a Naïve Bayes módszer R-n belüli alkalmazását is bemutatja.
- Az Osztályozás és felügyelt tanulás című fejezetet kiegészítettük az itt bemutatott módszerek működésének közérthető leírásával.
- A Munka karakter vektorokkal című alfejezetet kiegészítettük az n-grammok leírásával.
3.0 - Online frissítések
Frissítve: 2023. szeptember 13.
Az újítások teljes listája:
- Frissítettük a felhasznált R csomagok listáját.
- Az Ady és Petőfi versekhez beraktunk egy példát a közös szavak kivonására.
- Pontosítottuk a példa linkjét.
- Pipe operátor definícióját bővítettük.
- A kódrészleteket több helyen fejlesztettük.
- dfm_ifidf() függvény definícióját bővítettük.
- textstat_lexdiv() függvény definícióját bővítettük.
- A stopszavakat a HunMineR beépített szótárával használjuk fel a Quanteda helyett.
- A fejezetet átdolgoztuk, több ponton bővítettünk leírásokat, kódrészleteket.
- Javítottuk a használt mutatók terminológiáját, illetve feltüntettük a mutatók képleteit.
- A fejezet végén összehasonlítjuk a Naïve Bayes és a Support-vector machine eredményeit.
- Több helyen javítottuk a leírásokat és a kódrészleteket.
Köszönetnyilvánítás
Jelen kötet az ELKH Társadalomtudományi Kutatóközpont poltextLAB szövegbányászati kutatócsoportja (http://poltextlab.com/) műhelyében készült. A kötet fejezetei Sebők Miklós, Ring Orsolya és Máté Ákos közös munkájának eredményei. Az Alapfogalmak, illetve a Szövegösszehasonlítás fejezetekben társszerző volt Székely Anna. A Bevezetésben, a Függelékben, és az Adatkezelés R-ben, az Osztályozás és felügyelt tanulás című fejezetekben Gelányi Péter hajtott végre nagyobb frissítéseket, valamint alakította ki a könyv interaktív ábráit. A kézirat a szerzők többéves oktatási gyakorlatára, a hallgatóktól kapott visszajelzésekre építve készült el. Köszönjük a Bibó Szakkollégiumban (2021), a Rajk Szakkollégiumban (2019–2021), valamint a Széchenyi Szakkollégiumban (2019, 2023) tartott féléves, valamint a Corvinus Egyetemen és a Társadalomtudományi Kutatóközpontban tartott rövidebb képzési alkalmak résztvevőinek visszajelzéseit. Köszönjük a projekt gyakornokainak, Czene-Joó Máténak, Kaló Eszternek, Meleg Andrásnak, Lovász Dorottyának, Nagy Orsolyának, valamint kutatás asszisztenseinek, Balázs Gergőnek, Gelányi Péternek és Lancsár Eszternek a kézirat végleges formába öntése során nyújtott segítséget. Köszönjük továbbá Baumgartner Zoénak a könyv 3.0-ás változatának létrehozásához nyújtott segítségét.
Külön köszönet illeti a Társadalomtudományi Kutatóközpont Comparative Agendas Project (https://cap.tk.hu/hu) kutatócsoportjának tagjait, kiemelten Boda Zsoltot, Molnár Csabát és Pokornyi Zsanettet a kötetben használt korpuszok sokéves előkészítéséért. Köszönettel tartozunk az egyes fejezetek alapjául szolgáló elemzések és publikációk társszerzőinek, Barczikay Tamásnak, Berki Tamásnak, Kacsuk Zoltánnak, Kubik Bálintnak, Molnár Csabának és Szabó Martina Katalinnak.
Köszönjük Ballabás Dániel szakmai lektor hasznos megjegyzéseit, Fedinec Csilla nyelvi lektor alapos munkáját, valamint a Typotex Kiadó rugalmasságát és színvonalas közreműködését a könyv kiadásában! Végül, de nem utolsósorban hálásak vagyunk a kötet megvalósulásához támogatást nyújtó szervezeteknek és ösztöndíjaknak: az MTA Könyvkiadási Alapjának, a Társadalomtudományi Kutatóközpont Könyvtámogatási Alapjának, a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatalnak (NKFIH FK 123907, NKFIH FK 129018), az MTA Bolyai János Kutatási Ösztöndíjának.
A kötet alapjául szolgáló kutatást, amelyet a Társadalomtudományi Kutatóközpont valósított meg, az Innovációs és Technológiai Minisztérium és a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatta a Mesterséges Intelligencia Nemzeti Laboratórium keretében.
Javasolt hivatkozás:
Sebők Miklós, Ring Orsolya, és Máté Ákos. 2021. Szövegbányászat és Mesterséges Intelligencia R-ben. Budapest: Typotex.
Bib formátumban:
@book{sebokringmate2021szovegbanyaszat,
address = {Budapest},
title = {Szövegbányászat és mesterséges intelligencia {R}-ben},
publisher = {Typotex},
author = {Sebők, Miklós and Ring, Orsolya and Máté, Ákos},
year = {2021}
}
A kötet alapjául szolgáló kutatást, amelyet a Társadalomtudományi Kutatóközpont valósított meg, az Innovációs és Technológiai Minisztérium és a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatta a Mesterséges Intelligencia Nemzeti Laboratórium keretében.
A kötet megjelenését az MTA Könyvkiadási Alapja, a Társadalomtudományi Kutatóközpont Könyvtámogatási Alapja, a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal (NKFIH FK 123907, NKFIH FK 129018), valamint az MTA Bolyai János Kutatási Ösztöndíja támogatta.