Tato diplomová práce se zabývá takzvaným web scrapingem, specificky ukazuje možnou cestu, jak extrahovat data produktů z webu a webových stránek na zvoleném příkladu.
Teoretická část se věnuje popisu webu a jeho zdrojového kódu. Aby bylo možné stahovat data, je nejdříve potřeba těmto informacím rozumět. Dále je představeno prostředí jazyka R a některé metody, které jsou následně využity v praktické části při extrakci webu.
Praktická část obsahuje postupy (analýzu a návrh) pro tvorbu nástroje využívaného ke stažení. Z konkrétního e-shopu jsou stažena data, u kterých je zkontrolována jejich úspěšnost extrahování. Poslední část je věnována porovnání funkčnosti vytvořeného nástroje na jiném e-shopu.
Anotace v angličtině
This thesis deals with the so-called web scraping, specifically showing a possible way to extract product data from the web and web pages on a chosen example.
The theoretical part is devoted to the description of the website and its source code. In order to download data, you first need to understand these information. Next, the R language environment and some methods, which are subsequently used in the practical part during web extraction, are introduced.
The practical part contains procedures (analysis and design) for the creation of the tool used for scraping. Data is downloaded from a specific e-shop, and its extraction success is checked. The last part is dedicated to comparing the functionality of the created tool on another e-shop.
Klíčová slova
web scraping, extrakce, RSelenium, dynamický web, atributy produktu
Klíčová slova v angličtině
Web scraping, extraction, RSelenium, dynamic website, product attributes
Rozsah průvodní práce
79 s.
Jazyk
CZ
Anotace
Tato diplomová práce se zabývá takzvaným web scrapingem, specificky ukazuje možnou cestu, jak extrahovat data produktů z webu a webových stránek na zvoleném příkladu.
Teoretická část se věnuje popisu webu a jeho zdrojového kódu. Aby bylo možné stahovat data, je nejdříve potřeba těmto informacím rozumět. Dále je představeno prostředí jazyka R a některé metody, které jsou následně využity v praktické části při extrakci webu.
Praktická část obsahuje postupy (analýzu a návrh) pro tvorbu nástroje využívaného ke stažení. Z konkrétního e-shopu jsou stažena data, u kterých je zkontrolována jejich úspěšnost extrahování. Poslední část je věnována porovnání funkčnosti vytvořeného nástroje na jiném e-shopu.
Anotace v angličtině
This thesis deals with the so-called web scraping, specifically showing a possible way to extract product data from the web and web pages on a chosen example.
The theoretical part is devoted to the description of the website and its source code. In order to download data, you first need to understand these information. Next, the R language environment and some methods, which are subsequently used in the practical part during web extraction, are introduced.
The practical part contains procedures (analysis and design) for the creation of the tool used for scraping. Data is downloaded from a specific e-shop, and its extraction success is checked. The last part is dedicated to comparing the functionality of the created tool on another e-shop.
Klíčová slova
web scraping, extrakce, RSelenium, dynamický web, atributy produktu
Klíčová slova v angličtině
Web scraping, extraction, RSelenium, dynamic website, product attributes
Zásady pro vypracování
Jednou z možností, kterou mají v sobě zabudovánu některé webové stránky, je možnost vyhledávat a porovnávat produkty z různých stránek. Cílem práce bude navrhnout aplikaci pro automatizovanou extrakci atributů produktů webů. Aplikace bude provádět extrakci sémantických částí stránek, následně bude provedena úprava získaných dat na základě lokálního kontextu. Získaná data pak budou rozdělena do předem definovaných kategorií, případně zpracována jiným vhodným způsobem pro další využití.
Metodický postup:
Analýza existujících postupů, teorie.
Návrh a popis vývoje a implementace výsledné aplikace.
Jednou z možností, kterou mají v sobě zabudovánu některé webové stránky, je možnost vyhledávat a porovnávat produkty z různých stránek. Cílem práce bude navrhnout aplikaci pro automatizovanou extrakci atributů produktů webů. Aplikace bude provádět extrakci sémantických částí stránek, následně bude provedena úprava získaných dat na základě lokálního kontextu. Získaná data pak budou rozdělena do předem definovaných kategorií, případně zpracována jiným vhodným způsobem pro další využití.
Metodický postup:
Analýza existujících postupů, teorie.
Návrh a popis vývoje a implementace výsledné aplikace.
Archak, N., Ghose, A., & Ipeirotis, P. G. (2011). Deriving the Pricing Power of Product Features by Mining Consumer Reviews. Management Science, 57 (8), 1485-1509.
Ingersoll, G.S., Morton, T.S., & Farris, D. (2013). Taming Text: How to Find, Organize, and Manipulate It. Shelter Island: Manning Publications.
Munzert, S., Rubba, C., Meißner, P., Nyhuis, D. (2015). Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. Hoboken: Wiley & Sons.
Seznam doporučené literatury
Archak, N., Ghose, A., & Ipeirotis, P. G. (2011). Deriving the Pricing Power of Product Features by Mining Consumer Reviews. Management Science, 57 (8), 1485-1509.
Ingersoll, G.S., Morton, T.S., & Farris, D. (2013). Taming Text: How to Find, Organize, and Manipulate It. Shelter Island: Manning Publications.
Munzert, S., Rubba, C., Meißner, P., Nyhuis, D. (2015). Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. Hoboken: Wiley & Sons.