Tato bakalářská práce se zabývá zpracování dat v prostředí Hadoop. V teoretické části je představena architektura Apache Hadoop, distribuovaný souborový systém HDFS, paralelní zpracování dat pomocí MapReduce a dalších nástrojů Hadoop. V praktické části je popsána konfigurace Hadoop a spuštění na vybraném serveru. Následné otestování jeho funkčnosti na vzorové úloze "wordcount". Závěrem práce budou získána data z Twitteru a provedena jejich analýza.
Anotace v angličtině
This bachelor thesis deals with data processing in Hadoop environment. The theoretical part introduces the Apache Hadoop architecture, the distributed HDFS file system, parallel data processing with MapReduce and other Hadoop tools. The practical part describes the Hadoop configuration and run on the selected server. Subsequent testing of its functionality on the exemplary "wordcount" task. In the end, the data will be retrieved from Twitter and analyzed.
Klíčová slova
hadoop, big data, twitter
Klíčová slova v angličtině
hadoop, big data, twitter
Rozsah průvodní práce
53 s.
Jazyk
CZ
Anotace
Tato bakalářská práce se zabývá zpracování dat v prostředí Hadoop. V teoretické části je představena architektura Apache Hadoop, distribuovaný souborový systém HDFS, paralelní zpracování dat pomocí MapReduce a dalších nástrojů Hadoop. V praktické části je popsána konfigurace Hadoop a spuštění na vybraném serveru. Následné otestování jeho funkčnosti na vzorové úloze "wordcount". Závěrem práce budou získána data z Twitteru a provedena jejich analýza.
Anotace v angličtině
This bachelor thesis deals with data processing in Hadoop environment. The theoretical part introduces the Apache Hadoop architecture, the distributed HDFS file system, parallel data processing with MapReduce and other Hadoop tools. The practical part describes the Hadoop configuration and run on the selected server. Subsequent testing of its functionality on the exemplary "wordcount" task. In the end, the data will be retrieved from Twitter and analyzed.