Tag Archives: Apache Spark

Was ist der Unterschied zwischen RDD, DataFrame und Dataset in Apache Spark?

Apache Spark wurde entwickelt, um eine höhere Leistung im Hadoop-Ökosystem erreichen zu können. Im Vergleich zu Hadoop soll Spark dank In-Memory-Berechnungen und weiterer Optimierungen bei der Datenverarbeitung wesentlich schneller sein. In diesem Blog will ich erklären, welche Datenstrukturen Spark mitbringt und … Continue reading

Posted in Java Runtimes - VM, Appserver & Cloud | Tagged , , , | Leave a comment

Apache Spark – Success Story

Wie im ersten Artikel zu Apache Spark bereits angerissen, gibt es durch die immer weiter fortschreitende Digitalisierung (Industrie 4.0, Smart Grids, Connected Cars, Internet of Things, sowie große Onlinevertriebsplattformen und Soziale Netzwerke) immer mehr Geräte und Nutzer, welche kontinuierlich neue … Continue reading

Posted in Open Source BI | Tagged , , , | Leave a comment

Apache Spark (Teil 2/2)

Dies ist der zweite Artikel einer zweiteiligen Serie zu Apache Spark. Während der erste Artikel die allgemeine Funktionsweise von Apache Spark erklärt, legt dieser Artikel den Fokus auf die praktische Anwendung anhand einiger Code-Beispiele. Die Beispiele beziehen sich ausschließlich auf … Continue reading

Posted in Open Source BI | Tagged , , , , | 1 Comment

Apache Spark (Teil 1/2)

In Zeiten der Industrie 4.0 und des Internet of Things hat jede Maschine und immer mehr Objekte des täglichen Lebens eine Netzwerkverbindung. Über diese Verbindung tauscht sich das jeweilige Gerät mit der Außenwelt aus und kann über die Zeit eine … Continue reading

Posted in Open Source BI | Tagged , , , , | 1 Comment