Hadoop World 2011 – Zweiter Tag

Im zweiten und letzten Teil der Serie über unseren Besuch der Hadoop World Conference  geht es um den zweiten und letzten Tag der Konferenz. Zuvor hatten wir bereits vom Meetup am Vortag und vom ersten Tag der Konferenz berichtet.

Doug Cuttings Keynote

Keynote from Doug Cutting

Doug erläuterte im Wesentlichen den aktuellen Zustand des Apache Hadoop Ökosystems sowie die Pläne für die Zukunft. Er sieht Hadoop als “Kernel” eines verteilten OS für grosse Datenmengen und als de-facto Standard. Er vergleicht Hadoop mit einer Linux-Distribution, wo Teile unabhängig voneinander entwickelt und dann in eine Distribution gepackt werden.

Der nächste Release, Hadoop 0.23, wird anfang nächsten Jahres veröffentlicht. Er denkt, dass S4 (Simple Scalable Streaming System), Giraph, Crunch und Blur interessante und wichtige neue Projekte im Hadoop Ökosystem sein werden. Nach seiner Keynote stellte sich Doug den zum Teil kritischen Fragen der Teilnehmer.

An diesem Tag hörten wir die folgenden Talks:

Hadoop and Performance

Todd Lipcon von Cloudera sprach über die Performance-Verbesserungen in Hadoop 0.23.

Durch folgende Optimierungen wird der Sort bei MapReduce-Jobs weniger Ressourcen von CPU und I/O beanspruchen:

  • klügere Verwendung von Kernel-Funktionen (fadvise, sync).
  • Änderungen einiger In-Memory-Datenstrukturen für einen kleineren Memory-Footprint.
  • Verwendung von Low-Level JVM-Funktionen.

Aufgrund der jüngsten Dateisystem-Verbesserungen (writeback und readahead bei ext4) kann ein Linux-Kernel Upgrade grosse Performanceverbesserungen bringen. Lipcon hat den Wechsel auf Kernel Version 2.6.32 empfohlen.

Bei HDFS gab es grosse Veränderungen: Momentan wird bei der DataNode bis zu 50% der CPU für die Berechnung der Prüfsummen verbraucht. Dies wurde durch den Einsatz von Intels nativen SSE4 Prüfsummen-Befehlssatz stark optimiert. In dem vorgestellten Benchmark reduzierte die Optimierung die Latenz um 50% und die CPU-Auslastung wurde um den Faktor 3 verringert. Eine persistente TCP-Verbindungen zwischen Client und DataNode ist eine weitere Verbesserung beim Zugriff auf HDFS. Diese Optimierungen führten beim YCSB zu einer ~40% Verbesserung des Durchsatzes bei HBase.

Yanpei Chen präsentiert ein Benchmark-Vorgehen für MapReduce-Cluster, das Datenproben aus echten Cluster-Workloads verwendet, anstatt die Performance mit einer künstlichen Workload zu bestimmen. Im Wesentlichen geht es darum, mit Proben aus produktiven Workloads einen Trace zu erzeugen. Durch n Wiederholungen dieser Workload entsteht ein repräsentativer Benchmark, der eine Annäherung an reale Belastungen entspricht. Die zentrale Idee ist, dass M/R-Cluster einen realistischen Workload benötigen, damit ihre Leistung quantifiziert werden kann. In diesem Kontext auch sehr wichtig ist das Ziel der Performancemessung, wie z.B.  Time-to-Completion, Durchsatz oder Effizienz.

Die UC Berkeley stellt eine Suite von MapReduce-Workloads für die Simulation zur Verfügung.

Empfehlungen bei LinkedIn

In diesem Talk wurde vorgestellt, wie mit Hilfe von Hadoop aus den Rohdaten wichtige Erkenntnisse extrahiert und in umfangreiche Features bei LinkedIn einfliessen. Als Beispiel nannten die beiden Redner die Recommendation Engine auf der LinkedIn-Plattform (Job, Unternehmen, Profile, Gruppen etc.).

Dazu wird für jeden Benutzer aus unterschiedlichen Daten ein “Similarity Score Vector” und ein “Importance Weight Vector” mit Werten zwischen 0 und 1 erstellt. Benutzer-Feedback von der Webseite fliesst ebenfalls in den Importance Weight Vector mit ein. Beide Vektoren werden dann normalisiert und durch einen Scoring- und Ranking-Algorithmus gejagt. Die gewichteten Ergebnisse werden danach durch mehrere Filter reduziert.

Der Technologie-Stack bei LinkedIn ist sehr umfangreich:

  • Lucene, Index
  • Bobo, Facettensuche
  • Zoie, Real-Time-Indexierung
  • Voldemort, Key-Value Store für Caching
  • Kafka, Messaging-System
  • R und Mahout, Natural Language Processing (NLP)

Als Plattform für oben genannte Technologien wird natürlich Hadoop eingesetzt.

Advanced HBase Schema Design

Lars George, HBase Committer und Autor von HBase: The Definite Guide, erklärt grob wie HBase funktioniert und was für Auswirkungen das auf das Schema-Design haben kann.

Eine wichtige Komponente beim Schema-Design ist der Row Key. So kann man beispielsweise mit zufällig verteilte Keys einen hohen Schreibdurchsatz erreichen, weil die Schreibzugriffe gleichmässig auf alle Regionen verteilt werden. Andererseits werden dadurch Scans über bestimme Bereiche von Zeilen unmöglich, ohne die gesamte Tabelle zu scannen.

Ein weiteres Trade-Off ist, ob man eine hohe oder breite Tabelle hat. Tabellen kann man schmaler und höher gestalten, indem man Nutzdaten in den Row Key verschiebt. Das hat den Vorteil, dass die Daten besser verteilt werden können, da HBase eine einzelne grosse Zeile nicht in mehrere Regionen verteilen kann. Allerdings entsteht der Nachteil, dass der Schreibzugriff weniger atomar ist: HBase garantiert, dass Schreibzugriffe pro Zeile atomar sind, kann aber diese Garantie nicht auf Schreibzugriffe über mehrere Zeilen geben. Wenn man ein Datensatz auf mehrere Rows verteilt, kann es passieren, dass Daten unvollständig geschrieben wurde.

Ausser den zwei erwähnten gibt es noch viele Stellschrauben, an denen man drehen kann, mit jeweils Vor- und Nachteile. Wie bei allen Datenbanksystemen muss man auch bei HBase das Schema für den eigenen Use-Case abstimmen.

Fazit

Die Keynotes waren alle hervorragend, wobei für mich persönlich Doug Cutting am eindrücklichsten war. Die Mischung der Sessions sowie ihre Qualität waren gut. Natürlich gab es bei der Fülle von Vorträgen auch den einen oder anderen, der die Erwartungen nicht erfüllte.

Fast alle Unternehmen, die im Hadoop-Umfeld tätig sind, suchen Leute. “We’re hiring.” war ein Satz, der sehr häufig gefallen ist. Larry Feinsmith von JPMorgan Chase, der die Keynote von Tag 1 nach Hugh Williams von eBay hielt, witzelte: “We’re also hiring and we’re paying 10% more than eBay”.

Alles in allem ist die Hadoop World eine empfehlenswerte und wirklich internationale Konferenz, die Lust auf das nächste Jahr macht.

 



Dieser Beitrag wurde unter Technologie Blog abgelegt und mit , , , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar