Schlagwort-Archive: New York

Hadoop World 2011 – Zweiter Tag

Im zweiten und letzten Teil der Serie über unseren Besuch der Hadoop World Conference  geht es um den zweiten und letzten Tag der Konferenz. Zuvor hatten wir bereits vom Meetup am Vortag und vom ersten Tag der Konferenz berichtet.

Doug Cuttings Keynote

Keynote from Doug Cutting

Doug erläuterte im Wesentlichen den aktuellen Zustand des Apache Hadoop Ökosystems sowie die Pläne für die Zukunft. Er sieht Hadoop als “Kernel” eines verteilten OS für grosse Datenmengen und als de-facto Standard. Er vergleicht Hadoop mit einer Linux-Distribution, wo Teile unabhängig voneinander entwickelt und dann in eine Distribution gepackt werden.

Der nächste Release, Hadoop 0.23, wird anfang nächsten Jahres veröffentlicht. Er denkt, dass S4 (Simple Scalable Streaming System), Giraph, Crunch und Blur interessante und wichtige neue Projekte im Hadoop Ökosystem sein werden. Nach seiner Keynote stellte sich Doug den zum Teil kritischen Fragen der Teilnehmer.

An diesem Tag hörten wir die folgenden Talks: Weiterlesen

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , , , , | Hinterlasse einen Kommentar

Hadoop World 2011 – Erster Tag

Eröffnungskeynote von Hugh Williams (eBay)

Letzte Woche veranstaltete Cloudera in New York die Hadoop World Conference. 1400 Teilnehmer aus 27 Ländern zeigen deutlich auf, dass Hadoop eine Schlüsselplattform im Big Data-Universum ist. Hadoop besteht aus einer Reihe von Open-Source-Technologien, die unter dem Dach der Apache Software Foundation veröffentlicht wurden. Die zweitägige Konferenz umfasste zwei Keynotes mit fünf Sprechern und 60 weitere Vorträge, verteilt auf fünf Vortragsreihen. Weiterlesen

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , , , , , | Hinterlasse einen Kommentar

Hadoop World 2011 – MeetUp

Pre-Hadoop Meetup bei AppNexusLetzte Woche besuchten wir die Hadoop World Konferenz in New York City. Am Vorabend der Konferenz fand in den Räumen von AppNexus das Pre-Hadoop World MeetUp der New York Hadoop User Group statt. Das Interesse war sehr gross, so dass der Raum bei AppNexus bis zum Bersten voll war.

Der Abend wurde in eine Reihe von Kurzvorträgen (15 Minuten einschliesslich Q&A) und einer anschliessenden BOF Session aufgeteilt. Das Hauptthema des Abends war HBase.

Als erstes zeigte Francis Cianfrocca von Bayshore Networks, wie mit HBase und Accumulo sichere Kollaboration hergestellt werden kann. Accumulo ist ein verteilter Key/Value-Store, der Security auf Feld-Level bietet. Die Datenbank wurde von der National Security Agency (NSA) entwickelt und dieses Jahr unter dem Dach der ASF (Apache Software Foundation) veröffentlicht.

Danach sprach J.D. Cryans von StumbleUpon über allgemeine HBase Issues. StumbleUpon betreibt eines der ältesten HBase-Cluster und hat sehr viel Erfahrung auf diesem Gebiet.

Im dritten Vortag zeigte Steven Noels, wie Lily mit Hilfe der RowLog Library ihren Solr Index mit HBase-Updates auf dem aktuellsten Stand hält. Die Folien sind auf http://www.slideshare.net/outerthought/the-lily-rowlog-library verfügbar.

Zum Abschluss gab es mehrere BOF-Sessions, wo die Teilnehmer rege diskutiert haben. Wir waren in der ca. 15-köpfigen Gruppe „1 Million Writes per Second and How to Get There“, initiiert von Blake Matheny. Er erläuterte, wie Tumblr 1Million Writes pro Sekunde auf HBase erreicht.

Tumblr erreicht die 1M Writes/Sek. mit einem 40 Node Cluster. Tumblr hat viel vom Wissen und der Erfahrung von Facebook profitieren können. Um diesen hohen Durchsatz zu erzielen, pflegen sie einen eigenen HBase-Fork und patchen ihn nach ihren eigenen Bedürfnissen. Folgende wichtigen Optimierungen haben sie dabei vorgenommen:

  • Auto-Commit abgeschaltet.
  • Major Compaction abgeschaltet, manuelle Compaction in der Nacht.
  • Automatisches Splitting abgeschaltet und Regionsplitting selber gemacht.

Gemäss Todd Lipcon sollte die Regiongrösse <= 4 GB betragen und auf einem Regionserver sollten 20 – 500 Regions liegen.

Bei Bier und Pizza (sponsored by AppNexus) gab es im Anschluss genügend Möglichkeiten, um sich mit anderen Teilnehmern auszutauschen.

Fazit

Aus unserer Sicht war es eine sehr gelungene Veranstaltung mit interessanten Vorträgen und der Möglichkeit, Core Committer persönlich zu treffen. Mein Eindruck ist, dass HBase bereits verbreitet produktiv eingesetzt wird. Ein Cluster mit 20+ Nodes ist keine Seltenheit mehr. In den USA gibt es sehr aktive Communities und es findet ein reger Erfahrungsaustausch zwischen unterschiedlichen Unternehmen statt. Soweit sind wir in der Schweiz und auch im restlichen Europa leider noch nicht.

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , | Hinterlasse einen Kommentar