Hadoop World 2011 – Erster Tag

Eröffnungskeynote von Hugh Williams (eBay)

Letzte Woche veranstaltete Cloudera in New York die Hadoop World Conference. 1400 Teilnehmer aus 27 Ländern zeigen deutlich auf, dass Hadoop eine Schlüsselplattform im Big Data-Universum ist. Hadoop besteht aus einer Reihe von Open-Source-Technologien, die unter dem Dach der Apache Software Foundation veröffentlicht wurden. Die zweitägige Konferenz umfasste zwei Keynotes mit fünf Sprechern und 60 weitere Vorträge, verteilt auf fünf Vortragsreihen.

Keynote

Die Eröffnungs-Keynote hielten Mike Olson von Cloudera, Hugh Williams von eBay und Larry Feinsmith von JPMorgan Chase.

Mike Olson (CEO Cloudera) @ Hadoop World 2011

Mike Olson erzählt, wie sich das Hadoop-Ökosystem in den letzten Jahren entwickelt hat. Hadoop entwickelt sich als Zentrum für eine Plattform für Big Data, was vor allem dadurch ersichtlich wird, dass mehr und mehr Projekte sich ins Hadoop-Ökosystem einfinden. Es gibt auch vermehrt Projekte, die Analysten mit wenig Kenntnissen in der Softwareentwicklung ermöglichen, grosse Menge an Daten zu verarbeiten. Ausserdem hat Accel Partners einen Big Data Fund, einen Fond mit 100 Mio. Dollar für Big Data Start-Ups gestartet.

Hugh Williams entwickelt mit seinem Team eine auf Hadoop und HBase basierende Suchmaschine mit dem Projektnamen “Cassini”. eBay’s bestehende Suchmaschine ist nicht adäquat für heutige Anforderungen und braucht viel Unterhalt. Cassini ist eine komplette Neuentwicklung und soll nächstes Jahr in Produktion gehen.

Larry Feinsmith erklärt, wie JPMorgan Chase Hadoop einsetzt. Hadoop wird als zentraler Dienst eingesetzt. Ihre Haupt-Use-Cases sind ETL und Data-Mining.

Favorisierte Talks

Es gab viel zu viele Vorträge, um für alle eine Zusammenfassung zu schreiben. Hier sind die, die wir am Interessantesten gefunden haben:

Building Realtime Big Data Services at Facebook with Hadoop and HBase

Jonathan Gray gab einen grossartigen Einblick in die Anwendungsfälle bei Facebook mit HBase. Zur Zeit werden für drei Projekte HBase verwendet: Titan (Facebook Messages), Puma (Facebook Insights), ODS (Operational Data Store).

Jonathan Gray @ Hadoop World 2011

Facebook Messages war das grösste Engineering-Projekt bei Facebook. Es hat 15 Entwickler ein Jahr lang beschäftigt. Herausforderung dabei war, dass bereits beim Launch mit massiven Datenmengen umgegangen werden musste. Die alte Messaging-Plattform hat bereits Millionen von aktiven Benutzern, die über 15 Milliarden Nachrichten pro Monat verschicken. Dadurch entsteht das Problem, dass sowohl mit viel Schreib-Durchsatz als auch mit grossen gespeicherten Datenmengen gerechnet werden muss. HBase konnte beide Probleme bewältigen.

Mit Puma werden die Facebook Insights zu Echtzeit-Statististiken für Facebook Pages. Die Zeit bis zum Report hat sich von mehreren Stunden auf weniger als eine Minute reduziert. In Zukunft will Facebook Puma weiter generalisieren, so dass es auch für andere Produkte einsetzbar wird.

Im ODS werden Metriken, die eine Entwicklung über die Zeit erfahren, wie Systemdaten (CPU, Memory usw.), Applikationsdaten (Cache, DB) und Geschäftsdaten (Benutzerzahl, Umsatz) gespeichert. ODS erfüllt ähnliche Aufgaben wie OpenTSDB und Graphite.

Storing and Indexing Social Media Content in the Hadoop Ecosystem

Wie viele Unternehmen hat auch Jive mit der exponentiellen Zunahme von Social Media Daten zu kämpfen – aktuell kommen täglich 125+ GB hinzu. Sie speichern momentan die Daten 30 Tage lang für Verarbeitung und Analyse.

Jive benutzt für die Datenhaltung HBase/HDFS, für die Suche Katta/Lucene und für die Datenanalyse Hadoop. Um den Inhalt von Social Media Content in HBase, HDFS und EC2 zu verteilen, setzt Jive Apache Flume ein. Aus HDFS wird periodisch ein Lucene Index gebaut und für Katta bereitgestellt. Mit Zoie, einem Flume Sink entwickelt von LinkedIn, kann “near real-time” erzielt werden.

Lily: Smart Data at Scale, Made Easy

Lily ist ein skalierbares und verteiltes Content Repository von Outerthought, das auf Hadoop, HBase und Solr aufgebaut ist.

HBase kennt nur “eine Haufen von Bytes” als Datentyp. Lily bietet ein Datenmodell mit Records. Records haben ein Schema, die Datentypen wie Strings, Integers, Listen und vieles mehr bietet.

Um die Inhalte durchsuchen zu können, pflegt Lily Indexe auf Solr. Lily kann mehrere Indexe unterhalten, um optimierte Indexe für verschiedene Anwendungsfälle bereitzustellen. Die Kopplung an Solr ist sehr lose. Um den Index konsistent zu halten, wird mit der RowLog-Library dafür gesorgt, dass neue oder veränderte Records indiziert werden. Lily ist Open Source und ist auch in einer Enterprise Version erhältlich.

Eine Videoaufzeichnung des Talks kann auf der Seite von Cloudera abgerufen werden (Registrierung erforderlich).

Data Mining in Hadoop, Making Sense Of It in Mahout!

“Data Mining with Mahout”, wurde von Michael Cutler erläutert. “It’s all about discovery” – so erklärte er den Begriff Data Mining.

Mahout wiederum ist ein Werkzeugkasten mit unterschiedlichsten Algorithmen für Classification, Clustering, Collaborative Filtering und Frequent Pattern Mining. Er gab den Zuhörern folgende Empfehlungen mit an die Hand:

  • Understand your data.
  • Determine what needs to be done.
  • Build a pipeline to compute results.
  • Think about performance from the start.

In der Cloudera’s Hadoop-Distribution ist Mahout seit Version CDH3u2 dabei.

Zum Abschluss des ersten Tages konnten wir bei Bier und Antipasto einige Kontakte knüpfen und uns mit anderen Teilnehmern rege austauschen.

Fazit

In 5 parallelen Sessions trugen die Sprecher ihr fundiertes Fachwissen vor – eine geballte Landung an Informationen. Die Präsentationen sind sehr zu empfehlen und können auf http://www.cloudera.com/resources/Hadoop+World/ gefunden werden.

Da wir bei MeMoNews ebenfalls mit einer enormen Flut von Daten zu tun haben, sind wir überzeugt, dass Hadoop die richtige Plattform für uns ist. Zudem glauben wir, dass die Community weiter wachsen wird und dass immer mehr Unternehmen auf das Thema aufmerksam werden.

Ausblick

Spielt Big Data in Ihrem Unternehmen eine Rolle und wie gehen Sie damit um? Hilft  Hadoop Ihnen dabei, neue Erkenntnisse aus Ihren Daten zu gewinnen?



Jiayong Ou

Über Jiayong Ou

Jiayong Ou ist Software Engineer bei MeMo News.
Dieser Beitrag wurde unter Technologie Blog abgelegt und mit , , , , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Hinterlasse eine Antwort