Technologie Blog

BigDataCon und JAX 2012

Vor Kurzem besuchten wir die JAX-Konferenz, die grösste Java-Konferenz Europas. Mit im Programm war diesmal die BigDataCon, eine Konferenz rund um Big Data und NoSQL-Technologien. Diese Technologien werden teilweise auch von MeMo News zur Medienbeobachtung eingesetzt.

Saal der Hauptkonferenz

Neben Big Data waren auf der JAX-Konferenz Mobile, Cloud sowie HTML5 absolute Hype-Themen. Es waren viele bekannte Grössen anwesend, beispielsweise Oracle, SAP, Red-Hat oder Thoughworks. Im Big-Data Bereich waren Firmen wie EMC, Codecentric, Talend oder Accenture vertreten.

Speaker kamen von verschiedenen Software-Häusern. Von Lars George, Buchautor und Solutions Architekt bei Cloudera, gab es gleich zwei Vorträge zu HBase. Einer der Vorträge richtete sich an Einsteiger, der andere an fortgeschrittene HBase-Benutzer.

Interessant war auch  die Diskussionsrunde am Abschluss der Konferenz, das sog. “BigDataCon Panel”. Diskussionsthemen waren zum Beispiel, welche Industriezweige von Big-Data berührt werden, was Big-Data von Cloud-Computing unterscheidet oder worum es sich bei der  neuen Berufsbezeichnung “Data-Scientist” handelt.

Abschlussdiskussionen zu Big Data

Insgesamt war die Big-Data-Con aber recht dünn und die Themen zu oberflächlich. Die Berlin-Buzzwords bietet in diesem Sektor eindeutig mehr.

Auf der JAX konnte man Jenkins-Hauptentwickler Kohsuke Kawaguchi zuhören, welcher über Continious Delivery berichtete.

Kohsuke Kawaguchi spricht über Jenkins und Continous Delivery

Neben Vorträgen, konnte man sich auf der Firmen-Messe austoben, abends an Diskussionen im “Ballroom” teilhaben oder einfach beim Casino entspannen. Zum Networking gab es also genügend Gelegenheiten.

FAZIT
Für Enterprise-Java-Entwickler ist die JAX-Con sicherlich eine interessante Konferenz, die BigDataCon steckt aber noch in den Kinderschuhen und ist für professionelle Entwickler aus dem Big-Data-Bereich noch zu oberflächlich.

Veröffentlicht unter Technologie Blog | Hinterlasse einen Kommentar

Top 5 Fakten über Social Media APIs für Social Media Monitoring

Die Evolution der Social Media APIs

Die Evolution der Social Media APIs (Quelle: Flickr)

Ein wichtiger Bestandteil jedes Sozialen Netzwerks aus technischer Sicht sind Programmierschnittstellen, auch APIs genannt. Über eine API können Daten aus den sozialen Netzwerken bezogen und in Apps oder Webseiten integriert werden.

Wir haben aus dem Social-Network-Dschungel die APIs der drei unserer Meinung nach für Social Media Monitoring interessantesten Sozialen Netzwerke verglichen und diese bezüglich der Brauchbarkeit analysiert:  Facebook, Twitter und Google+. Diese Netzwerke sind nicht nur sehr beliebt,  sie eignen sich auch sehr gut für eine Medienbeobachtung, da hier viel mittels Texten kommuniziert wird und nicht wie bei Flickr und Co. hauptsächlich via Bild-, Video- oder sonstigen multimedialen Inhalten, welche schwerer zu analysieren sind. Weiterlesen

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , , , , , , , , , , , | 3 Kommentare

Hadoop World 2011 – Zweiter Tag

Im zweiten und letzten Teil der Serie über unseren Besuch der Hadoop World Conference  geht es um den zweiten und letzten Tag der Konferenz. Zuvor hatten wir bereits vom Meetup am Vortag und vom ersten Tag der Konferenz berichtet.

Doug Cuttings Keynote

Keynote from Doug Cutting

Doug erläuterte im Wesentlichen den aktuellen Zustand des Apache Hadoop Ökosystems sowie die Pläne für die Zukunft. Er sieht Hadoop als “Kernel” eines verteilten OS für grosse Datenmengen und als de-facto Standard. Er vergleicht Hadoop mit einer Linux-Distribution, wo Teile unabhängig voneinander entwickelt und dann in eine Distribution gepackt werden.

Der nächste Release, Hadoop 0.23, wird anfang nächsten Jahres veröffentlicht. Er denkt, dass S4 (Simple Scalable Streaming System), Giraph, Crunch und Blur interessante und wichtige neue Projekte im Hadoop Ökosystem sein werden. Nach seiner Keynote stellte sich Doug den zum Teil kritischen Fragen der Teilnehmer.

An diesem Tag hörten wir die folgenden Talks: Weiterlesen

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , , , , | Hinterlasse einen Kommentar

Hadoop World 2011 – Erster Tag

Eröffnungskeynote von Hugh Williams (eBay)

Letzte Woche veranstaltete Cloudera in New York die Hadoop World Conference. 1400 Teilnehmer aus 27 Ländern zeigen deutlich auf, dass Hadoop eine Schlüsselplattform im Big Data-Universum ist. Hadoop besteht aus einer Reihe von Open-Source-Technologien, die unter dem Dach der Apache Software Foundation veröffentlicht wurden. Die zweitägige Konferenz umfasste zwei Keynotes mit fünf Sprechern und 60 weitere Vorträge, verteilt auf fünf Vortragsreihen. Weiterlesen

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , , , , , | Hinterlasse einen Kommentar

10 Neuerungen bei Google Search

Google

(Bild-Quelle: Flickr)

Angetrieben durch das Ziel, höchste Komplexität einerseits und Zugänglichkeit andererseits in Perfektion zu kombinieren, stösst Google intern Prozesse an, dessen Ausmass alles Geglaubte bei weitem übertrifft.  So änderte Google im Jahr 2010 beispielsweise mehr als 500 mal ihre Algorithmen – fast 2 mal täglich (Amit Singhal, Google Research), um noch bessere Suchergebnisse zu produzieren. Hierfür wurden mehr als 20’000 unterschiedliche Experimente durchgeführt (Scott B. Huffman, Google Research), analysiert, Ergebnisse verwertet und erneut getestet. Continuous Delivery in Verbindung mit einem User Centered Ansatz  in Perfektion.

Hier die nächsten Top 10 Weiterentwicklungen von Google Search:

  1. Sprachabdeckung
    Sucht man in einem Sprachraum, bei dem Google kaum über Inhalte verfügt, werden nun relevante Inhalte auf Englisch durchsucht, übersetzt und unterhalb vom englischen Titel angezeigt. Klickt man den Titel, gelangt man zur übersetzten englischen Seite.
  2. Bessere Haupttexterkennung
    Künftig kann Google einen längeren Anreissertext darstellen, da die Haupttexterkennung so verbessert wurde, dass nunmehr Menüs und Kopf- und Seitenspalten besser erkannt werden können.
  3. Verbesserung der Seitentitel
    Google berücksichtigt zur Ermittlung der Seitentitel neben vielen anderen Signalen auch alle Link Anchor Texte. Deren Mehrfachnennung wurde bislang positiv gewichtet, was sich als nicht relevant erwiesen hat und abgewertet wurde.
  4. Autovervollständigen in Russisch, längenbeschränkt
    Was bei Google in Englisch bereits genutzt wird, findet jetzt auch in russischer Sprache Verwendung –  Vorschläge im Suchfeld werden in der Länge beschränkt.
  5. Erweiterungen bei Application rich snippets
    Google hat kürzlich die Palette der Rich snippets um Applications erweitert.

    Example for a Google application rich snippet

    Damit können Treffer, die Software darstellen, mit Details zu Kosten, Bewertungen, Empfehlungen etc. angezeigt werden – analog Shopping, Video und Events rich snippets. Das Update beinhaltet die Anreicherung des Index mit solchen Application rich snippets.

  6. Abschaffung eines Signals bei der Image Search
    Google verwendet für das Ranking verschiedene Signale, die in einigen Fällen bereits veraltet sind. So geschehen beim Signal, das die Referenzen von mehreren Dokumenten auf ein Image hält. Es ist nicht mehr relevant und wird abgeschafft.
  7. Aktuellere Treffer
    Im letzten Jahr hat Google ihr Crawling und Indexing komplett überarbeitet (Caffeine Projekt) und damit den Weg bereitet für eine weiteres, wichtiges Update – aktuellere Treffer. Das Update beinhaltet eine Veränderung beim Ranking – Fresh Content wird nun höher bewertet.
  8. Verbesserung bei der Erkennung offizieller Seiten
    Durch diese Anpassung werden Seiten, die eine offiziellen Charakter haben, im Ranking verbessert.
  9. Gewichtung der Treffer bei Datumseinschränkung
    Sofern man die Datumseinschränkung bei der Suche nutzt, gewichtet Google dank diesem Update die angezeigten Treffer nach Relevanz und Freshness.
  10. Verbesserte Autocompletion
    Die  Autocompletion bei der Eingabe von non-Latin-Buchstaben (IME) führt teilweise zu unerwünschten Vorschlägen, da die Verarbeitung von mehreren Tastatureingaben, um den gewünschten non-Latin-Buchstaben darzustellen,  zu Fehlern führt.

Fazit

Was glauben Sie, wie häufig die MeMo News Updates deployed?

 

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , , , , , , , , | Hinterlasse einen Kommentar

Hadoop World 2011 – MeetUp

Pre-Hadoop Meetup bei AppNexusLetzte Woche besuchten wir die Hadoop World Konferenz in New York City. Am Vorabend der Konferenz fand in den Räumen von AppNexus das Pre-Hadoop World MeetUp der New York Hadoop User Group statt. Das Interesse war sehr gross, so dass der Raum bei AppNexus bis zum Bersten voll war.

Der Abend wurde in eine Reihe von Kurzvorträgen (15 Minuten einschliesslich Q&A) und einer anschliessenden BOF Session aufgeteilt. Das Hauptthema des Abends war HBase.

Als erstes zeigte Francis Cianfrocca von Bayshore Networks, wie mit HBase und Accumulo sichere Kollaboration hergestellt werden kann. Accumulo ist ein verteilter Key/Value-Store, der Security auf Feld-Level bietet. Die Datenbank wurde von der National Security Agency (NSA) entwickelt und dieses Jahr unter dem Dach der ASF (Apache Software Foundation) veröffentlicht.

Danach sprach J.D. Cryans von StumbleUpon über allgemeine HBase Issues. StumbleUpon betreibt eines der ältesten HBase-Cluster und hat sehr viel Erfahrung auf diesem Gebiet.

Im dritten Vortag zeigte Steven Noels, wie Lily mit Hilfe der RowLog Library ihren Solr Index mit HBase-Updates auf dem aktuellsten Stand hält. Die Folien sind auf http://www.slideshare.net/outerthought/the-lily-rowlog-library verfügbar.

Zum Abschluss gab es mehrere BOF-Sessions, wo die Teilnehmer rege diskutiert haben. Wir waren in der ca. 15-köpfigen Gruppe “1 Million Writes per Second and How to Get There”, initiiert von Blake Matheny. Er erläuterte, wie Tumblr 1Million Writes pro Sekunde auf HBase erreicht.

Tumblr erreicht die 1M Writes/Sek. mit einem 40 Node Cluster. Tumblr hat viel vom Wissen und der Erfahrung von Facebook profitieren können. Um diesen hohen Durchsatz zu erzielen, pflegen sie einen eigenen HBase-Fork und patchen ihn nach ihren eigenen Bedürfnissen. Folgende wichtigen Optimierungen haben sie dabei vorgenommen:

  • Auto-Commit abgeschaltet.
  • Major Compaction abgeschaltet, manuelle Compaction in der Nacht.
  • Automatisches Splitting abgeschaltet und Regionsplitting selber gemacht.

Gemäss Todd Lipcon sollte die Regiongrösse <= 4 GB betragen und auf einem Regionserver sollten 20 – 500 Regions liegen.

Bei Bier und Pizza (sponsored by AppNexus) gab es im Anschluss genügend Möglichkeiten, um sich mit anderen Teilnehmern auszutauschen.

Fazit

Aus unserer Sicht war es eine sehr gelungene Veranstaltung mit interessanten Vorträgen und der Möglichkeit, Core Committer persönlich zu treffen. Mein Eindruck ist, dass HBase bereits verbreitet produktiv eingesetzt wird. Ein Cluster mit 20+ Nodes ist keine Seltenheit mehr. In den USA gibt es sehr aktive Communities und es findet ein reger Erfahrungsaustausch zwischen unterschiedlichen Unternehmen statt. Soweit sind wir in der Schweiz und auch im restlichen Europa leider noch nicht.

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , | Hinterlasse einen Kommentar