Monats-Archive: November 2011

Zopf Friday

Eine lieb gewonnene Tradition in der Entwicklungsabteilung bei MeMo News ist der Zopf am Freitag. Folgende Animation zeigt den Werdegang dieses Zopfes im Schnelldurchlauf – mit einer kleinen Hommage an den heutigen „Black Friday„.

 

Veröffentlicht unter Inside MeMo | Hinterlasse einen Kommentar

Hadoop World 2011 – Zweiter Tag

Im zweiten und letzten Teil der Serie über unseren Besuch der Hadoop World Conference  geht es um den zweiten und letzten Tag der Konferenz. Zuvor hatten wir bereits vom Meetup am Vortag und vom ersten Tag der Konferenz berichtet.

Doug Cuttings Keynote

Keynote from Doug Cutting

Doug erläuterte im Wesentlichen den aktuellen Zustand des Apache Hadoop Ökosystems sowie die Pläne für die Zukunft. Er sieht Hadoop als “Kernel” eines verteilten OS für grosse Datenmengen und als de-facto Standard. Er vergleicht Hadoop mit einer Linux-Distribution, wo Teile unabhängig voneinander entwickelt und dann in eine Distribution gepackt werden.

Der nächste Release, Hadoop 0.23, wird anfang nächsten Jahres veröffentlicht. Er denkt, dass S4 (Simple Scalable Streaming System), Giraph, Crunch und Blur interessante und wichtige neue Projekte im Hadoop Ökosystem sein werden. Nach seiner Keynote stellte sich Doug den zum Teil kritischen Fragen der Teilnehmer.

An diesem Tag hörten wir die folgenden Talks: Weiterlesen

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , , , , | Hinterlasse einen Kommentar

Hadoop World 2011 – Erster Tag

Eröffnungskeynote von Hugh Williams (eBay)

Letzte Woche veranstaltete Cloudera in New York die Hadoop World Conference. 1400 Teilnehmer aus 27 Ländern zeigen deutlich auf, dass Hadoop eine Schlüsselplattform im Big Data-Universum ist. Hadoop besteht aus einer Reihe von Open-Source-Technologien, die unter dem Dach der Apache Software Foundation veröffentlicht wurden. Die zweitägige Konferenz umfasste zwei Keynotes mit fünf Sprechern und 60 weitere Vorträge, verteilt auf fünf Vortragsreihen. Weiterlesen

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , , , , , | Hinterlasse einen Kommentar

10 Neuerungen bei Google Search

Google

(Bild-Quelle: Flickr)

Angetrieben durch das Ziel, höchste Komplexität einerseits und Zugänglichkeit andererseits in Perfektion zu kombinieren, stösst Google intern Prozesse an, dessen Ausmass alles Geglaubte bei weitem übertrifft.  So änderte Google im Jahr 2010 beispielsweise mehr als 500 mal ihre Algorithmen – fast 2 mal täglich (Amit Singhal, Google Research), um noch bessere Suchergebnisse zu produzieren. Hierfür wurden mehr als 20’000 unterschiedliche Experimente durchgeführt (Scott B. Huffman, Google Research), analysiert, Ergebnisse verwertet und erneut getestet. Continuous Delivery in Verbindung mit einem User Centered Ansatz  in Perfektion.

Hier die nächsten Top 10 Weiterentwicklungen von Google Search:

  1. Sprachabdeckung
    Sucht man in einem Sprachraum, bei dem Google kaum über Inhalte verfügt, werden nun relevante Inhalte auf Englisch durchsucht, übersetzt und unterhalb vom englischen Titel angezeigt. Klickt man den Titel, gelangt man zur übersetzten englischen Seite.
  2. Bessere Haupttexterkennung
    Künftig kann Google einen längeren Anreissertext darstellen, da die Haupttexterkennung so verbessert wurde, dass nunmehr Menüs und Kopf- und Seitenspalten besser erkannt werden können.
  3. Verbesserung der Seitentitel
    Google berücksichtigt zur Ermittlung der Seitentitel neben vielen anderen Signalen auch alle Link Anchor Texte. Deren Mehrfachnennung wurde bislang positiv gewichtet, was sich als nicht relevant erwiesen hat und abgewertet wurde.
  4. Autovervollständigen in Russisch, längenbeschränkt
    Was bei Google in Englisch bereits genutzt wird, findet jetzt auch in russischer Sprache Verwendung –  Vorschläge im Suchfeld werden in der Länge beschränkt.
  5. Erweiterungen bei Application rich snippets
    Google hat kürzlich die Palette der Rich snippets um Applications erweitert.

    Example for a Google application rich snippet

    Damit können Treffer, die Software darstellen, mit Details zu Kosten, Bewertungen, Empfehlungen etc. angezeigt werden – analog Shopping, Video und Events rich snippets. Das Update beinhaltet die Anreicherung des Index mit solchen Application rich snippets.

  6. Abschaffung eines Signals bei der Image Search
    Google verwendet für das Ranking verschiedene Signale, die in einigen Fällen bereits veraltet sind. So geschehen beim Signal, das die Referenzen von mehreren Dokumenten auf ein Image hält. Es ist nicht mehr relevant und wird abgeschafft.
  7. Aktuellere Treffer
    Im letzten Jahr hat Google ihr Crawling und Indexing komplett überarbeitet (Caffeine Projekt) und damit den Weg bereitet für eine weiteres, wichtiges Update – aktuellere Treffer. Das Update beinhaltet eine Veränderung beim Ranking – Fresh Content wird nun höher bewertet.
  8. Verbesserung bei der Erkennung offizieller Seiten
    Durch diese Anpassung werden Seiten, die eine offiziellen Charakter haben, im Ranking verbessert.
  9. Gewichtung der Treffer bei Datumseinschränkung
    Sofern man die Datumseinschränkung bei der Suche nutzt, gewichtet Google dank diesem Update die angezeigten Treffer nach Relevanz und Freshness.
  10. Verbesserte Autocompletion
    Die  Autocompletion bei der Eingabe von non-Latin-Buchstaben (IME) führt teilweise zu unerwünschten Vorschlägen, da die Verarbeitung von mehreren Tastatureingaben, um den gewünschten non-Latin-Buchstaben darzustellen,  zu Fehlern führt.

Fazit

Was glauben Sie, wie häufig die MeMo News Updates deployed?

 

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , , , , , , , , | Hinterlasse einen Kommentar

Hadoop World 2011 – MeetUp

Pre-Hadoop Meetup bei AppNexusLetzte Woche besuchten wir die Hadoop World Konferenz in New York City. Am Vorabend der Konferenz fand in den Räumen von AppNexus das Pre-Hadoop World MeetUp der New York Hadoop User Group statt. Das Interesse war sehr gross, so dass der Raum bei AppNexus bis zum Bersten voll war.

Der Abend wurde in eine Reihe von Kurzvorträgen (15 Minuten einschliesslich Q&A) und einer anschliessenden BOF Session aufgeteilt. Das Hauptthema des Abends war HBase.

Als erstes zeigte Francis Cianfrocca von Bayshore Networks, wie mit HBase und Accumulo sichere Kollaboration hergestellt werden kann. Accumulo ist ein verteilter Key/Value-Store, der Security auf Feld-Level bietet. Die Datenbank wurde von der National Security Agency (NSA) entwickelt und dieses Jahr unter dem Dach der ASF (Apache Software Foundation) veröffentlicht.

Danach sprach J.D. Cryans von StumbleUpon über allgemeine HBase Issues. StumbleUpon betreibt eines der ältesten HBase-Cluster und hat sehr viel Erfahrung auf diesem Gebiet.

Im dritten Vortag zeigte Steven Noels, wie Lily mit Hilfe der RowLog Library ihren Solr Index mit HBase-Updates auf dem aktuellsten Stand hält. Die Folien sind auf http://www.slideshare.net/outerthought/the-lily-rowlog-library verfügbar.

Zum Abschluss gab es mehrere BOF-Sessions, wo die Teilnehmer rege diskutiert haben. Wir waren in der ca. 15-köpfigen Gruppe „1 Million Writes per Second and How to Get There“, initiiert von Blake Matheny. Er erläuterte, wie Tumblr 1Million Writes pro Sekunde auf HBase erreicht.

Tumblr erreicht die 1M Writes/Sek. mit einem 40 Node Cluster. Tumblr hat viel vom Wissen und der Erfahrung von Facebook profitieren können. Um diesen hohen Durchsatz zu erzielen, pflegen sie einen eigenen HBase-Fork und patchen ihn nach ihren eigenen Bedürfnissen. Folgende wichtigen Optimierungen haben sie dabei vorgenommen:

  • Auto-Commit abgeschaltet.
  • Major Compaction abgeschaltet, manuelle Compaction in der Nacht.
  • Automatisches Splitting abgeschaltet und Regionsplitting selber gemacht.

Gemäss Todd Lipcon sollte die Regiongrösse <= 4 GB betragen und auf einem Regionserver sollten 20 – 500 Regions liegen.

Bei Bier und Pizza (sponsored by AppNexus) gab es im Anschluss genügend Möglichkeiten, um sich mit anderen Teilnehmern auszutauschen.

Fazit

Aus unserer Sicht war es eine sehr gelungene Veranstaltung mit interessanten Vorträgen und der Möglichkeit, Core Committer persönlich zu treffen. Mein Eindruck ist, dass HBase bereits verbreitet produktiv eingesetzt wird. Ein Cluster mit 20+ Nodes ist keine Seltenheit mehr. In den USA gibt es sehr aktive Communities und es findet ein reger Erfahrungsaustausch zwischen unterschiedlichen Unternehmen statt. Soweit sind wir in der Schweiz und auch im restlichen Europa leider noch nicht.

Veröffentlicht unter Technologie Blog | Verschlagwortet mit , , , | Hinterlasse einen Kommentar

MeMo News bei der Hadoop World in New York

Update 16.11.2011: Ein Rückblick auf die Konferenz aus der Sicht unserer Entwickler findet sich in unserem neuen Technologie-Blog.

Nächste Woche werden Christian Guegi und Jiayong Ou aus unserem Entwicklerteam die Hadoop World Conference in New York besuchen, um sich über die neuesten Enwicklungen im Bereich skalierbarer Software fortzubilden. Auch wollen wir Einblick in die Organisation einer solchen Konferenz gewinnen, um möglicherweise selbst eine Community zum Thema Big Data in unser Region am Bodensee aufzubauen.

Die Hadoop World Conference ist die grösste Konferenz für Entwickler und Entscheider zu Hadoop, der Open-Source-Software zur Speicherung und Verarbeitung grösster Datenmengen. Sie findet vom 8. bis 9. November im Sheraton in New York statt. Sprecher verschiedenster Firmen, wie Dough Cutting von Cloudera, Hugh Williams von eBay oder Jonathan Gray von Facebook werden Ihre Erfahrungen teilen. Darüber hinaus wird es genügend Möglichkeiten zum kreativen Netzwerken geben.

Die Konferenz kann live über den Hashtag #HW2011 bei Twitter verfolgt werden. Auch in unseren Kanälen bei Facebook und Twitter werden wir regelmässig berichten.

Veröffentlicht unter MeMo News Media Monitoring und Analytics Blog | Hinterlasse einen Kommentar