Rechercher
Contactez-nous Suivez-nous sur Twitter En francais English Language
 

Abonnez-vous gratuitement à notre NEWSLETTER

Newsletter FR

Newsletter EN

Vulnérabilités

Se désabonner

SGI annonce un record de performances Hadoop avec sa gamme de serveurs « Rackable »

octobre 2011 par Marc Jacob

SGI annonce un nouveau record de performances sur le benchmark Terasort. Il a été établi en utilisant la suite Apache Hadoop de la distribution Cloudera (CDH).

SGI a récemment conclu un accord de partenariat technologique et commercial avec Cloudera afin de proposer la distribution et les services associés pour les développements Hadoop.

Le record de performances a été réalisé sur un cluster SGI® Rackable™ C2005-TY6 de 20 noeuds utilisant des serveurs demi-profondeurs à base de processeurs Intel® Xeon® E5630 équipé de 48Go de mémoire et de 4 disques SATA de 1 To.

La taille du “job” de la suite Terasort était de 100Go. Le temps de traitement n’a été que de 130 secondes (81% plus rapide que son plus proche compétiteur).

Le benchmark Terasort teste le système de fichier HDFS* d’Hadoop ainsi que la partie programmation Map/Reduce**.

Le cluster SGI® Rackable™ C2005-TY6 a par ailleurs démontré une linéarité des résultats.

* HDFS est un système de fichiers distribué, ie. réparti, sur plusieurs machines physiques. Ce système de fichiers gère notamment le “fail-over” via la réplication des fichiers.

** MapReduce est un framework introduit par Google, dans lequel sont effectués des traitements parallèles, et souvent distribués, de données potentiellement très volumineuses (> 1 To). MapReduce s’articule en deux étapes :

 Dans l’étape Map le nœud à qui est soumis un problème, le découpe en sous-problèmes, et les délègue à d’autres nœuds (qui peuvent en faire de même récursivement). Les sous-problèmes sont ensuite traités par les différents nœuds à l’aide de la fonction Map qui à un couple (clé, valeur) associe un ensemble de nouveaux couples (clé, valeur)
 Vient ensuite l’étape Reduce, où les nœuds les plus bas font remonter leurs résultats au nœud parent qui les avait sollicités. Celui-ci calcule un résultat partiel à l’aide de la fonction Reduce (réduction) qui associe toutes les valeurs correspondant à la même clé à une unique paire (clé, valeur). Puis il remonte l’information à son tour.

À la fin du processus, le nœud d’origine peut recomposer une réponse au problème qui lui avait été soumis.


Voir les articles précédents

    

Voir les articles suivants