SGI annonce un record de performances Hadoop avec sa gamme de serveurs « Rackable »
octobre 2011 par Marc Jacob
SGI annonce un nouveau record de performances sur le benchmark Terasort. Il a été établi en utilisant la suite Apache Hadoop de la distribution Cloudera (CDH).
SGI a récemment conclu un accord de partenariat technologique et commercial avec Cloudera afin de proposer la distribution et les services associés pour les développements Hadoop.
Le record de performances a été réalisé sur un cluster SGI® Rackable™ C2005-TY6 de 20 noeuds utilisant des serveurs demi-profondeurs à base de processeurs Intel® Xeon® E5630 équipé de 48Go de mémoire et de 4 disques SATA de 1 To.
La taille du “job” de la suite Terasort était de 100Go. Le temps de traitement n’a été que de 130 secondes (81% plus rapide que son plus proche compétiteur).
Le benchmark Terasort teste le système de fichier HDFS* d’Hadoop ainsi que la partie programmation Map/Reduce**.
Le cluster SGI® Rackable™ C2005-TY6 a par ailleurs démontré une linéarité des résultats.
* HDFS est un système de fichiers distribué, ie. réparti, sur plusieurs machines physiques. Ce système de fichiers gère notamment le “fail-over” via la réplication des fichiers.
** MapReduce est un framework introduit par Google, dans lequel sont effectués des traitements parallèles, et souvent distribués, de données potentiellement très volumineuses (> 1 To). MapReduce s’articule en deux étapes :
– Dans l’étape Map le nœud à qui est soumis un problème, le découpe en sous-problèmes, et les délègue à d’autres nœuds (qui peuvent en faire de même récursivement). Les sous-problèmes sont ensuite traités par les différents nœuds à l’aide de la fonction Map qui à un couple (clé, valeur) associe un ensemble de nouveaux couples (clé, valeur)
– Vient ensuite l’étape Reduce, où les nœuds les plus bas font remonter leurs résultats au nœud parent qui les avait sollicités. Celui-ci calcule un résultat partiel à l’aide de la fonction Reduce (réduction) qui associe toutes les valeurs correspondant à la même clé à une unique paire (clé, valeur). Puis il remonte l’information à son tour.
À la fin du processus, le nœud d’origine peut recomposer une réponse au problème qui lui avait été soumis.