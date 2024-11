Starburst annonce une capacité d’ingestion de données en streaming de 100 Gb/seconde depuis Apache Kafka vers les tables Apache Iceberg

novembre 2024 par Marc Jacob

Starburst, la société derrière Trino, annonce une série de nouvelles fonctionnalités pour Galaxy, sa plateforme lakehouse SaaS hybride et ouverte, basée sur le projet open source Trino. Les nouvelles capacités annoncées permettent à la fois l’ingestion en streaming entièrement gérée depuis Apache Kafka vers des tables Apache Iceberg, l’ingestion automatique de fichiers depuis Amazon Web Services (AWS) S3 vers des tables Iceberg, ainsi que de nombreuses améliorations en matière de performance et d’optimisation du rapport performance/prix de la plateforme lakehouse.

Starburst Galaxy intègre l’ingestion en continu depuis Kafka, qui permet aux entreprises de configurer en quelques minutes des pipelines entièrement gérés pour transférer les données de Kafka vers Iceberg. Compatible avec des systèmes conformes à Kafka, tels que Confluent Cloud et Amazon MSK, cette solution assure un traitement fiable à un débit de 100 Gb par seconde, sans doublons ni pertes de données. Pour les utilisateurs d’Amazon S3, Starburst proposera également une ingestion automatisée de fichiers, qui optimise les performances de lecture grâce à des opérations automatiques de compaction et de gestion des snapshots, rendant les données disponibles pour les requêtes en une minute environ.

Starburst a également enrichi les capacités d’auto-scaling de Galaxy pour une gestion intelligente des ressources dans les environnements à forte concurrence d’utilisateurs, où les besoins en calcul fluctuent constamment. Désormais, Galaxy surveille les requêtes actives et en attente, ce qui permet une allocation de ressources 50 % plus rapide par requête. Le système peut également réactiver automatiquement les nœuds de calcul en fin de cycle pour optimiser l’efficacité.

La nouvelle génération de cache de Starburst Galaxy est conçue pour alléger les tâches de préparation de données souvent fastidieuses pour les data engineers, en améliorant la performance des requêtes jusqu’à 62 %. Basée sur la technologie Warp Speed, elle automatise une partie des processus et permet de gérer efficacement la montée en charge et la stabilité des requêtes pour les outils de BI et de dashboarding. Warp Speed utilise une indexation intelligente et une mise en cache avancée pour optimiser les résultats intermédiaires des charges de travail et identifier les motifs de sous-requêtes similaires.

La fonctionnalité de routage basé sur les rôles utilisateurs de Starburst Galaxy simplifie l’allocation des ressources selon le type de cluster. Les utilisateurs n’ont plus besoin de choisir le cluster adapté pour chaque requête et les administrateurs peuvent désormais affecter facilement des groupes en fonction des rôles et privilèges. Ce routage automatisé dirige les requêtes vers le cluster approprié selon des règles prédéfinies, le tout via une URL unique, limitant ainsi les interventions manuelles et optimisant l’efficacité des opérations.