Depuis la mise-à-jour du système de fichier /lustre2 de la version 2.1.6 à 2.5.3 en mars 2016, un bogue a silencieusement et graduellement introduit des inconsistances dans l’ordre des fichiers dans les structures des répertoires: le répertoire parent « .. », qui doit toujours être la deuxième entrée dans une structure de répertoires, se retrouvait à une autre position lors de certaines séquences de déplacement de données. Ce problème est passé inaperçu et n’avait pas d’impact, puisque les clients Lustre réussissaient tout de même à localiser toutes les entrées.

Jeudi le 19 janvier, une opération sur un fichier corrompu a forcé une réparation bas niveau de tout le système de fichiers. Cette réparation étant plus stricte, toutes les inconsistances ont été corrigées, retirant ainsi tous les fichiers/répertoires fautifs qui étaient en deuxième position dans la structure des répertoires.

Étant donné que le système de fichiers /lustre2 contient plus de 125 millions de fichiers, l’analyse, la correction et la manipulation des données sur celui-ci n’est pas simple. Les opérations ont nécessité plusieurs balayages en profondeur du système de fichiers et l’implantation d’un système de test afin de valider la solution au problème avant de l’appliquer sur le système de fichiers réel.

Un petit nombre de fichiers (282 fichiers et 63 répertoires sur 126 millions) n’ont pu être replacés à leur endroit d’origine. Leur contenu a été préservé. Nous avons identifié les usagers touchés (23 usagers sur 1861) et les contacterons pour leur indiquer comment récupérer ces fichiers.

Nous procédons à un dernier balayage du système de fichiers. Nos noeuds interactifs et de transferts sont de nouveau en ligne. La soumission des tâches est possible. L’exécution de nouvelles tâches devrait reprendre progressivement demain.