Derniers journaux de herodiade :
- [13/05@13:22] Graves problèmes de sécurité dans x.org
Journal : Deux analyses précieuses sur la fiabilité et la longévité des disques durs
Posté par herodiade () le 21 février 2007Ces nouvelles études mettent à mal quelques idées reçues bien ancrées, par exemple :
* Les températures de fonctionnement auparavant considérées comme trop élevées (40 - 45°C) ne sont pas un facteur de panne déterminant.
* Les (très onéreux) disques SCSI et FC ne sont pas plus fiables que les disques SATA (bons marchés)
* La « mortalité infantile » (le fait que les disques tombent en panne durant les premiers mois) n'est pas un phénomène significatif.
* Les données remontées par S.M.A.R.T. permettent très rarement d'anticiper une panne prochaine.
* La probabilité pour que deux disques d'un même système / lot tombent en panne dans un laps de temps court (par exemple avant que l'array RAID soit reconstruite) est très importante.
* Le taux d'activité des disques n'affecte pas significativement leur longévité
Mais des secrets de polichinelle ont été confirmés :
* La fiabilité des disques varie selon les constructeurs (Google ne cite pas de noms)
* La fiabilité des disques (MTTF/MTBF) indiquées officiellement par les constructeurs (par ex. 1 000 000 heures) est très largement sur-évaluée.
Ainsi l'étude de Bianca Schroeder conduit à décrédibiliser le RAID5 dans son rôle d'agent critique pour la fiabilité du stockage, et à préconiser, en lieu et place du RAID5, et lorsque la fiabilité est cruciale, une double réplication des données. Google, dont l'infrastructure de stockage s'appuie sur le système de fichier distribué GFS et sur des disques SATA et PATA (plutôt que SCSI) semble confirmer par la pratique cette recommandation inédite.
Je saisi l'occasion pour faire une remarque militante. Nous savons maintenant qu'un jeux de replicats sur 3 disques durs SATA est plus fiable qu'un système RAID5 matériel en SCSI. Nous savions déjà que cette première option était bien meilleur marché. En outre, le contrôleur RAID physique est lui-même un point individuel de défaillance. Et surtout, les logiciels nécessaires (firmware (micro-code) de la carte, pilotes, outils de gestion à chaud (online management)) ajoutent leurs lots de bugs, d'autant plus critiques que les constructeurs se montrent réticent à rendre les spécifications et les listes de bugs des firmwares publiques. Ces informations faciliteraient l'écriture, l'amélioration, l'audit, et la maintenance des pilotes pour les OS libres (par exemple : connaître en détail les bugs des diverses versions des firmwares permettrait aux pilotes de les contourner) ; elles permettraient l'écriture d'outils libres de gestion à chaud du contrôleur RAID matériel (outils qui nous font généralement cruellement défaut (pensez à Adaptec, par exemple)). L'attractivité des contrôleurs RAID matériels en environnement serveur est donc fortement remise en cause (du moins lorsque la fiabilité prime sur les performances), mais les fabriquants de chipsets ont les cartes en main pour améliorer la situation pour l'ensemble des Unix libres (comme Linux, *BSD et OpenSolaris).
Notons que le 2007 Linux Storage & Filesystem Workshop s'est déroulé conjointement au FAST '07. Nous aurons certainement prochainement des informations sur les nouveaux enjeux et perspectives concernant l'évolution des systèmes de fichiers de Linux.
* FAST '07 : http://db.usenix.org/events/fast07/
* Failure Trends in a Large Disk Drive Population, Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz Andr´ Barroso (Google Inc.) : http://labs.google.com/papers/disk_failures.pdf
* Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?, Bianca Schroeder, Garth A. Gibson (Computer Science Department Carnegie Mellon University) : http://www.usenix.org/events/fast07/tech/schroeder/schroeder(...)
* Spécifications matérielles: Theo de Raadt appelle de nouveau au lobbying : http://linuxfr.org/2005/03/19/18549.html
* S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) : http://fr.wikipedia.org/wiki/Self-Monitoring%2C_Analysis_and(...)
* MTTF (Mean Time To Failure) et MTBF, (Mean Time Between Failures): http://fr.wikipedia.org/wiki/Moyenne_des_Temps_de_Bon_Foncti(...)
* RAID (Redundant Array of Inexpensive Disks) : http://fr.wikipedia.org/wiki/RAID_%28informatique%29
* SCSI (Small Computer System Interface) : http://fr.wikipedia.org/wiki/Small_Computer_System_Interface
* SATA (Serial ATA) : http://fr.wikipedia.org/wiki/Serial_ATA
* FC (Fibre Channel) : http://fr.wikipedia.org/wiki/Fibre_Channel
> Lire le journal (18 commentaires, moyenne: 3,4).
Par pitié...
En première page ! Ce journal est tellement intéressant, concerne tellement de monde (pour ne pas dire tous), si bien construit avec une orthographe impeccable.... J'espère que ce n'est pas un copier-coller !
Si je pouvais voter pour les articles du mois, celui-ci arriverait en bonne position.
R.I.P Chris Benoit, 1967-2007
-
[^]Re: Par pitié...
Posté par herodiade () le 21/02/2007 à 13:37. (lien). Évalué à 10.Ce n'est pas un copié-collé.
Je n'avais pas le temps de faire la dizaine de cycle relectures + retouches nécessaire à un article, donc un doute sur la qualité de la forme (justifié : je viens de m'apercevoir qu'il aurait fallut utiliser de vraies listes à puces au lieu des astérisques, certaines phrases sont maladroites, s/ont étés présentées/ont été présentées/ (ou mieux : furent), ...), donc journal. Safe mode ;)
Mais si un modérateur veut le vérifier et le déplacer, pas de problème.
Un lien oublié : GFS (Google File System) : http://fr.wikipedia.org/wiki/Google_File_System-
[^]Re: Par pitié...
Posté par herodiade () le 21/02/2007 à 13:50. (lien). Évalué à 4.... et aussi :
- s/des échantillon/des échantillons/
- s/array/grappe/
- s/indiquées officiellement/telle qu'indiquée officiellement/
- s/chipsets/circuits intégrés/
- s/ Failures): / Failures) : / (typo)-
[^]Re: Par pitié...
-
-
-
[^]Re: Par pitié...
Posté par Zenitram (page perso, ) le 21/02/2007 à 15:21. (lien). Évalué à 1.Non, pas une journal de première page.
Une dépêche plutôt.
Merci
Oui, merci pour ce journal vraiment très intéressant. J'aurais tendence a dire qu'un journal de cette qualité aurait pu faire l'objet d'une news mais j'aurais l'impression de me répeter :)
-
[^]Re: Merci
Posté par Pierre Tramonson () le 21/02/2007 à 13:31. (lien). Évalué à 5.Je vote pour la news aussi :p
A moins qu'il ne s'agisse déjà d'une news refusée ?-
[^]Re: Merci
Posté par baud123 (Jabber id, page perso, ) le 21/02/2007 à 13:40. (lien). Évalué à 3.A moins qu'il ne s'agisse déjà d'une news refusée ?
non.
elle est en train d'être mise en dépêche / wikipédifiée toussa
c'est le moment d'ajouter vos commentaires pertinents :)
-
Seagate
Dommage que le constructeur / modèle le plus fiable ne soit pas renseigné, mais cela se comprend plus ou moins...
Pensez-vous que les 5 ans de garantie de l'ensemble de la gamme de disques dur internes Seagate soit réellement un gage de qualité ?
Rien ne vaut une étude à grande échelle, mais avez-vous eu des problèmes avec ces HDDs ?
Apal, serial hdd killer.
-
[^]Re: Seagate
Posté par herodiade () le 21/02/2007 à 14:13. (lien). Évalué à 2.Un grand distributeur russe a publié ses statistiques de retours pour le premier semestre 2005.
Article en Russe : http://pro.sunrise.ru/articletext.asp?reg=30&id=283
Traduit à l'emporte pièce par Google : http://translate.google.com/translate?u=http%3A%2F%2Fpro.sun(...)
Segate s'en sort assez bien, tandis que les produits Maxtor semblent peu fiables.-
[^]Re: Seagate
Posté par rictus (page perso, ) le 21/02/2007 à 16:00. (lien). Évalué à 1.Mon expérience personnelle confirme largement ta dernière remarque...
Et je trouve les 7200.10 assez silencieux (et ceux pas seulement pendant 6 mois comme d'autres marques...)-
[^]Re: Seagate
Posté par Romuald Delavergne () le 22/02/2007 à 20:31. (lien). Évalué à 2.Je confirme aussi de mon côté. Les disques Seagate ne m'ont jamais déçus au niveau fiabilité. La seule raison qui a fait que je m'en suis séparé est qu'au bout de plus de 7 ans, leur taille devenait négligeable avec le dernier disque acheté (un Seagate bien sûr).
-
-
-
[^]Re: Seagate
Posté par regdub () le 23/02/2007 à 00:45. (lien). Évalué à 1.De temps en temps, une boutique donne ses taux de retour en SAV.
Les derniers chiffres sont de janvier 2006, malheureusement.
http://www.hardware.fr/html/news/?date=05-01-2006#7931
EB< ?
La « mortalité infantile » (le fait que les disques tombent en panne durant les premiers mois)
Et l'avortement de disque dur, c'est légal ?
[ Répondre ] Ce commentaire est-il impertinent ou utile ?
-
[^]Re: EB< ?
Posté par Guillaume Caron (Jabber id, page perso, ) le 22/02/2007 à 10:50. (lien). Évalué à 2.On ne dit plus un avortement, mais une interruption volontaire de grossesse, ceci afin de ménager l’amour-propre du f½tus.
(Desproges)--
Just believe - just keep passing the open windows...
GFS, OCFS2 et compagnie
Quelqu'un a des retours sur l'utilisation de ces systèmes de fichiers ?
OCFS2 semblait pas mal par sa facilité d'installation mais encore jeune tandis que GFS (de RedHat) semble etre plus contraignant à l'usage ...
...
Bah en même temps, ya pas grand chose de nouveau tout cours:
Les températures de fonctionnement auparavant considérées comme trop élevées (40 - 45°C) ne sont pas un facteur de panne déterminant.
L'électronique, ce n'est pas le corps humain, c'est un poil moins fragile. En réalité, comme un moteur, le plus important et que toutes les parties soient à une température uniforme, ce qui réduit les contraintes (différence de propriétés selon la température).
Les (très onéreux) disques SCSI et FC ne sont pas plus fiables que les disques SATA (bons marchés)
C'est vrai pour le SATA, pas pour l'IDE qui est quand même plus fragile en utilisation intensive.
La « mortalité infantile » (le fait que les disques tombent en panne durant les premiers mois) n'est pas un phénomène significatif.
Pas nouveau, à moins de faire le kéké (et hop, 5 disques SCSI 15k tours dans un boitier fermé non-ventilé), les disques durs sont des produits issus d'une industrie assez performante (contrôles réguliers du produit, toussa). Le syndrôme "mon <pièce d'ordinateur> crâme 2 semaines après achat, je n'ai vu ça que sur du matos de merde (ram noname).
La probabilité pour que deux disques d'un même système / lot tombent en panne dans un laps de temps court (par exemple avant que l'array RAID soit reconstruite) est très importante.
Deux disques de même marques ont globalement le même état à la sortie de l'usine; ils sont soumis à une usure identique, dans les mêmes conditions pendant toute leur utilisation, donc forcément, il y a des chances qu'ils arrivent en mauvais état plus ou moins en même temps.
Le taux d'activité des disques n'affecte pas significativement leur longévité
Encore une fois, normal. Peu de gens sont au courant que faire tourner un système mécanique évolué (valable pour un ventilateur, également) l'use moins que le lancer et le stopper régulièrement.
Un disque dur de qualité qui tourne H24 durera plus longtemps qu'un disque éteint le soir et rallumé le matin.
Une fois les pièces à température uniforme, ça tourne bien, plus de problèmes. Idem pour l'électronique, d'ailleurs.
Pour la différence de fiabilité selon le constructeur, c'est un faux problème. Tous les constructeurs ont des technologies équivalentes, et dans des gammes de même niveau, on a à peu près la même fiabilité. Mais forcément, ceux qui utilisent plus de seagate on plus de chance d'avoir plus de pannes que ceux qui utilisent plus de maxtor.
Enfin personnellement, et d'après mes connaissances, seagate tourne super bien, maxtor est daubesque en marché grand public, mais très costaud en matos haut de gamme, hitachi et western digital dépotent, samsung est excellent.
Le problème, c'est que dès fois, on tombe sur des séries foireuses, et hop, tout le monde en conclut que la marque pue.
Le RAID 5, d'après une connaissance bossant parmi de vrais servers vraiment importants, c'est pas terrible, et ils ont tendance à préférer le RAID 6, qui bouffent bien plus, mais est bien moins gênant en cas de panne.
Gros problème également, une vraie carte RAID avec suffisament de NVRAM coûte TRES cher (plus de 1000e), et en cas de panne, pas sur que la suivante arrive à reprendre les volumes, donc il en faut deux identiques.
Traduction, dans l'ensemble, les solutions de stockage actuelles sucks.
-
[^]Re: ...
Posté par regdub () le 23/02/2007 à 17:46. (lien). Évalué à 2.>Un disque dur de qualité qui tourne H24 durera plus longtemps qu'un disque éteint le soir et rallumé le matin.
J'aimerais bien voir une étude sur cette idée répandue.
Je n'ai rien vu de tel dans ces études.
> Pour la différence de fiabilité selon le constructeur, c'est un faux problème. Tous les constructeurs ont des technologies équivalentes, et dans des gammes de même niveau, on a à peu près la même fiabilité.
Tu arrives à savoir la fiabilité d'un disque d'après la technologie employée ?
Les journaux sont destinés à des informations qui ne sont pas suffisamment intéressantes
pour être validées en dépêche (sinon n'hésitez pas à proposer votre information en
dépêche), qui sont sans rapport avec Linux ou le libre, ou simplement pour donner votre
avis. Si vous désirez poser une question, merci d'utiliser 

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.
Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.