Hot Spindeln
Entschuldigen Sie die Abwesenheit sowohl in Präsenz und Beiträge. Es war eine Achterbahn vergangenen Jahr mit Verletzungen und flat-out Arbeitszeiten, so hatte ich wenig Zeit oder Motivation zu bloggen oder mein Gesicht zeigen rund um die Gemeinden. Ich entschuldige mich, und ich bin entschlossen, diese Gewohnheit zu brechen und sich wieder in die Dinge noch einmal! Aber genug von dem Geschwätz, bekommen auf mit den Schriften ...
Das ist nicht etwas, was ich sehe sehr oft, aber wenn ich das tue, ist es interessant zu sehen, die Statistiken sprechen für sich. Ich bin mit einem Kunden, der eine skriptbasierte Bereitstellung von NetApp ihren Nachlass hatte vor ein paar Jahren, und es wurde nicht entwickelt oder geliefert mit zu viel Pflege und Aufmerksamkeit (so etwas möchte ich noch einen Tag zu besprechen). Sie haben ein Grundstück mit VMware SQL, Exchange und andere Dinge. Alles läuft über insgesamt mehr als 100 15k FC Spindeln. Es ist nicht ein riesiges Anwesen im Vergleich mit anderen Standorten, also bin ich, warum sie solche Performance-Probleme fasziniert.
Wenn Sie jetzt durch "sysstat-u" ausführen, können Sie sehen, dass der Filer selbst tut sehr wenig, immer ganz glücklich mit dem, was sie tun sollten. Aber die Scheibe trifft zu 100% recht häufig. Unmittelbar dies zeigt eine Festplatte Problem. Sie brauchen mehr Spindeln, offensichtlich?
Erstens gibt es ein Ungleichgewicht von Spindeln. Sie haben ein zweites Aggregat auf dem Partner-Controller, die nur Test Bände. Ich bekomme die Erlaubnis, diese zu entfernen und heiß, ich neu zuweisen diese an die anderen Controller und erweitern das bestehende Aggregat. Dadurch verdoppelt sich die Anzahl der Spindel, aber ich weiß, es ist gar nichts für bestehende Leistung zu tun (in, dass die Daten nicht automatisch weitergeben selbst!).
Wenn ich durch ": *: Statistiken zeigen, Festplatte disk_busy" laufe ich sehe was, was ziemlich offensichtlich. Es gibt eine einzige Festplatte im gesamten System, das trifft zu 100% ist, der Rest nicht. Es gibt eine Reihe von anderen Scheiben (ca. 10), auf denen 50-60% sind, und dann die restlichen Scheiben tickt bei rund 20-30%. Also, was ist hier passiert? NetApp Technologie dürfte jegliche Form von heißem Spindel im System.
Meine Theorie ist dies. Der Filer wurde zerbrochen und aus der Box gestapelt, aber die Summe wurde nicht gewachsen (3 Scheibe Aggregat, 1-Daten, 2 Parität). Einige Speicher bereitgestellt wurde und Daten migriert. Sie rannten aus dem Raum, so wuchs die Summe (ein wenig), dann kopiert ein paar mehr Daten auf den Festplatten. Nach all dem, sie dann zugegeben, den Rest der Scheiben. Jetzt, da die Daten werden nicht automatisch im laufenden Betrieb neu zu verteilen, alle Daten, die unverändert bleibt (wie bei VM-System-Disketten, alte Exchange E-Mails und alt Data Warehousing Daten passieren), dann sind sie immer noch auf dem ursprünglichen Spindeln oder sogar saß Spindel als wenn sie zuerst installiert wurden.
Also ich bin nun gespannt auf das Wochenende. Wir werden ihnen Upgrade auf Data ONTAP 7.3.2 und ich kann dann führen zu einer Umverteilung scannt über das System ohne die Momentaufnahme Raumnutzung (riesiger Bonus, ich danke Ihnen NetApp!). Ich hoffe, dass dies das heiße Thema Spindel zu entfernen. Ich habe einige Statistiken vor, und ich werde ausziehen, nachdem einige Statistiken nächste Woche. Ich werde diesen Beitrag entsprechend aktualisieren.
Lektion aus der Geschichte? Richten Sie Ihre Storage-System vollständig und gründlich, bevor Sie werfen Daten auf ihn zu starten. Reg dich nicht über die Verwendung Ihres neuen Speicher-Spielzeug und werfen Daten über Sie es sofort. Ich habe das oben beschriebene Szenario bei verschiedenen Gelegenheiten jetzt gesehen, und vor ONTAP 7.3, es war ein Schmerz zu beheben.
Schnellen Überblick über die Statistik ausgegeben. Beachten Sie, dass in einem Cluster wird dies zeigen alle Datenträger, so sind alle Datenträger Statistik durchaus relevant. Die fleißigen Scheiben hier einfach nicht bis zu der tatsächlichen Anzahl der Festplatten im System, und Sie können deutlich sehen, die ein Datenträger beschäftigt.
based on 1 rating> Sysstat-u 1
CPU Total Netto kB / s Festplatten-kB / s Tape kB / s Cache Cache CP CP Festplatten
ops / s im Lesen und Schreiben aus Lese-Schreib-Hit Age Zeit ty util
11% 3220 6942 3270 4232 0 0 0 12 95% 0% - 60%
11% 2898 7385 4030 4892 0 0 0 11 94% 0% - 69%
9% 3547 1820 3496 3920 24 0 0 11 93% 0% - 89%
7% 2329 1160 3048 3892 0 0 0 11 93% 0% - 81%
10% 3173 2055 4851 4644 8 0 0 11 93% 0% - 67%
9% 2491 1860 4547 4568 24 0 0 11 91% 0% - 98%
9% 2523 2960 4404 5372 0 0 0 11 90% 0% - 89%
14% 5136 8173 4465 3352 0 0 0 11 95% 0% - 81%> Statistiken anzeigen Festplatte: *: disk_busy
Snip ... ...
Snip ... ...










































Ein weiterer wichtiger Punkt ist, dass man nicht hinzufügen nur eine einzige Festplatte, wenn Sie die aggregierte Größe ändern, wenn sie fast voll ist, die meisten der neuen Daten auf die Festplatte geschrieben wird hinzugefügt. Somit ist die Leistung wirklich schlecht!
Meine Empfehlung: Erstellen Sie einige große Aggregate anstelle von vielen Kleinen. Fügen Sie Festplatten auf dem Aggregat, wenn die Auslastung über 80% ist. Und ja, verwenden Performance Advisor und Schwellenwerte, um Ihre Leistung zu überwachen!
Dank Chris - einige wirklich gute Tipps gibt! Froh, dass du wieder schreiben
Cheers für die Rückmeldung, fühlt sich gut, um tatsächlich die Chance bekommen, etwas aufzuschreiben wieder!
Und ja, das Hinzufügen einzelner Scheiben ist eine schreckliche Sache zu tun. Ich kenne jemanden, der 1 Scheibe kauft im Monat, weil das ist, wie ihr Budget arbeitet. Ich hasse das, und versuchen, sie zu lagern und fügen Sie sie in der Masse zumindest. Funktioniert nicht mit ihrem Account Manager sie zu ermutigen, dies tun können nannte es Storage on Demand helfen!
Shocking!
Sie erwähnen, dass "führen zu einer Umverteilung Scans über das System ohne die Momentaufnahme Raum" als neues Feature mit 7.3.2. Vielleicht eine Idee für einen anderen Blog-Eintrag wäre, diese noch mehr zu erklären, und warum es wichtig ist. Ich verstehe (bisher), dass Umverteilung würde die ganze Arbeit in den Schnappschüssen werfen, aber ich bin keine Kenntnis von der Änderung in 7.3.2, die Sie erwähnen, dass Korrekturen / Änderungen dieser.
Hoffentlich werde ich durch diese ausgeführt werden, am Wochenende, also werde ich in der Lage sein, einige der realen Welt Beispiele dafür, wie das funktioniert geben.
Natürlich könnte man immer die neuen Slot Singleton-Laufwerke in einem Regal jeden Monat, sondern lassen sie im Leerlauf als Ersatzteile bis Sie eine vollständige neue RAID-Gruppe etwas zu bekommen ... nur nicht, sage ihnen, dass
@ Rick Rhodes
Die neue Umverteilung in 7.3.x ist körperliche Umverteilung (Umspeichern-p, siehe Manpage). Und selbst wenn Sie ein Aggregat zu erweitern mit einem ganzen Regal oder mehr, können Sie immer noch wollen, um eine physikalische Neuverteilung aller Volumes in dem Aggregat, auch wenn Sie nicht über heiße Scheiben zu tun. Auf diese Weise können Sie die Stripe-Daten über noch mehr Spindeln, so wird es nachgeben höher (Lese-) Leistung für vorhandene Daten als auch.
Tatsächlich ist die Manual-Seite sagt, dass "Umspeichern-p" darf nicht verwendet werden, um Daten über die Festplatten verteilt werden. Er empfiehlt dabei gegen jede Menge umzuschichten im Rahmen des erweiterten Aggregat.
Nicht sicher, was die tatsächlichen Auswirkungen der das ist, habe ich nicht ein System, um diese auf die massive Verbesserungen sehen würde versuchen.
Hallo zusammen,
Dies ist ein wunderbarer Beitrag
Nur eine kleine Frage
Festplatte: 88922F61: C2026AF9: E5D68A17: B49415B1: 00000000:00000000:00000000:00000000
Wie kann ich herausfinden, welche Summe diese Platte gehört?
Ich habe versucht, mit Disk-Storage-Show und Show Festplatte, aggr Status-r
Doch konnte keine finden
Regards,
Leider bin ich nicht 100% sicher. Es ist auf meiner "To-do-Liste" und ich habe noch herausfinden, wie man die lange Adressraum der "stats"-Befehl gibt Ihnen in etwas Brauchbares in Bezug auf die eigentliche Festplatte Adresse oder einen Ort zu übersetzen. Es tut uns leid dies hilft Ihnen nicht viel aus
KB ID: 1010747
https://kb.netapp.com/support/index?page=content&id=1010747
Das ist ausgezeichnet! Vielen Dank!
Ich bin neugierig, was es Anzeichen für die Notwendigkeit für den Betrieb "Umverteilen", neben einer Festplatte mit 99% beschäftigt?
Dank
Was genau sind für in Perf.monitor gesucht haben? Latenz, ops / sec?
Hallo Wladimir,
Laufen "Umverteilen" ist jetzt ziemlich guter Praxis auf einer Vielzahl von LUNs betrachtet. Alles, was einen großen Nutzen aus sequenzielle Lesevorgänge gewinnen wird ist ein guter Kandidat für eine regelmäßig und planmäßig in umverteilen, sondern auch viele verschiedene Arten von gemeinsamen LUNs wird sowieso profitieren.
Obwohl der NetApp Disk-Subsystem hat einen sehr guten Job der Platzierung von Daten in großen Blöcken und Streifen über die Festplatten, kann sie nur so viel zu tun, weil entweder ein System ist sehr beschäftigt, oder weil die Scheiben sehr voll sind. Das Ausführen eines Umspeichern danach ist Post-Prozess so kann es an der Zeit, um sicherzustellen, werden die Daten aus ist vollkommen gleichmäßig verlegt.
Ich bin vielleicht vorsichtiger laufen umzuschichten, wenn die Scheiben bereits 99% besetzt, wird Umspeichern eine größere Last auf sie auszuüben für einen bestimmten Zeitraum, wenn die Daten neu zugewiesen wird. Ich würde empfehlen, dies zu tun während einer Wartung Fenster, oder out-of-Stunden.