Ovion
Tach auch!
Wir sind hier auf ein interessantes Problem gestoßen, zu dem ich gerne mal Meinungen einholen würde. Dabei geht es mehr um ein qualitatives Verstehen, was passiert, da die technische Reparatur ohnehin jemandes anderen Job ist.
Die Situation
Fünf Computer mit LAN-Kabeln an einen Switch gestöpselt, vom Switch aus geht's ins "große Netzwerk". Die Homedirs der Rechner liegen irgendwo auf 'nem Server im großen Netzwerk und werden als NFS gemounted, Logins laufen über einen Kerberos-Server. Alles andere ist lokal.
Auf den Maschinen läuft Debian Testing + Gnome 3 (deswegen Cafe), allerdings glaube ich, dass das für das Problem an sich nur bedingt relevant ist (deswegen frage ich hier).
Was geschah
Plötzlich fror einer der Rechner komplett ein, möglicherweise (so unsere Vermutung) aufgrund eines Netzwerk-Disconnect => kein Homedir mehr => keine Configfiles des Users mehr => X friert ein.
So weit, so unspannend. Jetzt wird's (wie ich finde) interessant:
Sekunden bis Minuten danach froren aber auch alle anderen Computer in diesem Raum ein, vermutlich aufgrund verlorener Verbindung zu den homedirs der Nutzer.
Das ganze passierte allerdings nur bei den Computern, die zusammen an besagtem Switch hängen, andere Computer waren nicht betroffen.
Man könnte nun von einem abgestürzten switch ausgehen, ein Reboot des Switches half allerdings nicht. Ein Ziehen des LAN-Kabels des zuerst eingefrorenen Computers brachte allerdings alle anderen Computer wieder auf den Damm, als wäre nichts gewesen (außer besagten einen Computer natürlich). Diesen Computer mit 'nem Hard Reset neugestartet, wieder ins Netzwerk eingesteckt und voila, alle anderen Computer wieder in der Eiszeit, und besagter Computer auch.
Ein erneutes rebooten und repluggen besagten Computers löste das Problem, alles war super (es konnte sich niemand einloggen, aber wir vermuten, dass das an irgendwelchen lock-files liegt, die durch den hard reset nicht sauber aufgeräumt wurden, ssh ging nämlich).
Hat jemand eine Idee, was da los war? Man könnte den Switch vermuten, aber da sich das Problem durch ausstöpseln eines Rechners lösen ließ, vielleicht auch wieder nicht. Auf der anderen Seite fiel uns hier kein Weg ein, wie ein einzelner Rechner ein komplettes Subnetz killen kann.
Dasselbe scheint früher schon einmal passiert zu sein, allerdings mit einem gänzlich anderen Computer (was wieder die Schuld beim Switch implizieren könnte).
Das Problem ist leider nicht reproduzierbar, es läuft ohne Komponententausch alles brav. Erstmaliges Auftreten war, als ein Wechseldatenträger ausgeworfen werden solle und der sagte, es sei noch eine Datei offen, bevor diese Datei geschlossen werden konnte, war der Rechner frozen. Vermutlich nur ein Zufall, dass beides zusammen auftrat, ich sehe zumindest keinen Zusammenhang.
Falls also jemand seine Gedanken zu dem Thema äußern möchte, feel free to do so! Gerne auch Ideen, was passiert sein könnte, ich weiß, die Informationslage ist dünn, aber mich würde einfach mal interessieren, wie so ein Szenario zustande kommen kann, wie gesagt, fixing macht ohnehin jemand anderes (wobei das afaik auf durchtauschen, bis das Problem verschwindet hinausläuft, weil die auch nicht mehr wissen als wir).
Ich werfe mal Deadlock im Switch in den Raum, warum auch immer. Ergibt das Sinn?
Ovion
Das ist in der Tat eine interessante Idee, die zur Symptomatik passt. Quasi verstopfter Router. Bleibt die Frage, woher das Netzwerkaufkommen kam, der Rechner hat außer einen Stick zu umounten hauptsächlich nichts zu tun gehabt. Vielleicht ein Bug in irgendwas Netzwerkrelevantem.
(Und sorry für die späte Reaktion, hab's etwas verpennt ^^')
sanni
Ich trage mal etwas Unqualifiziertes bei:
Ich teile mir hier Telefon und Internet über WLan mit Nachbarn.
Unser 'SysAdmin' hat mir verraten, dass mein Rechner, wenn ich denn im Internet bin, nicht gesehen werden kann -- warum auch immer, das konnte er mir nicht sagen.
Habt ihr vielleicht auch sowas? (Du hast zwar nichts über WLan gesagt . . .)
Ovion
Smon schrieb@Ovion: Beschreibe mal das Einfrieren ein bisschen genauer bitte. Konnte man das Terminal noch wechseln <Strg+Alt+F[Zahl]>. Konnte man die Maus noch bewegen?
Gar nix ging mehr, ich weiß grad nicht, ob reguläres Runterfahren auf Powerknopf noch funktioniert hat, aber ich meine nicht.
Dirk schriebOvion schriebBleibt die Frage, woher das Netzwerkaufkommen kam, der Rechner hat außer einen Stick zu umounten hauptsächlich nichts zu tun gehabt.
Versuch mal, das an anderen Rechnern zu reproduzieren, vielleicht schaufelt Gnome aus irgendwelchen Gründen erst den gesamten Cache übers Netz ins Homeverzeichnis, und dann zurück auf den Stick, wenn beim unmounten ge-sync-t wird.
Das klingt nach einer vielversprechenden Idee. Kann ich zwar grad leider nicht machen, weil gewisse Leute mich dann vermutlich umbringen würden, wenn ich mutwillig die Computer lahmlege, aber ich werde mal schauen, ob ich's in einer ruhigen Minute mal ausprobieren kann.
Die Frage wäre, warum das nach dem ersten Reboot weitergegangen ist. Stick war noch eingesteckt, könnte Gnome sich das gemerkt und weitergesynct haben? Beim zweiten forced-Reboot war der Stick ebenfalls noch eingesteckt.
Ovion
Der aktuell verantwortliche ist ein neueres Lenovo ThinkCentre (wenn das als Info reicht?), bei dem, der irgendwann früher mal für sowas verantwortlich gewesen sei, weiß ich's grad nicht.