[Comm] Непонятное поведение p9

Yuri Khachaturyan yukh на yukh.ru
Чт Ноя 21 11:09:21 MSK 2019


ср, 20 нояб. 2019 г. в 23:44, Павел Исопенко <master на pauli.ru>:

>
>
> 20.11.2019 22:07, Yuri Khachaturyan пишет:
> > В продолжение этой темы.
> > Заменил диски на новые и 100% рабочие (тестировал каждый диск перед
> > установкой посекторно).
>
> Это правильно.
>
> > Сервер проработал 1.5 суток и опять та же история - просто отвалился
> > /dev/sda и система не дает ни залогиниться локально, ни
> > естесственно удаленно.
>
> Все признаки указывают на аппаратную неисправность. Ни p9, ни p8 и
> никакая другая p* так себя не вели. Никогда. Я бы начал с замены блока
> питания. Далее всё - компонент за компонентом. А лучше сервер целиком,
> так продуктивнее. Старый разобрать на запчасти. Даже если дело в
> драйвере и старый сервер исправен, мы ничего не теряем, комплект ЗИП
> лишним не будет.
>
Аппаратную неисправность чего? БП? Или все таки контроллер? Вариант с
заменой сервера не подходит ввиду того, что сервер - мой личный, не
корпоративный и я не готов вкладывать в него на сегодняшний день серьезные
деньги.


>
> > Есть мысль в неисправности контроллера (Intel ServerRAID 8K) или же
> > все-таки проблема в драйвере aacraid? Как это можно диагностировать?
>
> Подменой контроллера на заведомо исправный. Такой найдётся?
>

Увы, надо покупать. Цена вопроса 8-9 тыс руб, что вполне терпимо, знать бы
что проблема в нем.



> >
> > В логах ни слова о проблеме нет.
>
> Когда подсистема хранения останавливается внезапно, куда писать лог?
>

Логично. Выше уже ответил, что хочу систему отделить от данных на отдельный
SSD диск. Осталось узнать, есть ли на материнской плате SATA порты
свободные.


>
> > 1. продуть разъемы SATA от пыли сжатым воздухом.
>
> Не стоит усилий. Просто остановить на несколько минут сервер и
> вынуть-вставить разъёмы. Любая пыль неизбежно будет сдвинута с пятна
> контакта. Кстати, а откуда в серверной вообще пыль? Что с фильтрами и
> вообще с климат-контролем? А как насчёт наддува корпуса, что с
> терморежимом и схемой теплопереноса, всё ли исправно?
>

Вынимать диски пробовал, сам сервер не вскрывал и контроллер не трогал.
С температурой и фильтрами в серверной WestCall все в порядке. Пыль могла
появиться до того, как этот сервер был установлен в этой серверной.



> > 2. попробовать собрать mdraid вместо аппаратного (а вдруг)
>
> Можно. Как-то расследовал похожий случай. Закончилось тем что RAID
> попросту развалился у меня в руках - конструктивный дефект, заложенный
> изготовителем восемь лет тому назад. Уже год сервер доживает с
> программным RAID5, и нет проблем.
>

В этом случае я бы все-же сделал отдельный диск под систему, а данные
соберу на аппаратном. Это в случае, если другие решения не сработают.


> > 3. заменить ОС на FreeBSD и посмотреть что будет.
>
> Уже известно. Ничего хорошего. Но попробовать можно. Опыт, как-никак.
>

Ну опыта работы с FreeBSD достаточно, тут не ради опыта ;)
Если гарантированно ничего хорошего, то нет смысла и время тратить.



> >
> > Ваше мнение?
>
> Новый сервер, старый на запчасти. И не жалеть. Хороший так себя не
> поведёт, а плохого не жалко.
>

Увы, но что имею, тем и приходится пользоваться. Цель - реанимировать
именно этот сервер.
Новые сервера буду запускать в строй только тогда, когда от них будет хоть
какая то прибыль.


-- 
С уважением,
Хачатурян Юрий (yukh на yukh.ru)
----------- следующая часть -----------
Вложение в формате HTML было удалено...
URL: <http://lists.altlinux.org/pipermail/community/attachments/20191121/8f139278/attachment.html>


Подробная информация о списке рассылки community