3-6 октября 2011 года в г. Новосибирск

Молдованова О.В.  

Децентрализованный алгоритм самодиагностики распределённых вычислительных систем

Распределённые вычислительные системы (ВС) являются важнейшим инструментом решения сложных научных, инженерных и экономических задач [1]. Такие системы характеризуются большемасштабностью – количество элементарных машин (ЭМ) в их составе может достигать 10^5 – 10^6. Организация отказоустойчивого функционирования распределённых ВС требует создания алгоритмических и программных средств самоконтроля и самодиагностики.
По структурной организации диагностические средства ВС делятся на два класса: централизованные и децентрализованные.
Централизация предполагает использование высоконадёжного управляющего узла распределённой ВС, собирающего диагностическую информацию и определяющего состояние системы на основании дешифрации синдрома. Опыт разработок [2-4] в области самодиагностики большемасштабных распределённых вычислительных систем показывает, что централизованный подход ведёт к снижению производительности ВС и нарушает важный принцип их построения: отказ одной ЭМ влечёт за собой отказ всей системы. Эти проблемы могут быть решены при децентрализации процесса диагностирования.
Методология децентрализованной самодиагностики была  сформулирована в работах [3, 4] и в дальнейшем развита другими авторами [2].
В докладе предлагается событийно-ориентированный децентрализованный алгоритм самодиагностики распределённых ВС, основными особенностями которого являются отсутствие ограничений на тестовую топологию системы и минимизация количества передаваемых сообщений в течение раунда тестирования. Также приводятся результаты моделирования разработанного алгоритма для различных топологий вычислительных систем.

Литература
1. Хорошевский В.Г. Архитектура вычислительных систем: Учеб. пособие для вузов. – М.: Изд-во МГТУ им. Н.Э. Баумана, 2008. – 520 с.
2. Евреинов Э.В., Хорошевский В.Г. Однородные вычислительные системы. – Новосибирск: Наука, 1978. – 319 с.
3. Kuhl J.G. Distributed fault-tolerance for large multiprocessor systems / J.G. Kuhl, S.M. Reddy. – Proc. 7th Annual Symp. Computer Architecture, May, 1980. – pp. 23–30.
4. Bartha T. Efficient system-level fault diagnosis of large multiprocessor systems: thesis for the degree of Doctor of Philosophy. – Budapest, 2000. – 157 p.

Тезисы доклада:abstracts_81699_ru.pdf
Файл с полным текстом: Moldovanova_YM_2011_report.pdf


К списку докладов

Комментарии

Имя:
Код подтверждения: