Содержание

XEN на DRBD с живой миграцией между узлами

Введение

XEN имеет встроенную возможность перемещать гостей DomU между несколькими узлами Dom0 без остановки их работы, что называется live migration. Понятное дело, для этого нужно, чтобы на всех узлах, между которыми перемещаются гости, были актульные копии их дисков. Тут может быть масса вариантом, например общая СХД, подключенная ко всем узлам(fiber, sas, iscsi и т.д.), либо дешeвый вариант с использование DRBD, что и будет рассмотрено в этой статье. В данном мануале все описывается на примере GNU/Debian 7.0 Wheezy, но ничего не мешает проделать все тоже самое на любом другом дистрибутиве Linux. По умолчанию подразумевается, что все действия выполняются на обоих узлах, если это не так, то указывается явно на каком узле надо это сделать.

Подготовка системы

Устанавливаем ядро XEN с утилитами, модуль DRBD и утилиты для управления сетевыми мостами:

# apt-get install xen-linux-system-amd64 xen-tools bridge-utils drbd8-utils

После установки у нас в загрузчике появится вариант загрузки XEN Dom0, на нужно сделать, чтобы он грузился по-умолчанию:

# mv /etc/grub.d/20_linux_xen /etc/grub.d/09_linux_xen
# update-grub

Перезагружаемя, теперь мы в Dom0, проверить это можно так:

 # xm list
 Name                                        ID   Mem VCPUs      State   Time(s)
 Domain-0                                     0  3996     2     r-----    578.7

Если команда выполнилась без ошибки - значит все нормально.

Дальше настроим сетевой мост. Предполагается, что гостевые системы будут работать в локальной сети, поэтому в сетевой мост включаем интерфейс, который смотрит в локальную сеть, в моем случае eth0. Правим конфиг /etc/network/interfaces

allow-hotplug eth0
iface eth0 inet manual
        pre-up   ifconfig $IFACE up
        pre-down ifconfig $IFACE down

auto br0
iface br0 inet static
        bridge_ports eth0
        address 192.168.1.1
        netmask 255.255.255.0

После перезагрузки у нас должен появится сетевой мост br0, в него будем подключать наших гостей, на нем же висит локальный адрес узла для взаимодействия внутри локальной сети.

Настройка DRBD

В Debian модуль ядра уже есть, нужно сделать, чтобы модуль грузился автоматически, также при использовании DRBD совместно с ядром XEN рекомендуется использовать опцию disable_sendpage. Создаем drbd.conf в каталоге /etc/modprobe.d с таким содержимым:

options drbd disable_sendpage=1
disable_sendpage параметр доступен начиная с версии 8.3.2

После перезагрузки модуль должен быть загружен:

# lsmod | grep drbd
drbd                  313707  5

Теперь нужно выделить любое блочное устройство(диск, raid-массив, lvm volume) для виртуальной машины. В моем случае это будет lvm volume /dev/virtuals/Wheezy

Редактируем /etc/drbd.conf, это основной конфигурационный файл, но удобнее его разбить на несколько секций, что и делаем:

include "/etc/drbd.d/global_common.conf";
include "/etc/drbd.d/*.res";

Редактируем общие параметры для всех ресурсов(эти параметры потом можно переопределить для каждого ресурса индивидуально), файл /etc/drbd.d/global_common.conf (почти все по-умолчанию, пока что рассматриваем простейшую конфигурацию, без автоматического Split Brain recovery):

global {
        # Запрещаем посылать через интернет разработчикам информацию о версии DRBD (для статистики)  
        usage-count no;

        # minor-count dialog-refresh disable-ip-verification
}

common {
        # Синхронный протокол синхронизации
        protocol C;

        handlers {
                # The following 3 handlers were disabled due to #576511.
                # Please check the DRBD manual and enable them, if they make sense in your setup.
                # pri-on-incon-degr "/usr/lib/drbd/notify-pri-on-incon-degr.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f";
                # pri-lost-after-sb "/usr/lib/drbd/notify-pri-lost-after-sb.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f";
                # local-io-error "/usr/lib/drbd/notify-io-error.sh; /usr/lib/drbd/notify-emergency-shutdown.sh; echo o > /proc/sysrq-trigger ; halt -f";

                # fence-peer "/usr/lib/drbd/crm-fence-peer.sh";
                # split-brain "/usr/lib/drbd/notify-split-brain.sh root";
                # out-of-sync "/usr/lib/drbd/notify-out-of-sync.sh root";
                # before-resync-target "/usr/lib/drbd/snapshot-resync-target-lvm.sh -p 15 -- -c 16k";
                # after-resync-target /usr/lib/drbd/unsnapshot-resync-target-lvm.sh;
        }

        startup {
                # wfc-timeout degr-wfc-timeout outdated-wfc-timeout wait-after-sb
        }

        options {
                # cpu-mask on-no-data-accessible
        }
  
        net {
                # sndbuf-size rcvbuf-size timeout connect-int ping-int ping-timeout max-buffers
                # max-epoch-size ko-count allow-two-primaries cram-hmac-alg shared-secret
                # after-sb-0pri after-sb-1pri after-sb-2pri data-integrity-alg no-tcp-cork
        }

        syncer {
                # rate after al-extents use-rle cpu-mask verify-alg csums-alg

                # Максимальная скорость синхронизации(МБ/сек)
                rate 100M;
        }

}

Теперь создаем конфигурационный файл ресурса /etc/drbd.d/Wheezy.res:

# Имя ресурса
resource Wheezy {

  syncer {
    # Алгоритм проверки целостности данных
    verify-alg md5;
  }

  net {
    # Разрешаем обоим узлам быть мастерами одновременно
    allow-two-primaries;
  }

  # DRBD-устройство
  device    /dev/drbd1;
  
  # Путь к блочному устройству, которое будем синхронизировать
  disk      /dev/virtuals/Wheezy;
  
  # Метаданные будем хранить на самом устройстве
  meta-disk internal;

  #  Далее указываем адреса и порты обоих узлов
  on node1 {
    address   192.168.1.1:7900;
  }

  on node2 {
    address   192.168.1.2:7900;
  }
}

Этот конфиг полностью одинаковый для обоих узлов.

Режим dual-primary нам нужен для живой миграции, т.к. перед началом миграции XEN проверяет доступно ли устройство на запись, на которое сейчас будет выполнена миграция. Таким образом ресурс будет в режиме мастер на обоих узлах в течении короткого промежутка времени, пока осуществляется миграция, в обычном режиме, мастером будет только тот узел, на котором запущен гость.

Инициализируем ресурс:

# drbdadm create-md Wheezy
Writing meta data...
initializing activity log
NOT initializing bitmap
New drbd meta data block successfully created.

Запускаем ресурс:

# drbdadm up Wheezy

Смотрим его состояние(на любом узле):

# cat /proc/drbd
version: 8.3.11 (api:88/proto:86-96)
srcversion: 41C52C8CD882E47FB5AF767

 1: cs:Connected ro:Secondary/Secondary ds:Inconsistent/Inconsistent C r-----
    ns:0 nr:0 dw:0 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:5242684
    

Сейчас он на обоих ресурсах в состоянии Secondary и данные имеют статус Inconsistent, т.к. синхронизации еще не было, самое время ее выполнить. На узле, который будет на текущий момент мастером выполняем:

# drbdadm -- --overwrite-data-of-peer primary Wheezy

Эта команда переведет узел, на котором была выполнена, в режим мастер и начнет синхронизировать данные со слейвом. В зависимости от скорости каналов связи, скорости дисковой подсистемы и размеров ресурса, это может занять некоторое время. Наблюдать за процессом можно также:

# cat /proc/drbd
version: 8.3.11 (api:88/proto:86-96)
srcversion: 41C52C8CD882E47FB5AF767

 1: cs:SyncSource ro:Primary/Secondary ds:UpToDate/Inconsistent C r-----
    ns:412672 nr:0 dw:0 dr:417432 al:0 bm:24 lo:3 pe:1 ua:5 ap:0 ep:1 wo:b oos:4831036
        [>...................] sync'ed:  7.9% (4716/5116)M
        finish: 0:01:10 speed: 68,608 (68,608) K/sec

По окончании синхронизации ресурс должен получить следующий статус:

cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate C r-----
Можно обойтись без синхронизации, если диски пустые или имеют одинаковый набор данных:
# drbdadm -- --clear-bitmap new-current-uuid Wheezy

После выполнения этой команды ресурс на обоих узлах сразу перейдет в состояние UpToDate без синхронизации.

Настройка XEN

К текущему моменту у нас один узел работает в режиме мастера, если мы не перезагружали систему. Если же была перезагрузка, то оба узла работают в режиме слейв, тогда любой из них нужно перевести в режим мастер, для первоначальной установки DomU. Делается это командой:

# drbdadm primary Wheezy

Теперь устанавливаем гостевую систему с помощью утилит XEN методом debootstrap(для простоты устанавливаем без swap-раздела, а в реальной жизне нужно указать доп. параметр, указывающий на устройство, которое будет использовано в качестве swap-диска):

# xen-create-image --hostname=Wheezy --memory=512mb --vcpus=1 --dhcp --pygrub --dist=wheezy --mirror=http://mirror.yandex.ru/debian/ --fs=ext4 --image-dev=/dev/drbd1 --noswap --output=/etc/xen/virtuals

После выполнения команды, мы должны увидеть нечто подобное:

WARNING
-------

  You appear to have a missing vif-script, or network-script, in the
 Xen configuration file /etc/xen/xend-config.sxp.

  Please fix this and restart Xend, or your guests will not be able
 to use any networking!


General Information
--------------------
Hostname       :  Wheezy
Distribution   :  wheezy
Mirror         :  http://mirror.yandex.ru/debian/
Root Device    :  /dev/drbd1
Partitions     :  Image type     :  full
Memory size    :  512mb
Kernel path    :  /boot/vmlinuz-3.2.0-4-amd64
Initrd path    :  /boot/initrd.img-3.2.0-4-amd64

Networking Information
----------------------
IP Address     : DHCP [MAC: 00:16:3E:8A:B6:15]


Creating ext4 filesystem on /dev/drbd1
Done
Installation method: debootstrap
Done

Running hooks
Done

No role scripts were specified.  Skipping

Creating Xen configuration file
Done

No role scripts were specified.  Skipping
All done


Logfile produced at:
         /var/log/xen-tools/Wheezy.log

Installation Summary
---------------------
Hostname        :  Wheezy
Distribution    :  wheezy
IP-Address(es)  :  dynamic
RSA Fingerprint :  e6:e6:77:3c:1f:b2:a0:d8:d9:15:db:b7:a7:1a:32:9a
Root Password   :  _тут_будет_пароль_root_

Смотрим что нам за конфиг нагенерили:

bootloader = '/usr/lib/xen-4.1/bin/pygrub'

vcpus       = '1'
memory      = '512'

root        = '/dev/xvda2 ro'
disk        = [ 'phy:/dev/drbd1,xvda2,w', ]

name        = 'Wheezy'

dhcp        = 'dhcp'
vif         = [ 'mac=00:16:3E:8A:B6:15' ]

on_poweroff = 'destroy'
on_reboot   = 'restart'
on_crash    = 'restart'

Пробуем запустить для проверки работоспособности(с подключением к консоле)

# xm create -c /etc/xen/virtuals/Wheezy

Если все получилось, виртуальная машина должна запуститься и мы увидим ее консоль. Логинимся и завершаем работу виртуалки. (Отключиться от консоли Ctrl + ]).

Итак, виртуалка работает, переводим на обоих узлах drbd-ресурс виртуалки в режим secondary. Теперь в конфиге виртуалки нужно поправить параметры жесткого диска, заменить тип phy(физическое устройство) на drbd, также вместо указания пути к блочному устройству, нужно указать имя drbd-ресурса(Wheezy):

disk        = [ 'drbd:Wheezy,xvda2,w', ]

Что такое drbd-тип устройства в XEN? В каталоге /etc/xen/scripts есть различные скрипты виртуальных устройств, в том числе block-drbd. С помощью этого скрипта, drbd-ресурс узла, на котором выполняется запуск виртуальной машины, переходит в режим primary автоматически и обратно в secondary, когда виртуальная машина прекращает выполнение. Кроме этого, скрипт сам передает виртуальной машине информацию о пути к блочному устройству. Понятное дело, подобных устройств в конфигурации виртуалки может быть больше, чем одно.

Теперь пробуем снова запустить виртуалку, если все прошло корректно, мы должны увидеть ее в списке запущенных гостей:

# xm list
Name                                        ID   Mem VCPUs      State   Time(s)
Domain-0                                     0  1383     2     r-----    772.7
Wheezy                                       1   512     1     -b----     14.1

А drbd-устройство на этом узле должно быть в режиме primary(хотя если это было бы не так, то виртуалка не запустилась)

# cat /proc/drbd
version: 8.3.11 (api:88/proto:86-96)
srcversion: 41C52C8CD882E47FB5AF767

 1: cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate C r-----
    ns:328 nr:0 dw:328 dr:664 al:6 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0

Ну и самое интересное, то, ради чего, все это городили. Живая миграция без остановки работы виртуалки ни на секунду. Правим на обоих узлах конфиг /etc/xen/xend-config.sxp

# Разрешаем живую миграцию
(xend-relocation-server yes)

# Разрешаем живую миграцию для любой виртуалки(можно указать список, кому можно)
(xend-relocation-hosts-allow '')

Перезапускаем XEN

# /etc/init.d/xen restart

Посе перезапуска оба узла должны слушать порт 8002.

Сама миграция выполняется очень просто, одной командой:

# xm migrate --live Wheezy 192.168.1.2

Если все работает корректно, то через некоторое время(от нескольких секунд до нескольких минут) виртуальная машина переедет на второй узел и продолжит выполнятся там, также на втором узле drbd-ресурс перейдет в режим primary, на первом узле в secondary.

Аппаратная виртуализация

Если используется полностью аппаратная виртуализация, например для запуска windows-систем, то тут есть одна особенность: не поддерживается использование в качестве типа устройств drbd. Т.е. в конфигурации виртуальной машины нужно указывать путь к блончному устройству(например /dev/drbd2). Соответственно никакой скрипт нам теперь не поможет перевести drbd-ресурс в primary режим. Соотвественно в случае аппаратной виртуализации для поддержки живой миграции нужно на обоих узлах держать drbd-ресурс в режиме primary всегда. В остальном все работает точно также, как описано выше.

Пример виртуальной машины для запуска Windows 2012 Server (или любой другой системы с аппаратной виртуализацией):

kernel = "/usr/lib/xen-4.1/boot/hvmloader"
builder='hvm'
memory = 2048
name = "Win2012"
vcpus=1
acpi=1
apic=1
device_model = '/usr/lib/xen-4.1/bin/qemu-dm'

vif = [ 'type=ioemu, bridge=br0' ]
disk = [ 'phy:/dev/drbd2,ioemu:hda,w', 'file:/home/WindowsServer2012_RU_STD_TRIAL.ISO,hdc:cdrom,r']

# boot on floppy (a), hard disk (c) or CD-ROM (d)
boot="c"

usbdevice='tablet'

vnc=1
vncunused=0
vnclisten = '127.0.0.1'
vncdisplay=0
vncconsole=0
vncpasswd=''

sdl=0
vncviewer=0

stdvga=0
serial='pty'
ne2000 = "0"

on_poweroff = 'destroy'
on_reboot = 'restart'
on_crash = 'restart'