XEN имеет встроенную возможность перемещать гостей DomU между несколькими узлами Dom0 без остановки их работы, что называется live migration. Понятное дело, для этого нужно, чтобы на всех узлах, между которыми перемещаются гости, были актульные копии их дисков. Тут может быть масса вариантом, например общая СХД, подключенная ко всем узлам(fiber, sas, iscsi и т.д.), либо дешeвый вариант с использование DRBD, что и будет рассмотрено в этой статье. В данном мануале все описывается на примере GNU/Debian 7.0 Wheezy, но ничего не мешает проделать все тоже самое на любом другом дистрибутиве Linux. По умолчанию подразумевается, что все действия выполняются на обоих узлах, если это не так, то указывается явно на каком узле надо это сделать.
Устанавливаем ядро XEN с утилитами, модуль DRBD и утилиты для управления сетевыми мостами:
# apt-get install xen-linux-system-amd64 xen-tools bridge-utils drbd8-utils
После установки у нас в загрузчике появится вариант загрузки XEN Dom0, на нужно сделать, чтобы он грузился по-умолчанию:
# mv /etc/grub.d/20_linux_xen /etc/grub.d/09_linux_xen # update-grub
Перезагружаемя, теперь мы в Dom0, проверить это можно так:
# xm list Name ID Mem VCPUs State Time(s) Domain-0 0 3996 2 r----- 578.7
Если команда выполнилась без ошибки - значит все нормально.
Дальше настроим сетевой мост. Предполагается, что гостевые системы будут работать в локальной сети, поэтому в сетевой мост включаем интерфейс, который смотрит в локальную сеть, в моем случае eth0. Правим конфиг /etc/network/interfaces
allow-hotplug eth0 iface eth0 inet manual pre-up ifconfig $IFACE up pre-down ifconfig $IFACE down auto br0 iface br0 inet static bridge_ports eth0 address 192.168.1.1 netmask 255.255.255.0
После перезагрузки у нас должен появится сетевой мост br0, в него будем подключать наших гостей, на нем же висит локальный адрес узла для взаимодействия внутри локальной сети.
В Debian модуль ядра уже есть, нужно сделать, чтобы модуль грузился автоматически, также при использовании DRBD совместно с ядром XEN рекомендуется использовать опцию disable_sendpage. Создаем drbd.conf в каталоге /etc/modprobe.d с таким содержимым:
options drbd disable_sendpage=1
После перезагрузки модуль должен быть загружен:
# lsmod | grep drbd drbd 313707 5
Теперь нужно выделить любое блочное устройство(диск, raid-массив, lvm volume) для виртуальной машины. В моем случае это будет lvm volume /dev/virtuals/Wheezy
Редактируем /etc/drbd.conf, это основной конфигурационный файл, но удобнее его разбить на несколько секций, что и делаем:
include "/etc/drbd.d/global_common.conf"; include "/etc/drbd.d/*.res";
Редактируем общие параметры для всех ресурсов(эти параметры потом можно переопределить для каждого ресурса индивидуально), файл /etc/drbd.d/global_common.conf (почти все по-умолчанию, пока что рассматриваем простейшую конфигурацию, без автоматического Split Brain recovery):
global { # Запрещаем посылать через интернет разработчикам информацию о версии DRBD (для статистики) usage-count no; # minor-count dialog-refresh disable-ip-verification } common { # Синхронный протокол синхронизации protocol C; handlers { # The following 3 handlers were disabled due to #576511. # Please check the DRBD manual and enable them, if they make sense in your setup. # pri-on-incon-degr "/usr/lib/drbd/notify-pri-on-incon-degr.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f"; # pri-lost-after-sb "/usr/lib/drbd/notify-pri-lost-after-sb.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f"; # local-io-error "/usr/lib/drbd/notify-io-error.sh; /usr/lib/drbd/notify-emergency-shutdown.sh; echo o > /proc/sysrq-trigger ; halt -f"; # fence-peer "/usr/lib/drbd/crm-fence-peer.sh"; # split-brain "/usr/lib/drbd/notify-split-brain.sh root"; # out-of-sync "/usr/lib/drbd/notify-out-of-sync.sh root"; # before-resync-target "/usr/lib/drbd/snapshot-resync-target-lvm.sh -p 15 -- -c 16k"; # after-resync-target /usr/lib/drbd/unsnapshot-resync-target-lvm.sh; } startup { # wfc-timeout degr-wfc-timeout outdated-wfc-timeout wait-after-sb } options { # cpu-mask on-no-data-accessible } net { # sndbuf-size rcvbuf-size timeout connect-int ping-int ping-timeout max-buffers # max-epoch-size ko-count allow-two-primaries cram-hmac-alg shared-secret # after-sb-0pri after-sb-1pri after-sb-2pri data-integrity-alg no-tcp-cork } syncer { # rate after al-extents use-rle cpu-mask verify-alg csums-alg # Максимальная скорость синхронизации(МБ/сек) rate 100M; } }
Теперь создаем конфигурационный файл ресурса /etc/drbd.d/Wheezy.res:
# Имя ресурса resource Wheezy { syncer { # Алгоритм проверки целостности данных verify-alg md5; } net { # Разрешаем обоим узлам быть мастерами одновременно allow-two-primaries; } # DRBD-устройство device /dev/drbd1; # Путь к блочному устройству, которое будем синхронизировать disk /dev/virtuals/Wheezy; # Метаданные будем хранить на самом устройстве meta-disk internal; # Далее указываем адреса и порты обоих узлов on node1 { address 192.168.1.1:7900; } on node2 { address 192.168.1.2:7900; } }
Этот конфиг полностью одинаковый для обоих узлов.
Инициализируем ресурс:
# drbdadm create-md Wheezy Writing meta data... initializing activity log NOT initializing bitmap New drbd meta data block successfully created.
Запускаем ресурс:
# drbdadm up Wheezy
Смотрим его состояние(на любом узле):
# cat /proc/drbd version: 8.3.11 (api:88/proto:86-96) srcversion: 41C52C8CD882E47FB5AF767 1: cs:Connected ro:Secondary/Secondary ds:Inconsistent/Inconsistent C r----- ns:0 nr:0 dw:0 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:5242684
Сейчас он на обоих ресурсах в состоянии Secondary и данные имеют статус Inconsistent, т.к. синхронизации еще не было, самое время ее выполнить. На узле, который будет на текущий момент мастером выполняем:
# drbdadm -- --overwrite-data-of-peer primary Wheezy
Эта команда переведет узел, на котором была выполнена, в режим мастер и начнет синхронизировать данные со слейвом. В зависимости от скорости каналов связи, скорости дисковой подсистемы и размеров ресурса, это может занять некоторое время. Наблюдать за процессом можно также:
# cat /proc/drbd version: 8.3.11 (api:88/proto:86-96) srcversion: 41C52C8CD882E47FB5AF767 1: cs:SyncSource ro:Primary/Secondary ds:UpToDate/Inconsistent C r----- ns:412672 nr:0 dw:0 dr:417432 al:0 bm:24 lo:3 pe:1 ua:5 ap:0 ep:1 wo:b oos:4831036 [>...................] sync'ed: 7.9% (4716/5116)M finish: 0:01:10 speed: 68,608 (68,608) K/sec
По окончании синхронизации ресурс должен получить следующий статус:
cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate C r-----
# drbdadm -- --clear-bitmap new-current-uuid Wheezy
После выполнения этой команды ресурс на обоих узлах сразу перейдет в состояние UpToDate без синхронизации.
К текущему моменту у нас один узел работает в режиме мастера, если мы не перезагружали систему. Если же была перезагрузка, то оба узла работают в режиме слейв, тогда любой из них нужно перевести в режим мастер, для первоначальной установки DomU. Делается это командой:
# drbdadm primary Wheezy
Теперь устанавливаем гостевую систему с помощью утилит XEN методом debootstrap(для простоты устанавливаем без swap-раздела, а в реальной жизне нужно указать доп. параметр, указывающий на устройство, которое будет использовано в качестве swap-диска):
# xen-create-image --hostname=Wheezy --memory=512mb --vcpus=1 --dhcp --pygrub --dist=wheezy --mirror=http://mirror.yandex.ru/debian/ --fs=ext4 --image-dev=/dev/drbd1 --noswap --output=/etc/xen/virtuals
После выполнения команды, мы должны увидеть нечто подобное:
WARNING ------- You appear to have a missing vif-script, or network-script, in the Xen configuration file /etc/xen/xend-config.sxp. Please fix this and restart Xend, or your guests will not be able to use any networking! General Information -------------------- Hostname : Wheezy Distribution : wheezy Mirror : http://mirror.yandex.ru/debian/ Root Device : /dev/drbd1 Partitions : Image type : full Memory size : 512mb Kernel path : /boot/vmlinuz-3.2.0-4-amd64 Initrd path : /boot/initrd.img-3.2.0-4-amd64 Networking Information ---------------------- IP Address : DHCP [MAC: 00:16:3E:8A:B6:15] Creating ext4 filesystem on /dev/drbd1 Done Installation method: debootstrap Done Running hooks Done No role scripts were specified. Skipping Creating Xen configuration file Done No role scripts were specified. Skipping All done Logfile produced at: /var/log/xen-tools/Wheezy.log Installation Summary --------------------- Hostname : Wheezy Distribution : wheezy IP-Address(es) : dynamic RSA Fingerprint : e6:e6:77:3c:1f:b2:a0:d8:d9:15:db:b7:a7:1a:32:9a Root Password : _тут_будет_пароль_root_
Смотрим что нам за конфиг нагенерили:
bootloader = '/usr/lib/xen-4.1/bin/pygrub' vcpus = '1' memory = '512' root = '/dev/xvda2 ro' disk = [ 'phy:/dev/drbd1,xvda2,w', ] name = 'Wheezy' dhcp = 'dhcp' vif = [ 'mac=00:16:3E:8A:B6:15' ] on_poweroff = 'destroy' on_reboot = 'restart' on_crash = 'restart'
Пробуем запустить для проверки работоспособности(с подключением к консоле)
# xm create -c /etc/xen/virtuals/Wheezy
Если все получилось, виртуальная машина должна запуститься и мы увидим ее консоль. Логинимся и завершаем работу виртуалки. (Отключиться от консоли Ctrl + ]).
Итак, виртуалка работает, переводим на обоих узлах drbd-ресурс виртуалки в режим secondary. Теперь в конфиге виртуалки нужно поправить параметры жесткого диска, заменить тип phy(физическое устройство) на drbd, также вместо указания пути к блочному устройству, нужно указать имя drbd-ресурса(Wheezy):
disk = [ 'drbd:Wheezy,xvda2,w', ]
Что такое drbd-тип устройства в XEN? В каталоге /etc/xen/scripts есть различные скрипты виртуальных устройств, в том числе block-drbd. С помощью этого скрипта, drbd-ресурс узла, на котором выполняется запуск виртуальной машины, переходит в режим primary автоматически и обратно в secondary, когда виртуальная машина прекращает выполнение. Кроме этого, скрипт сам передает виртуальной машине информацию о пути к блочному устройству. Понятное дело, подобных устройств в конфигурации виртуалки может быть больше, чем одно.
Теперь пробуем снова запустить виртуалку, если все прошло корректно, мы должны увидеть ее в списке запущенных гостей:
# xm list Name ID Mem VCPUs State Time(s) Domain-0 0 1383 2 r----- 772.7 Wheezy 1 512 1 -b---- 14.1
А drbd-устройство на этом узле должно быть в режиме primary(хотя если это было бы не так, то виртуалка не запустилась)
# cat /proc/drbd version: 8.3.11 (api:88/proto:86-96) srcversion: 41C52C8CD882E47FB5AF767 1: cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate C r----- ns:328 nr:0 dw:328 dr:664 al:6 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0
Ну и самое интересное, то, ради чего, все это городили. Живая миграция без остановки работы виртуалки ни на секунду. Правим на обоих узлах конфиг /etc/xen/xend-config.sxp
# Разрешаем живую миграцию (xend-relocation-server yes) # Разрешаем живую миграцию для любой виртуалки(можно указать список, кому можно) (xend-relocation-hosts-allow '')
Перезапускаем XEN
# /etc/init.d/xen restart
Посе перезапуска оба узла должны слушать порт 8002.
Сама миграция выполняется очень просто, одной командой:
# xm migrate --live Wheezy 192.168.1.2
Если все работает корректно, то через некоторое время(от нескольких секунд до нескольких минут) виртуальная машина переедет на второй узел и продолжит выполнятся там, также на втором узле drbd-ресурс перейдет в режим primary, на первом узле в secondary.
Если используется полностью аппаратная виртуализация, например для запуска windows-систем, то тут есть одна особенность: не поддерживается использование в качестве типа устройств drbd. Т.е. в конфигурации виртуальной машины нужно указывать путь к блончному устройству(например /dev/drbd2). Соответственно никакой скрипт нам теперь не поможет перевести drbd-ресурс в primary режим. Соотвественно в случае аппаратной виртуализации для поддержки живой миграции нужно на обоих узлах держать drbd-ресурс в режиме primary всегда. В остальном все работает точно также, как описано выше.
Пример виртуальной машины для запуска Windows 2012 Server (или любой другой системы с аппаратной виртуализацией):
kernel = "/usr/lib/xen-4.1/boot/hvmloader" builder='hvm' memory = 2048 name = "Win2012" vcpus=1 acpi=1 apic=1 device_model = '/usr/lib/xen-4.1/bin/qemu-dm' vif = [ 'type=ioemu, bridge=br0' ] disk = [ 'phy:/dev/drbd2,ioemu:hda,w', 'file:/home/WindowsServer2012_RU_STD_TRIAL.ISO,hdc:cdrom,r'] # boot on floppy (a), hard disk (c) or CD-ROM (d) boot="c" usbdevice='tablet' vnc=1 vncunused=0 vnclisten = '127.0.0.1' vncdisplay=0 vncconsole=0 vncpasswd='' sdl=0 vncviewer=0 stdvga=0 serial='pty' ne2000 = "0" on_poweroff = 'destroy' on_reboot = 'restart' on_crash = 'restart'