Skype представила технические детали глобального сбоя в системе

30/12/2010 11:33

Представители компании Skype вчера опубликовали данные, объясняющие природу мощнейшего сбоя в популярной системе интернет-телефонии, а кроме того представили сведения, задача которых заключается в том, чтобы убедить пользователей в неповторении подобного в дальнейшем. Напомним, что в прошлый вторник и среду система телефоне Skype вышла из строя по всему миру, в результате чего произошло каскадное отключение командных серверов Skype, а также "суперузлов", отвечающих за коммутацию трафика. Сразу после сбоя компания сообщила, что инженеры Skype работают над устранением проблемы, но тем не менее, полное восстановление заняло почти сутки. Накануне информационный директор Skype Ларс Рабби заявил, что сеть полностью восстановилась и готова обслуживать своих пользователей в полном объеме. Он также отметил, что последний сбой в Skype стал возможен из-за специфической архитектуры системы интернет-телефонии. В блоге компании он говорит, что Skype стала заложницей своей же собственной сетевой архитектуры. Cильная сторона архитектуры Skype заключается в том, что она позволяет системе передавать очень большие объемы трафика в реальном времени, избегая критических нагрузок, но с другой стороны, когда происходит какой-либо сбой в системе, выводящий из строя один или несколько центров коммутации, то остальные "сыпятся" вслед за ними. Технически, пишет Рабби, Skype может выдержать большие нагрузки и отказ любого узла, но только не корневых центров коммутации - "суперузлов". Именно последнее и произошло со Skype на прошлой неделе. По словам представителя компании, нагрузка в сети Skype распределяется по пиринговому принципу, то есть два или более коммутирующих узла могут передавать друг другу данные в случае загрузки. Технически, система строится на базе технологии Global Index, которая также привязана к P2P-технологии. Эта технология позволяет управлять различными функциями "суперузлов" и подчиненных серверов. На прошлой неделе из-за большого потока коротких сообщений некоторые серверы, отвечающие за данный функционал, оказались перегружены, что спровоцировало очереди в доставке сообщений. Некоторые пользователи Skype работали с Windows-клиентом системы 5.0.0152, который имел ошибку, не позволявшую работать с отложенными сообщениями. Таким образом, примерно половина пользователей Skype пользовалась сборной версией, причем 40% пользователей явно столкнулись в данной проблемой. Таким образом, 25-30% суперузлов оказались загружены очередями, которые не могли распознать клиенты. Рабби говорит, что многие пользователи, столкнувшись с одновременным сбоем в системе, начали перезапускать "залогиненные" клиенты, спровоцировав на серверы еще бОльшую нагрузку. Таким образом, в системе получился своего рода информационный коллапс. Сейчас в Skype были установленный суперузлы обновленной конфигурации, обладающие бОльшей емкостью, а кроме того, новая версия создана по принципу "облачного P2P", что теоретически должно добавить отказоустойчивости всей системе.
Источник