Сортировка петабайта данных заняла у Google шесть часов две минуты

24/11/2008 09:33

Компания Google в рамках своей файловой системы рассортировала петабайт данных между четырьмя тысячами компьютеров за шесть часов две минуты. Один петабайт эквивалентен десяти триллионам 100-байтовых текстовых файлов. Об этом сообщается в официальном блоге Google. Для размещения петабайта данных Google потребовалось 48 тысяч жестких дисков, но они не заполнялись полностью. Кроме того, создавалось по три копии каждого файла на разных дисках, так как есть опасность выхода их строя одного из трех винчестеров. Сортировка меньшего объема информации - терабайта данных - между тысячей компьютеров заняла у файловой системы Google 68 секунд. Такой же объем информации был рассортирован между 910 компьютерами за 209 секунд. Основой файловой системы Google является компонент MapReduce. Он позволяет запускать несколько процессов одновременно. В январе текущего года MapReduce обрабатывал в среднем по 20 петабайт данных ежедневно.
Подробности