Лишние данные

Сортировка мусора

Данные — новая нефть. Но и новый мусор тоже. Люди постоянно создают информацию, а компании накапливают ее, надеясь повторить успех Amazon или Facebook. Обладатели больших данных часто не понимают, где их хранить и как использовать. Эта проблема уже получила яркое название: «инфоожирение»

Текст: Константин Анисимов. Опубликован в журнале Digital Ocean

Каждый год количество накопленных человечеством данных увеличивается на 30%. Это огромные темпы, которые постоянно требуют новых мощностей — сетей связи, дата-центров, серверов, систем хранения, площадей, электричества. Все это создается за счет ресурсов нашей планеты. Можно долго спорить о нужности всей этой информации. Но факт в том, что мы стоим перед выбором: тратить каждый год на 30% больше ресурсов или начать относиться к накоплению данных осознанно.

Многие компании стремятся обладать огромным количеством данных, при этом не имея представления, как их использовать и где хранить. Не только фирмы, но и обычные граждане накапливают «информационный жир», то и дело жалуясь на переполненные диски компьютеров и память телефонов. Пора браться за ум, ведь нам есть у кого учиться: специалисты по облачным сервисам экономят немалые средства, оптимизируя хранилища данных. Их методы помогают тратить на складирование информации меньше электричества, тепла и денежных средств.

Метод 1. Температурное ранжирование

Азбучная истина: данные имеют «температуру». Часто используемые данные, к которым необходим мгновенный доступ, — горячие. Примером могут служить статьи популярных веб-сайтов, каталоги интернет-магазинов, свежие посты лидеров мнений в соцсетях.

Данные, которые чуть реже используются и были созданы некоторое время назад, — теплые. К ним относятся уже прочитанные отчеты и планы, статистические графики и диаграммы, информационные документы.

Если данные были созданы давно и мало кто помнит, когда ими последний раз пользовались, их относят к холодным. Обычно это старые проекты, информационно устаревшие аудиты и квитанции, старые резервные копии для аварийного восстановления, архивы.

От «температуры» данных зависит способ их хранения. Горячее хранилище требует премиальных ресурсов в виде скоростных жестких дисков и быстрых интерфейсов, которые связывают отдельные диски в общую систему. Тип данных определяет технологию хранения. Так, структурированные данные удобнее хранить в блочных хранилищах: информация делится на мелкие равные части, каждая из которых имеет адрес. К структурированным данным относятся тексты СМИ, разбитые на отдельные статьи, базы бухгалтерских проводок. Данные в блочных хранилищах легко обновлять: переписывается лишь отдельный блок, в котором произошли изменения, а не файл целиком.

Примером неструктурированных данных может служить фильм. Обновить его можно, лишь заменив целиком весь файл. Но этого обычно не требуется. Подобные данные относятся к категории WORM (Write Once Read Many) — записываются единожды, но воспроизводятся многократно легионом пользователей. Для них используют объектные хранилища: на сервер загружаются целые файлы без какой-либо структуры. В частности, метод применяют стриминговые платформы вроде Spotify и Netflix.

Для теплых данных можно использовать низкоскоростные диски большой емкости. Подойдет как объектное хранилище, так и файловое — с привычной всем пользователям каталожной структурой папок. Файловое хранилище медленнее блочного или объектного, зато ориентироваться в такой информации проще.

Холодные данные можно хранить как на недорогих медленных дисках, так и на ленточных накопителях. Когда речь идет о больших объемах информации, ленты оказываются намного компактнее, экономичнее и надежнее.

Получается, отсортировав данные по «температуре», можно удешевить систему хранения, сэкономить электроэнергию, уменьшить негативное воздействие на окружающую среду, при этом обеспечив более быстрый доступ к информации. Но это лишь вершина айсберга.

Метод 2. Дедупликация

Встав между двух зеркал, увидишь бесконечное количество собственных отражений. Сколько памяти нужно, чтобы их сохранить?

Допустим, популярный блогер размещает пост с актуальной смешной картинкой размером 500 кБ. Миллион человек делится этой картинкой через соцсеть или встроенный в нее мессенджер. Означает ли это, что для хранения всех этих репостов и сообщений системе потребуется 500 терабайт дискового пространства или пара стоек с серверами хранения? К счастью, нет. Сработает технология дедупликации — метод сжатия данных, при котором хранится одна копия картинки, а все посты и сообщения, в которых он упоминается, используют лишь ссылку на исходный файл.

Дедупликация уменьшает количество данных на много порядков, позволяя использовать меньше серверов, дисков, электричества и других ресурсов центров обработки данных. Особенно эффективно она работает в социальных сетях, мессенджерах, сетях обмена файлами, в публичных и корпоративных почтовых системах. Ведь пересылаем мы тем или иным способом по большей части одно и то же.

Выявление дубликатов хорошо работает на техническом уровне и гораздо хуже — на управленческом. Во многих компаниях есть люди, которые собирают или даже покупают данные, уже полученные их коллегами с другого этажа. Без систематического подхода к сбору и стратегическому управлению данными крупное предприятие может получить обратный результат: данные собирали, чтобы стать более продуктивными, а в конечном итоге собирают и дублируют их столько, что снижают эффективность работы. Американская компания KnowledgeHound построила на этой проблеме бизнес: ее специалисты помогают фирмам экономить деньги, избавляя разные подразделения от покупки одного и того же набора данных.

Метод 3. Переезд поближе

Даже когда мы пересылаем друг другу одну и ту же картинку, она ведь реально передается на наши устройства? Получается, популярный мем пролетает столько километров по проводам и радиоволнам, что можно было бы с десяток раз обогнуть Землю? Да, получается так. Но этот путь можно существенно сократить.

Для доставки контента существует технология, похожая на дедупликацию в системах хранения. Речь идет о CDN (Content Delivery Network). Чтобы не пересылать файл многократно по магистральным каналам, его дублируют на кэш-серверах, которые располагают территориально близко к предполагаемым потребителям информации. К примеру, голливудские фильмы снимают в Голливуде и кладут на американские серверы. Но российские зрители смотрят их с многочисленных локальных серверов, разбросанных по всей стране. Гонять огромные объемы трафика через океан не приходится.

Что, если фильм хотят посмотреть одновременно сотни зрителей и все они вдруг оказались в Подмосковье? В этом случае на запрос ответят сразу несколько кэш-серверов, которые разделят нагрузку между собой. Так работают технологии бродкаста и мультикаста. Они тоже помогают оптимизировать количество передаваемой информации при потреблении «тяжелого» контента, такого как телетрансляции, аудио- и видеоконференции, массовые рассылки.

Подобные решения работают не только на операторском уровне, но и на уровне отдельной компании и даже на домашнем. Если сотрудники постоянно обращаются к документам — возможно, их стоит хранить локально, а не в облаке. Если члены семьи хотят посмотреть фильм по очереди — вероятно, его стоит просто скачать.

Выходит, если обычно инженеры борются с дубликатами контента, то для ускорения его доставки они их, напротив, создают. В итоге технология бережет и ресурсы, и операторов связи, и хранителей данных (хостеров), и конечных пользователей.

Метод 4. Инкрементальное копирование

Еще один огромный пласт данных — результат нашей собственной заботы о безопасности. Речь идет о резервных копиях. Допустим, у предприятия есть база данных бухгалтерской системы 1С на 1 ТБ. Это большая система, в ней каждый день происходят тысячи транзакций, и ни одну нельзя упустить. Поэтому систему настроили таким образом, чтобы каждую ночь делалась полная резервная копия базы данных. Нетрудно посчитать, что уже через 10 дней объем резервных копий превысит рабочую базу в 10 раз и достигнет 10 ТБ.

Можно, конечно, просто удалять резервные копии после определенного периода, убедившись, что они уже не нужны. Но бухгалтерия и аналитики просят хранить резервные копии глубиной в квартал, чтобы они могли «откатиться» на любой из дней в квартале. В результате копится колоссальный объем не просто холодных, а скорее ненужных данных.

К счастью, современные системы резервного копирования умеют делать не только полные копии, но и так называемые инкрементальные. В этом случае создается образ не всех данных, а только тех, которые изменились по отношению к предыдущей версии. Такой подход требует более сложного и дорогого ПО, а также специальных знаний для управления им, особенно при восстановлении данных из резервных копий. Но потенциальная экономия на количестве данных того стоит.

Гигиена данных все больше требует и внимания пользователей, и профессионального подхода. Как с уходом за зубами: мы чистим сами их утром и вечером, но периодически обращаемся к стоматологу.

Авторское мнение - Константин Анисимов, СЕО компании Rusonyx

— У профессиональных хостеров есть поговорка: «Клиенты делятся на тех, кто еще не делает бэкапы (резервные копии), и тех, кто уже их делает». Каждый хостер может рассказать множество историй, как порой самым нелепым образом компании теряли свои данные. После нескольких подобных случаев мы в Rusonyx стали делать технический бэкап всего хостинга. Решение было принято в 2015 году. Конечно, это потребовало огромных дополнительных ресурсов: по сути, надо было удвоить емкость всех дисковых систем. С тех пор мы постоянно следим за развитием технологий хранения данных, чтобы оптимизировать затраты. Получается, наши цели абсолютно меркантильны, но в то же время мы изо всех сил стараемся сберечь ресурсы планеты. Нам не нужна Грета Тунберг и воззвания к справедливости. Мы профессионалы, и экономия — часть нашего кода. Финансы и профессионализм — самые эффективные рычаги в борьбе за экологию. Чем больше людей будут хранить свои данные у профи, то есть в облаках, тем успешнее мы решим задачу оптимизации ресурсов на всех уровнях вплоть до планетарного.

Также в журнале

Обзоры

28 Мая 2025

Самое главное об SLA: понятие, польза, содержание

Обзоры

28 Февраля 2025

6 вопросов о DDoS-атаках: что это такое, кто в зоне риска и как их предотвратить

Обзоры

10 Февраля 2025

Как выбрать облачного провайдера