Основы вычислительного хранилища

09.02.22Процессоры, СХД

Хранилище вычислений — это новая технология, и понимание того, как ее можно использовать для решения проблем с задержкой и производительностью хранилища, все еще предстоит открыть.

Вычислительное хранилище — это перемещение вычислений на сторону хранилища и сокращение объема данных, которые должны перемещаться между хранилищем и вычислительным элементом. В случае успеха эта новая технология изменит традиционную архитектуру, в которой хранение и обработка данных разделены и архитектурно далеки друг от друга.

Этот сдвиг происходит не в вакууме, а скорее в ответ на огромные объемы данных, которыми предприятия должны управлять с помощью IoT (интернета вещей) и других периферийных устройств, а также приложений ИИ (искусственного интеллекта). Перемещение этих данных увеличивает задержки и проблемы с производительностью, которые немногие могут себе позволить в современной бизнес-среде, работающей в режиме реального времени.

Поставщики приняли вызов и дали ответ этой проблеме с данными, предложив различные подходы к тому, чтобы приблизить вычислительные функции к системам хранения или включить их в них. Ассоциация производителей сетей хранения данных недавно рассказала о некоторых способах, с помощью которых поставщики делают это в ранних продуктах, включая подключение программируемых вентильных массивов к твердотельным накопителям, размещение FPGA в ОЗУ и использование систем на чипе.

Пока еще слишком рано говорить о том, будут ли развиваться вычислительные технологии хранения данных и какую конфигурацию они потребуют. Тем не менее, Gart­ner видит потенциал для существенного роста. По данным исследовательской компании, к 2024 году более половины корпоративных данных будет создаваться и обрабатываться вне центров обработки данных и облака. Это сопоставимо с 10% в 2020 году.

Пришло время освоить основы вычислительных хранилищ. Далее следует взгляд на проблемы, которые они могут решить, некоторые ранние варианты использования.

  Три проблемы, устраняемые вычислительным хранилищем

Частью понимания основ вычислительного хранилища является знание того, где оно может быть полезно. По словам Марка Стаймера, президента Drag­on Slay­er Con­sult­ing, эта технология может решить три проблемы, с которыми сталкиваются современные системы хранения данных.

  1. Задержка. Сократив расстояние между вычислениями и обрабатываемыми данными, вы уменьшите задержку. Интернет вещей, устройства удаленного мониторинга и удаленного администрирования — все это значительно отдаляет данные от вычислительных процессов традиционной инфраструктуры. «Проблема расстояния — это то, что вычислительное хранилище потенциально может решить», — сказал Стаймер. «Это позволяет процессам, интенсивно использующим вычисления, память и данные, приближаться к хранимым данным». В результате только «номинальное» количество обработанных данных должно быть отправлено в центр обработки данных или облако для дальнейшей обработки, сказал он.
  2. Слабое место в производительности процессора. Распространение процессов хранения с интенсивным использованием ЦП — коды со стиранием, дедупликация, сжатие, моментальные снимки и шифрование — превратило процессоры в узкие места производительности для систем хранения. Хранилище вычислений может разгрузить эти процессы, интенсивно использующие ЦП, освобождая основной ЦП для повышения производительности операций ввода-вывода и пропускной способности.
  3. Проблемы с производительностью приложений. База данных и различные приложения ИИ также могут занимать много ресурсов процессора. Здесь вычислительное хранилище также может разгрузить процессы для повышения производительности этих приложений.

 Два ключевых варианта использования вычислительного хранилища

Многие устройства IoT, расположенные на стороне сети, должны собирать, хранить и анализировать данные в режиме реального времени. IoT — это «самый большой вариант использования вычислительного хранилища», — говорит Стаймер в своей отдельной статье. Он указывает на автономные транспортные средства, мониторинг вибрации буровых долот на нефтяных и газовых установках и телекамеры с замкнутым контуром в качестве примеров устройств, которые могут извлечь выгоду из способности вычислительного хранилища анализировать данные в режиме, близком к реальному времени, и в полевых условиях.

Еще одним важным вариантом использования при рассмотрении основ вычислительного хранилища является возможность превращения сервера во внутренний масштабируемый кластер. Здесь вы используете вычислительные ядра хранилища для моментальных снимков, репликации, дедупликации, сжатия и других рабочих нагрузок, интенсивно использующих ЦП, и выделяете основные ядра ЦП для обработки приложений.

  Все дело в периферии

Пограничные вычисления часто происходят в ограниченном физическом пространстве, таком, как автономные транспортные средства, камеры наблюдения и другие устройства IoT, в которых мало места для хранения и вычислительных устройств. Такие ограничения накладывают ограничения на то, что можно сделать, чтобы максимизировать производительность рабочих нагрузок с интенсивным использованием данных.

По словам консультанта и писателя Роберта Шелтона, пространство — не единственная проблема на периферии. Бюджеты и пропускная способность портов ввода-вывода также ограничивают возможности традиционной системы хранения данных и вычислительной инфраструктуры.

Вычислительное хранилище могло бы устранить эти ограничения периферийных вычислений. С его помощью система хранения может предварительно обрабатывать данные, поэтому в память отправляются только самые полезные данные, что сводит к минимуму перемещение данных и снижает нагрузку на вычислительные ресурсы. По словам Шелтона, данные обрабатываются быстрее и эффективнее благодаря меньшему количеству перемещений данных и широкому использованию параллельной обработки.

ИИ и вычислительная память

На сегодняшний день приложения ИИ полагаются на базы данных в памяти и большую подготовку для использования всех генерируемых данных. Для выполнения аналитики в реальном времени на больших наборах данных необходимо масштабируемое хранилище с низкой задержкой. И здесь вычислительное хранилище также может сыграть важную роль.

По словам Энди Уоллса (Andy Walls), сотрудника IBM, технического директора и главного архитектора IBM Flash, для ИИ вычислительное хранилище может выполнять предварительный анализ, чтобы помочь определить, какие данные необходимы, или, по крайней мере, выполнить предварительную сортировку, уменьшив объем данных, которые необходимо перемещать. «Как минимум, это может быть улучшенное программное обеспечение, которое маркирует данные и помогает сократить время их подготовки», — сказал он.

          Первопроходцы

Потенциал вычислительных хранилищ для решения проблем привлек внимание крупных поставщиков, небольших стартапов и органов по стандартизации. Некоторые из них разрабатывают вычислительные запоминающие устройства или системы. Другие сотрудничают с разработчиками или стремятся интегрировать эти устройства и системы в свои продукты. Поставщики, рассматривающие возможность использования или разработки вычислительных хранилищ, включают Aliba­ba, AT&T, ARM, AWS, Azure, Dell, Face­book, Google, Hewlett Packard Enter­prise, Intel, Leno­vo, Micron Tech­nol­o­gy, Microsoft, NetApp, Ora­cle, Quan­ta, Sam­sung, SK Hynix, Super Micro, West­ern Dig­i­tal и Xil­inx. Многие из них рассматривают вычислительное хранилище как преимущество в туманных, ядерных или облачных вычислениях.

Вычислительное хранилище также стало стимулом для нескольких стартапов, таких, как Burly­wood, Eideti­com, NGD Sys­tems, Nyr­i­ad, Scale­Flux и других, которые все еще находятся в скрытом режиме. Организация по стандартизации Stor­age Net­work­ing Indus­try Asso­ci­a­tion сформировала рабочую группу для разработки стандартов взаимодействия между вычислительными устройствами хранения. Консорциум Open­Fog также изучает стандарты вычислительного хранилища.

Твердотельный накопитель для вычислительных систем NGD Systems

 NGD утверждает, что их твердотельный накопитель для вычислительных систем Scale­Flux продемонстрировал значительное повышение производительности с несколькими базами данных, включая Aerospike, Apache HBase, Hadoop и MySQL. Он также продемонстрировал снижение загрузки ЦП и повышение производительности сжатия с помощью Open­ZFS Gzip. Eideti­com продемонстрировала более производительные твердотельные накопители для хранения данных с IBM и Rack­space. А Pliops показал гораздо лучшую производительность для MySQL, Per­cona, Mari­aDB, Rocks­DB, Inn­oDB и других.

 В категории поставщиков крупных продуктов и облачных услуг Ora­cle уже много лет использует вычислительные системы хранения данных для своей системы баз данных Ora­cle Exa­da­ta Data­base Machine. Ora­cle автоматически переносит SQL, JSON, XML, шифрование/дешифрование, фильтрацию резервных копий Recov­ery Man­ag­er и быстрое создание файлов данных со своих серверов баз данных на серверы хранения. Это позволило Exa­da­ta обеспечить лучшую в своем классе производительность транзакционных операций ввода-вывода в секунду и аналитическую пропускную способность. Такая же производительность обеспечивает службу облачных баз данных Oracle.

Фактор стоимости

Как и у большинства многообещающих технологий, у этой есть и обратная сторона. В данном случае это стоимость. Объем дополнительной вычислительной памяти будет варьироваться в зависимости от ЦП, динамической памяти и памяти NAND.

Что нас ждет в будущем?

Вычислительные запоминающие устройства — не единственное решение проблем, отмеченных в этой статье. Например, некоторые поставщики, такие как StorOne, должны быть на несколько порядков более эффективными, чтобы использовать меньше ресурсов ЦП и памяти. Другие, такие, как Excelero, создали умные технологии горизонтального масштабирования, которые обеспечивают те же преимущества, что и вычислительные системы хранения. Впрочем, каждая технология имеет свое время, и в 2022 году вычислительные хранилища сохранят свой тренд.