Как Big Data и инициативы IoT делают теорию «мусор внутри, мусор снаружи» недействительной

Мусор внутри, мусор снаружи: это одна из величайших технологий. Конечно, его затмило «программное обеспечение съест мир», как то, что можно сказать на собрании, когда вы действительно не знаете, что происходит, но это все еще, вероятно, произносят несколько тысяч раз в месяц, чтобы объяснить неудачу недавней технологической инициативы.

Проблема в большинстве больших данных или IoT-инициативах заключается не в том, что данные бессмысленны, неточны, расплывчаты или бесполезны — данные, собранные с датчиков, как правило, действительны. Как правило, проблема заключается в огромных объемах данных, потому что данные естественно не организуются как кристаллы. Грузовики и оборудование на руднике могут генерировать петабайты в день.

Или подумайте об умных счетчиках. Если вы собираете данные со смарт-счетчиков в США каждые 15 минут, вы можете получить общее представление о потребляемой мощности. Однако, если вы собираете его каждые несколько минут или секунд , вы можете начать ненавязчиво собирать энергию, задерживая циклы размораживания холодильника и уменьшая яркость света. К сожалению, это также означает манипулирование эксабайтами памяти.

Данные о здоровье и персонализированная медицина? Общая масса геномных данных в мире удваивается каждые семь месяцев. К 2025 году геномные данные превзойдут размер YouTube.

Какофония сенсоров

Хуже всего то, что данные также часто поступают в несовместимых форматах, измеряя явно разные тенденции. Возьмите простое устройство, например, насос. Для проведения профилактического технического обслуживания вы можете отслеживать потребление энергии, расход воды, температуру оборудования, скорость вращения и другие явления. Это означает, что вы будете собирать данные, измеряемые в киловатт-часах, литрах, градусах, оборотах в минуту и ​​других стандартах, причем некоторые данные обновляются каждые 15 минут, а другие сигналы, например вибрации, излучают новую информацию сотни тысяч раз в секунду.

Например, по оценкам McKinsey & Co., только 1% данных из примерно 30 000 датчиков на морских нефтяных вышках используются для принятия решений из-за сложности доступа к ним.

Чтобы обойти проблему, аналитики и другие полагают, что решение — собирать меньше данных. К сожалению, неясные биты часто оказываются решением загадки. В 2015 году исследователи в Ливерморской национальной лаборатории Лоуренса (LLNL) испытали быстрые и неожиданные изменения электрической нагрузки для Sequoia, одного из самых мощных суперкомпьютеров в мире. Колебания были большими, с падением мощности с 9 мегаватт до нескольких сотен киловатт , что создавало существенные проблемы управления для местных коммунальных служб.

Путем перекрестной проверки различных потоков данных был выявлен источник проблемы: падение совпало с плановым техническим обслуживанием массивной холодильной установки. LLNL был в состоянии сгладить его рампу мощности и помочь. Но подумайте немного — ответ был обнаружен только после того, как некоторые ведущие специалисты по вычислительной технике в стране проверили, что делали их сотрудники в отделе оборудования.

Дилемма

Допустим, вы сохранили все свои данные. Теперь ваши высокооплачиваемые ученые, занимающиеся данными , увязли в том, чтобы выполнять функции уборщиков данных , что 76% считают наименее привлекательной частью своего дня.

К счастью, автоматизация в разработке программного обеспечения и управлении ИТ выходит на первый план. Растущее число стартапов сосредоточено на автоматическом создании цифровых двойников и использовании потоков данных датчиков на экранах и консолях таким образом, чтобы это имело смысл для обычных людей. Переход к интеллектуальным пограничным архитектурам, где значительные объемы данных и аналитика проводятся локально, а не в облаке, для снижения затрат на задержку и пропускную способность, также поможет сократить время и накладные расходы на управление массивами массивных данных.

ИИ тоже поможет. Видео и изображения до недавнего времени считались «темными» данными, потому что их нельзя было легко найти. Тем не менее, нейронные сети перевернули это, что привело к таким вещам, как распознавание лиц с помощью поиска фотографий. Однако до этих событий видео и изображения часто попадали в ту категорию данных, которая постоянно находилась в рубке «действительно ли нам нужно сохранять все это».

Многие из этих технологий только появляются в мейнстриме, но будущее выглядит многообещающим.

«Испугаться из-за большого монстра данных — это уловка, — говорит Нил Стротер, главный аналитик-исследователь в Navigant Research, — инструменты, доступные сейчас для сбора, организации и анализа больших и растущих наборов данных, здесь и доступны. Я не говорю, что такие усилия банальны, но и они не вне их досягаемости ».

Источник: iottechnews.com