ИТ для нового стиля бизнеса
отмена
Отображаются результаты для 
Вместо этого искать 
Вы имели в виду: 

Анализ неструктурированных данных и оптимизация их хранения

tonyafilonenko

Автор: Максим Луганский, технический консультант 

Тема анализа неструктурированных данных сама по себе не нова. Однако в последнее время в эпоху «больших данных» этот вопрос встаёт перед организациями гораздо острее. Многократный рост объёмов хранимых данных в последние годы, его постоянно увеличивающиеся темпы и нарастающее разнообразие хранимой и обрабатываемой информации существенно усложняют задачу управления корпоративными данными. С одной стороны, проблема имеет инфраструктурный характер. Так, по данным IDC, до 60% корпоративных хранилищ занимает информация, не приносящая организации никакой пользы (многочисленные копии одного и того же, разбросанные по разным участкам инфраструктуры хранения данных; информация, к которой никто не обращался несколько лет и уже вряд ли когда-нибудь обратится; прочий «корпоративный мусор»).Storage_Optimizer_1.png

С другой стороны, неэффективное управление информацией ведёт к увеличению рисков для бизнеса: хранение персональных данных и прочей конфиденциальной информации на общедоступных информационных ресурсах, появление подозрительных пользовательских зашифрованных архивов, нарушения политик доступа к важной информации и т.д.

В этих обстоятельствах умение качественно анализировать корпоративную информацию и оперативно реагировать на любые несоответствия её хранения политикам и требованиям бизнеса является ключевым показателем зрелости информационной стратегии организации.

Теме аналитики файловых данных посвящён отдельный документ Gartner, вышедший в сентябре 2014 г. под названием «Market Guide for File Analysis Software». В данном документе приводятся следующие типовые сценарии использования аналитического ПО:

  1. Оптимизация хранения. Наиболее типичный сценарий. Целью внедрения файловой аналитики является снижение объёма хранимых данных, и, тем самым, повышение эффективности их хранения.
  2. Выявление ненужных данных и избавление от них при миграции ИТ-инфраструктуры. Часто инициируются проектами по миграции данных в «облако». Проводится сканирование контента и по его результатам имеющие важность и ценность для бизнеса данные «переезжают» в «облако», а остальные удаляются.
  3. Классификация. Целью таких проектов по анализу является группировка объектов по различным критериям для назначения на них общих политик, понимания ценности и потенциального риска, которые несёт хранимая информация.
  4. Соблюдение нормативов и требований (compliance). Специалисты соответствующих подразделений могут разработать и внедрить политики доступа к важным данным и за счёт встроенной в аналитическое ПО классификации эффективно контролировать их соблюдение.
  5. Управление уровнями доступа. За счёт получения информации об уровне и типе доступа пользователей к файлам и директориям возможно осуществлять информационный менеджмент с целью защиты персональных данных и иной конфиденциальной информации от несанкционированного доступа.
  6. Автоматизация проведения расследований. Аналитическое ПО позволяет быстро находить объекты, имеющие отношение к проводимым в компании расследованиям, и автоматизированно и безопасно копировать или перемещать их в специальные хранилища.

В портфеле Hewlett Packard Enterprise существует два программных решения, предназначенных для расширенного анализа неструктурированной информации: HPE Storage Optimizer и HPE Control Point. Первое решение в основном предназначено для специалистов, отвечающих за хранение данных. Второе решение подойдёт не только специалистам ИТ-подразделений, но будет также интересно сотрудникам отделов информационной безопасности, Compliance-служб, а также руководству, определяющим стратегию хранения и использования информации в организации.

В данной статье будет сделан технический обзор обоих продуктов.

HPE Storage Optimizer: анализ данных с целью оптимизации их хранения

HPE Storage Optimizer объединяет в себе возможности по анализу метаданных объектов в репозиториях неструктурированной информации и назначению политик их иерархического хранения.

Control_Point_1.jpgАрхитектура HPE Storage Optimizer

Источники анализируемой информации в терминологии HPE Storage Optimizer называются репозиториями. В качестве репозиториев поддерживаются различные файловые системы, а также MS Exchange, MS SharePoint, Hadoop, Lotus Notes, Documentum и многие другие. Есть также возможность заказать разработку коннектора к репозиторию, который в настоящее время не поддерживается продуктом.

HPE Storage Optimizer использует собственные соответствующие коннекторы для обращения к анализируемым репозиториям. Информация с коннекторов поступает в компонент под названием Connector Framework Server (обозначенный как «CFS» на картинке), который, в свою очередь, обогащает её дополнительными метаданными и направляет получившиеся данные на индексирование. Для повышения отказоустойчивости и балансировки нагрузки при взаимодействии приложения с коннекторами используется компонент Distributed Connector. 

Метаданные индексируются «движком» HPE Storage Optimizer Engine («SO Engine» на первой картинке) и помещаются в БД MS SQL. Для доступа к результатам анализа и назначения политик управления используется веб-приложение HPE Storage Optimizer.

Для наглядного отображения информации, потенциально подлежащей оптимизации, в HPE Storage Optimizer используются круговые диаграммы (ниже), показывающие дубликаты данных, редковостребованные и «ненужные» данные (ROT analysis: Redundant, Obsolete, Trivial). Критерии «редковостребованности» и «ненужности» можно гибко настроить, в том числе индивидуально для каждого репозитория. Кроме круговых диаграмм, доступны графики, иллюстрирующие разбивку данных по типам, времени и частоте добавления и др. Все элементы визуализации интерактивны, т.е. позволяют переходить в какую-либо категорию диаграммы (или столбец) и получать доступ к соответствующим данным.

 Storage_Optimizer_3.pngГрафический анализ данных в HPE Storage OptimizerПеречень метаданных, по которым может быть проведён анализ, необычайно широк и даёт возможность осуществлять высокоточные тематические выборки.Storage_Optimizer_4.pngПример работы с метаданными в HPE Storage OptimizerХотелось бы заметить, что в состав продуктов HPE Storage Optimizer и HPE Control Point входит «движок» индексирования и визуализации, позволяющий просматривать более 400 различных форматов данных без установки на сервер соответствующих приложений для предпросмотра. Это значительно упрощает и ускоряет процесс анализа большого количества разноплановой информации.

После того как анализ данных проведён, администратору системы предоставляется возможность назначить политики удаления или перемещения данных. Политики на те или иные выборки данных возможно назначать как вручную, так и автоматически. Мощная ролевая модель управления, реализованная в HPE Storage Optimizer и в HPE Control Point, даёт возможность выдавать полномочия по работе с репозиториями, анализу данных в них, а также по назначению политик, максимально гибко.

HPE Control Point: комплексный анализ для снижения бизнес-рисков, связанных с хранением данных

HPE Control Point, по сути, представляет собой расширенную версию HPE Storage Optimizer и предоставляет инструментарий не только для решения задач по оптимизации хранения, но и для  внедрения политик хранения и управления жизненным циклом корпоративной информации.

Продукт позволяет проводить анализ информации не только по метаданным, но и по её содержимому. Кроме того, в нём реализованы дополнительные механизмы анализа данных и назначения политик по работе с ними.Control_Point_1.jpgАрхитектура HPE Control Point

В отличие от HPE Storage Optimizer, в HPE Control Point широко используются возможности индексирования и смысловой категоризации информации «движка» HPE IDOL (Intelligent Data Operating Layer): визуализация, категоризация, тэгирование и др. В его основе лежит возможность определять «смысл» набора анализируемой информации независимо от её формата, языка и т.д. 

В частности, в HPE Control Point дополнительно доступны два типа визуализации информации: кластерная карта и спектрограф.  Кластерная карта представляет собой двухмерное изображение информационных «кластеров». Один кластер объединяет в себе информацию, имеющую схожий смысл. Таким образом, глядя на кластерную карту, можно быстро получить понимание основных смысловых групп этой информации. Кластерные карты интерактивны, т.е. позволяют с помощью кликов на те или иные кластеры получать доступ к информации, содержащейся в них.Control_Point_2.pngВнешний вид кластерной карты в HPE Control Point

Спектрограф представляет собой набор информационных кластеров, снятых в различные моменты времени и даёт возможность графически отследить, как менялся смысл информации в анализируемых репозиториях с течением времени

.Control_Point_4.pngВнешний вид спектрограммы в HPE Control Point

Помимо расширенных возможностей визуализации информации, в HPE Control Point доступна возможность категоризации анализируемой информации. Изначально информация категоризируется автоматически – средствами HPE IDOL, выдавая пользователю системы массив данных, разбитый на смысловые части. Получив первичное разбиение, аналитик далее может сделать более выверенную категоризацию. Например, использовать какой-либо набор файлов, заведомо для аналитика релевантных той или иной категории, для «тренировки» категории на этот набор файлов, чтобы впоследствии получать более точные результаты категоризации. Для ещё более тонкой настройки можно использовать индивидуальные весовые коэффициенты файлов и даже фраз и отдельных слов внутри файлов, отражающие степень соответствия тех или иных единиц информации «тренируемой» категории. Такая детализация может использоваться, например, для создания подробных правил отнесения анализируемой информации к разряду конфиденциальной.

Что касается политик работы с анализируемой информацией, то в HPE Control Point кроме копирования, переноса и удаления доступны также следующие опции:

  • «Заморозка» объектов. Позволяет заблокировать доступ к отдельным объектам, не допуская их несанкционированное изменение или удаление.
  • Создание рабочего процесса (workflow). Например, информирование или запрос утверждения уполномоченного сотрудника или владельца анализируемых объектов перед их переносом или удалением.
  • Безопасный перенос в систему управления корпоративными записями HPE Records Manager (например, в случае выявления несанкционированного присутствия конфиденциальных документов на общедоступном файловом сервере). При этом переносимые данные сопровождаются метаданными, которые будут использованы для дальнейшего управления документами в системе HPE Records Manager с необходимыми настройками доступа, уровнями секретности и т.п.

Заключение

 Как видно из текущего обзора, спектр применения HPE Storage Optimizer и HPE Control Point для решения задач анализа и управления корпоративными данными весьма широк. Кроме того, возможности анализа документов на разных языках (включая русский), а также масштабируемая архитектура компонентов обоих продуктов позволяет эффективно решать задачи по анализу всего объёма неструктурированных данных в организациях любого масштаба и сложности.

Если вас заинтересовала эта тема, рекомендуем посмотреть вебинар, посвященный решениям HPE для анализа неструктурированных данных

Читайте отчет Gartner о том, как справиться с избытком неструктурированных данных 

 

Follow us on Twitter @HPE_IoT
0 баллов
Об авторе

tonyafilonenko

All things social for HPE IoT