Техническая библиотека CITForum.ru CITKIT.ru - все об Open Source Форумы Курилка
Все новости / Все статьи Деловая газета - шквал(!) IT-новостей :: CITCITY.RU
Первая полоса ИТ-Инфраструктура Телекоммуникации Безопасность BI Интеграционные платформы КИС IT-бизнес Ширпотреб Точка зрения

26.04.2017

Новости:


Все новости

Business Intelligence

Будущее BI в облаках?

В последнее время одним из массовых увлечений в области вычислений становится cloud computing (так называемые "облачные вычисления", впрочем, точного русского перевода этому термину пока не нашлось). С их помощью компании, владеющие мощными вычислительными центрами, сдают в аренду различные ресуры (почтовые и блог-сервисы, фото- и видео-хранилища), обеспечивая каждому пользователю "неограниченное" масштабирование и надежность. Заказчик получает виртуальные сервера (в виде ip-адресов), физическое расположение которых ему неизвестно.

Именно так работает cloud computing сервис Amazon's Elastic Compute Cloud (Amazon EC2) — единственный открытый сервис в данной области. За счет низкой цены (от 4 центов за час машинного времени), минимального времени развертывания и масштабируемости (до 20 серверов мгновенно, большее количество после недолгих согласований) он стал крайне популярен среди жадных до новинок web-разработчиков и ученых. Отсутствие забот о серверной инфраструктуре позволяют стартапам экономить драгоценное время при разработке очередных "убийц Google".

Естественно, производители аналитических СУБД и приложений не могли остаться в стороне от модной тенденции и предложили новые продукты на базе "облаков". Некоторые из них особенно ярко отражают интересные тенденции в области анализа данных. В этой статье мы поговорим именно о таких продуктах.

1. Google + Panorama = BI 2.0?

Израильская компания Panorama, один из старейших производителей BI-продуктов, после волны поглощений на BI-рынке оказалась в сложном положении. Продукты компании были изначально ориентированны на OLAP-сервер от Microsoft (Microsoft Analysis Services, далее MS AS). Что логично, если учесть, что технологию, лежащую в основе MS AS, и команду разработчиков Microsoft купила именно у Panorama.

Но в 2006 году Microsoft купила компанию Proclarity, еще одного поставщика BI-продуктов. И если до сделки Microsot не разрабатывала собственные клиентские приложения для MS AS, то после слияния с Proclarity появился единый BI-продукт — Performance Point. Panorama была вынуждена начать открытую конкуренцию с вендором, что серьезно пошатнуло позиции компании на традиционном рынке.

Panorama попыталась диверсифицировать свое предложение, адаптировав BI-продукты для улучшенной работы с SAP. Но SAP вскоре приобрела одного из ведущих BI-вендоров, компанию Business Objects, что усложнило конкуренцию и на рынке SAP-клиентов. После следуюшей сделки — покупки IBM компании Cognos — Panorama осталась одним из немногих независимых BI-вендоров на рынке. Компании предстояла непростая конкуренция с гигантами ИТ-индустрии. Но Panorama нашла очень неожиданный и интересный выход из положения, последствия которого на данный момент сложно предсказать, а именно — заключила партнерское соглашение с Google, выпустив совместный продукт Panorama Analytics for Google Applications.

Сервис представляет собой расширение функциональности электронных таблиц Google Spreadsheets из открытого офисного пакета Google Docs. Возможности продукта Panorama в данном случае аналогичны функциям Pivot Table Services в Excel: они позволяют создавать многомерные кубы над введенными пользователем данными. Как и в Excel, в Google Spreadsheets теперь можно строить всевозможные графики и "вращать" кубы.

С технической точки зрения этот продукт очень интересен тем, что, в отличие от Excel, вынужден работать по технологии тонкого клиента. Все множество кубов, создаваемых пользователями Google Docs, вычисляется на серверах (облаке) Google с использованием наиболее выгодным образом масштабирования и балансировки серверной архитектуры. Технология, позволяющая тысячам пользователей одновременно создавать OLAP-кубы на сотнях серверов, называется Panorama PowerApps. Для достижения этого результата Panorama испольузует платформу MapReduce Google.

Парадигма map/reduce, где каждая задача трансформируется в map-фазу (в которой к каждому входному значению применяется некоторое преобразование) и reduce-фазу (в которой множество входных значений агрегируется по некоторой функции), позволяет эффективно распараллеливать задачи на множестве серверов. Map-процессы запускаются над подмножествами исходных данных и выполняются абсолютно независимо друг от друга. Reduce-процессы обрабатывают результаты map-фазы, разбивая их по значениям ключей на непересекающиеся блоки, что также позволяет выполнять их независимо. Таким образом, каждая из фаз может обрабатываться на любом количестве серверов параллельно.

Подобный шаг обеспечил продукту Panorama многократный рост аудитории: продукты Google Docs бесплатны для персонального использования и весьма недороги на корпоративном уровне. Кроме того, у компании появились новые возможности по продаже аналитики.

В мае началось бета-тестирование двух новых сервисов Panorama на базе платформы Google — Google support for Microsoft Analysis Services by Panorama PowerApps.

С помощью первого сервиса заказчик получает возможность использовать интерфейс Google Spreadsheets и Panorama Analytics в качестве клиента для анализа собственных MS AS OLAP-кубов. Подобное предложение намного дешевле, чем BI-клиенты прочих игроков рынка.

Panorama PowerApps (Analytics as Service, или OLAP 2.0, как называет его Panorama) производители программного обеспечения (прежде всего web-проектировщики) могут использовать в качестве сервера аналитической обработки. Например, создатель популярного веб-сайта по учету личных расходов может предоставить посетителям ресурса все возможности Panorama Analytics по построению графиков, многомерному тренд-анализу, не вдаваясь в детали реализации подобного функционала (который для многих тысяч он-лайн пользователей обеспечить достаточно сложно). Разработчику достаточно предоставить исходные реляционные данные. Подобный сервис, по мнению израильской компании, должен изменить подход к аналитическим приложениям в интернете.

Понятно, что на данный момент предложения Google и Panorama уступают большинству полнофункциональных BI-платформ (Oracle BI, Microsoft Performance Point, SAP BO, IBM Cognos, Microstrategy). К тому же, не до конца решена проблема безопасности хранения коммерческих данных на неизвестно где и как расположенных серверах "чужих" компаний.

Основываясь на опыте компании-революционера Saleforce.com, изменившей рынок CRM, можно сказать, что понадобится как минимум 3 года, прежде чем Analytics as Service обретет репутацию надежного сервиса, который можно будет использовать в корпоративном сегменте.

Однако крайне низкая цена пользовательских лицензий, полное абстрагирование серверной архитектуры и связанных с ее поддержкой расходов, "неограниченная" масштабируемость — достаточно весомые аргументы, с помощью которых можно изменить мнение даже консервативного рынка бизнес-приложений. Да и Panorama наверняка не собирается останавливаться на достигнутом.

Ссылки:

2. Аналитические СУБД и cloud computing

Одним из первых производителей специализированных аналитических СУБД, включивших в клиентские предложения вариант своего продукта, основанный на "cloud computing", стала компания Vertica во главе с Майклом Стоунбрейкером

Заказчику предоставляется полностью настроенный сервер Vertica, работающий на базе Amazon EC2 (либо кластер подобных серверов). Клиент перекладывает на плечи вендора не только заботы о физическом оборудовании, но и все трудности с настройкой СУБД.

Использование cloud-технологий существенно облегчает клиентам аналитических СУБД процесс выбора и тестирования новых баз, исключая необходимость установки и настройки оборудования. Подобные предложения, по мнению экспертов, вскоре изменят сам процесс продажи СУБД.

Заказчиков такие сервисы привлекут отсуствием разовых значительных финансовых инвестиций: оплата Amazon EC2 осуществляется ежемесячно. Более того, требуемую мощность можно наращивать в периоды активного развития корпоративной аналитической системы, создания новых витрин данных.

Но стоит отметить, что для успешного масштабирования на "облаке" СУБД должна обладать несколькими обязательными характеристиками, а именно:

  • работать по принципу shared nothing — использование общих ресурсов ограничивает машстабирование;
  • эффективно работать на commodity hardware — "облачные" вычислительные центры состоят из обычных по характеристикам (commodity) серверов, не имеющих сверхпроизводительных многоядерных процессоров, специальных дисковых контроллеров и сверхбыстрой памяти;
  • автоматически балансировать и поддерживать кластер серверов — чем больше серверов, тем больше вероятность сбоя в работе любого из них; так, по опыту Google, из тысячи серверов ежеминутно один выходит из строя, и СУБД должна эффективно справляться с подобными ситуациями;
  • быстро обрабатывать запросы — при работе с находящимися в "облаке" серверами ко времени обработки запроса добавляется время передачи сообщений по интернету, поэтому СУБД должна работать максимально быстро для достижения приемлемого для пользователя времени отклика (аналогичная проблема стоит перед Panorama Analytical Applications).

    Ссылки:

    3. Использование Map\Reduce для аналитики. Apache Hadoop и Facebook Hive

    Благодаря проекту Apache Hadoop средства анализа больших объемов данных, которыми пользуются сверхкрупные интернет-проекты, стали доступны широкой пользовательской аудитории. Базируясь на статьях Google о вычислительной платформе MapReduce, распределенной файловой системе Google File System и базе данных Bigtable, проект Apache Hadoop создал открытые аналоги этих продуктов под лицензией Apache (Hadoop, HDFS и HBase соответственно). В результате их свободного использования появились совершенно новые аналитические архитектуры.

    Например, Facebook Hive, аналитическое хранилище данных о действиях пользователей сервиса Facebook. К маю 2008 года, оно включало около 22 террабайтов данных и росло со скоростью ~200 гигабайт в день. Для выполнения аналитических запросов в Facebook используется кластер Hadoop из 2500 процессоров, обрабатывающий задачи map/reduce. Компания Facebook разработала специальный язык запросов, напоминающий SQL, команды которого трансформируются в последовательности map/reduce. Подобный язык параллельной обработки аналитических запросов есть и у Google (Sawzall). Кроме того, его аналог уже разрабатывается в Apaсhe Hadoop (Pig).

    Facebook — один из самых известных примеров использования Hadoop для выполнения аналитических задач. Сама технология еще достаточно молода, поэтому, по оценкам экспертов, основная волна проектов, использующих эту платформу, впереди.

    Применение Hadoop не ограничивается аналитикой. Например, не так давно в списке рассылки этого проекта обсуждалось использование hadoop-кластера как хранилища резервных копий БД Oracle. Кластер в данном случае параллельно архивировал бакапы, добавлял и сверял md5-метки бакапов.

    Ссылки:



Статья подготовлена для публикации в Oracle Magazine RE

Комментарии

Упсссс, Mon Feb 23 12:59:40 2009:
как для обычного юзера то будут кранты: ничего на компьютере стоять не будет кроме биоса и выхода в инет. Все! Все осталное он получит в облаках. Если заплатит))
петя, Mon Feb 9 11:40:42 2009:
ваще крутая статейка !!!
вася, Mon Feb 9 11:14:23 2009:
лоховство!!!!!!!!!!!!!!!!!!!!
onanim, Tue Dec 16 01:56:00 2008:
Mac iCloud будет звучать лчше и моднее :)
Read Only, Sat Dec 6 14:06:43 2008:
damiva, а McCloud Computing = Бессмертные вычисления! =)
damiva, Sat Dec 6 14:02:22 2008:
computing = вычисления. Поэтому лучше перевести Cloud Computing как "Распределенные вычисления"
Геннадий Пастухов, Thu Sep 25 16:55:44 2008:
Очень хорошая и полезная статья, спасибо!
аноним, Wed Aug 27 10:37:17 2008:
СерыйСерж, ага, слово "компьютинг" просто дальше некуда какое русское, его ещё рюриковичи, видимо, в обиходе использовали )))))
СерыйСерж, Tue Aug 26 19:01:18 2008:
Предлагаю русский перевод термина "cloud computing" - "разнесенный компьютинг"!

Комментарии заморожены.

Последние комментарии:

Самое интересное:


© 2004–2009 Проект CITCITY.ru