Hadoop clusters или Слоны шагают по пустыне

tumblr_inline_ng9axxBqYU1sym37j

Сегодня мы поговорим про «облачные сервисы» с позиции редакции. Речь идет о технологии, которую газета The Guardian назвала «швейцарским армейским ножом XXI века», а The New York Times активно использует при реализации своей cloud-стратегии. Это проект Hadoop, который сделал возможным реализацию вычислительной концепции MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат.

Илья Стечкин, независимый медиаисследователь 

Материал опубликован в журнале «Журналист» №01/2015


Лирическое отступление о плачевном состоянии технологических знаний в российских медиа

Меня все чаще упрекают в том, что материалы, которые выходят за моей подписью в рубрике «Новые медиа» сложно читать из-за обилия специальных терминов. Я же убежден, что современные медиакоммуникации требуют от специалистов серьезных знаний в области технологий. В противном случае для коллег-журналистов технические концепции превращаются в заклинания, лишенные очевидного смысла. Страдают от этого все — и медиа, и концепции. Это произошло с «нанотехнологиями», это происходит с «облачными технологиями» и «большими данными».

Бороться с этим можно только провоцируя коллег к самообразованию, подкидывая им полезные ссылки и предлагая к обсуждению современные сюжеты: от «журналистики быстрого взгляда» до развития «открытых проектов» (open source projects) в сфере облачных технологий. Спрос на такой подход невелик, поскольку в целом российские масс-медиа серьезно отстают от западных проектов в области внедрения актуальных технологических решений.

Отстают во многом из-за того, что не имеют достаточного представления о том, как развиваются новые информационно-коммуникационные технологии в мире. Получается замкнутый круг: мы не знаем, причин узнавать особых не имеем и, соответственно, не применяем.

И, тем не менее, я тешу себя надеждой, что мои ежемесячные экскурсы в мир высоких технологий сподвигнут кого-то из читателей к более детальному знакомству с той или иной технологией. А значит — в отдельных случаях есть шанс разорвать описанный выше круг.

Хронология проекта

tumblr_inline_ng9bgdLXop1sym37jHadoop — это свободно распространяемый набор утилит, программных библиотек и программных фреймворков, которые решают самые разные программные и технические задачи, связанные с поиском и контекстом высоконагруженных сайтов, и делают это максимально эффективно.

В 2004 году была опубликована концепция свободной программной поисковой машины на основе технологии Java, а в 2005 году Дуг Каттинг (Doug Cutting) приступил к ее реализации, назвав проект в честь игрушечного слоненка — Hadoop. С января 2006 по февраль 2008 года Каттинг развивал проект для интернет-гиганта Yahoo! В итоге была запущена кластерная поисковая машина на 10000 процессорных ядер. Но уже в январе 2008 года продукт переходит под лицензию компании-производителя самых популярных веб-серверов Apache и становится доступным для всех желающих. В марте 2011 года медиагруппа Guardian вручила Hadoop первый приз Media Guardian Innovation Awards и назвала его “швейцарским армейским ножом XXI века». К 2014 году можно говорить о целой инфраструктуре, выросшей вокруг Hadoop: многие компании создают коммерческие продукты, используя наработки Каттинга.

Применение

Если посмотреть на мир медиа, можно увидеть, что решения, созданные с помощью данной технологии, используют такие непохожие друг на друга компании, как музыкальная соцсеть Last.FM и газета The New York Times. Ну и Facebook, конечно. Остановимся подробнее не опыте NYT, тем более что они довольно подробно рефликсируют этот опыт в публичном пространстве.

Опыт использования №1. Редакционный архив в публичном доступе

История использования Hadoop в NYT начинается с 2007 года. Именно тогда руководство издания приняло решение выложить в открытый доступ архив за период с 1851 до 1922 гг. Это порядка 11 миллионов статей в формате PDF. Создание кода для предоставления этих файлов не является сложной задачей. Вопрос был в том, как заставить его работать параллельно на нескольких машинах. Тогда-то издание и задумалось о применении концепции MapReduce и приняло решение использовать Hadoop. С этой точки зрения можно предположить, что технология представляет интерес для коммерческих баз данных СМИ, таких, как Integrum, СКАН и Медиалогия.

Опыт использования №2. Обеспечение доступа к библиотеке изображений

В 2009 году NYT начали использовать Hadoop для обеспечения доступа к редакционный библиотеке изображений.

Опыт использования №3. Анализ больших данных

Тогда же NYT двинулись дальше и с помощью Hadoop стали анализировать большие данные: в текстовых массивах и при интеллектуальном анализе данных для автоматического обнаружения веб-документов и услуг, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете (web mining). И, в частности, для анализа поведения пользователей и выявления закономерностей в этом массиве данных (web usage mining). Эти данные, очевидно, нужны и для оптимизации архитектуры сайта, и для формирования аргументированных коммерческих предложений рекламодателям. Специалисты NYT считают это наиболее экономически эффективным решением.

Как попробовать

Современная редакция не может обойтись без «стратегии использования облачных сервисов». Дело в том, что использование облачных сервисов предполагает их комплексную интеграцию в редакционные процессы. В частности, в традиционный издательский процесс, в процесс представления информации на редакционным сайте, в процесс организации и предоставления архива, в процесс анализа поведения аудитории. Однако любые нововведения, как уже было сказано, традиционно, сталкиваются с редакционным консерватизмом и с бюджетными ограничениями, поскольку существует мнение (не лишенное оснований), что реализация облачных стратегий предполагает существенные инвестиции. Лучшим способом борьбы как с первым, так и со вторым является создание прототипа. Для редакционных технарей-энтузиастов можно предложить, например, решение от компании Mirantis (третьего в мире по объемам созданного программного кода игрока OpenStack). Решение обладает одним несомненным достоинством: оно бесплатное. По крайней мере на то время, которое потребуется для создания прототипа.

При чем тут пустыня?

Забавный игрушечный слоненок стал символом технологии, оказывающей существенное влияние на мир масс-медиа. Что касается вынесенной в заголовок этой статьи пустыни — речь идет о проекте Sahara, являющимся частью OpenStack. Он был запущена для того, чтобы сделать развертывание hadoop-кластера в среде OpenStack процессом максимально комфортным и минимально трудоемким. В разработке этого проекта принимали участие уже упомянутый выше Mirantis, Hortonworks (Это компания, которая выросла из подразделения Yahoo, занимавшегося работой с hadoop-кластерами. Кстати, у них тоже слоны на логотипе) и Red Hat. Sahara обеспечивает инициализацию основных дистрибутивов Hadoop «с одной кнопки» и возможность эластичной обработки данных (EDP). Нечто, подобное тому, что предлагает Amazon Elastic MapReduce (EMR). Так вот, Sahara можно использовать в том числе при тестовом развертывании на Mirantis OpenStack Express, ссылка на который была дана в предыдущем абзаце.

Так что при желании всегда можно найти возможность экспериментировать с технологией. Даже с такой сложной, как «облака».

Словарик:

1. MapReduce — концепция распределенных вычислений Джеффри Дина и Санжая Гемавата (Google), опубликованная в 2004 году.

2. Cluster (кластер) — в данном случае это совокупность компьютеров, представляющих с точки зрения пользователя единый аппаратный ресурс.

3. Открытые проекты (open source projects) — в данном случае речь идет о програмных продуктах, исходный код которых доступен для изучения и использования всем желающим. Эта концепция приобретает особое значение в рамках концепции импортозамещения.

4. Лицензия Apache — одна из лицензий для свободно распространяемого программного обеспечения.

5. OpenStack — проект по созданию открытой облачной инфраструктуры (альтернатива проектам Amazon и другим коммерческим клаудам).

Читайте также: Форум «Медиа будущего»-2014: как это было?

Подписывайтесь на нас в соцсетях, чтобы получать последние новости и краткие переводы лучших зарубежных статей о журналистике и новых медиа:

https://www.facebook.com/mdtlbx

https://twitter.com/mdtlbx