“Мосанонс”: как сервис, созданный за два дня, упростит работу журналистов

Каждый день на Mosanons.ru собираются сотни анонсов разных мероприятий
Каждый день на Mosanons.ru собираются сотни анонсов разных мероприятий

В начале декабря запустился сервис “Мосанонс” (http://mosanons.ru/), который собирает и представляет в удобном виде информацию о мероприятиях в Москве и Московской области. Мы поговорили с его создателем Александром Куприяновым о том, насколько сложно сделать такой сервис, кому он нужен и как на нем можно заработать.

Беседовал Всеволод Пуля, материал впервые опубликован в журнале «Журналист» №12/2014


Что такое «Мосанонс»?

Это агрегатор анонсной информации для сотрудников медиа и PR в Москве и в Подмосковье.

Ты прикидывал примерно, какова его аудитория?

Когда я работал продюсером в РИА Новости, то лично ощущал нехватку такого продукта. Но тогда я не знал технологии, и погрузился в них только тогда, когда появилось свободное время. РИА было ликвидировано, у меня был каникулярный период.

А вообще это такой удивительный проект, в котором ты аудиторию знаешь пофамильно. Сейчас мы готовим CRM-базу потенциальных участников этой эпопеи, и там СМИ, кстати, составляют дай бог половину, потому что еще есть пресс-службы, пиар-службы, аналитические службы, посольства, представительства регионов в Москве. Таких клиентов по Москве порядка 10 тысяч, по стране — 100 тысяч.

Это В2В-ресурс, получается?

Да, но в нем есть отчетливые признаки продукта для конечного потребителя. Более того, пока не рассматривается вариант монетизации в виде подписки, но рассматривается вариант в виде обзоров и готовых бюллетеней.

То есть переупаковывая эти анонсы в какой-то другой продукт?

Ты пропускаешь слово “автоматически”. Я допускаю, что когда-нибудь будут наняты редакторы, но оттягиваю этот момент как можно дальше. Хочу понять, до какого момента нас может спасти технология.

Анонсы сами по себе ничего не значат, они не являются журналистской гордостью, особенно те, которые лежат в открытом доступе. Единственная проблема состоит в том, что, с одной стороны, отсматривать их достаточно трудозатратно, а с другой — что-нибудь пропустишь, и вовремя не среагируешь на инфоповод и это может обернуться неприятными проблемами.

Наш сервис решает простую задачу. Зайди в одно место и за 5 секунд все пойми. Технические анонсы не стоят больше 15 секунд журналистского времени.

В связи с тем, что монетизация здесь неочевидная, я приложил все усилия, чтобы не было операционных расходов. И их практически нет. Сервер стоит тысячу рублей в год. Остальное – мое время.

А сколько ты потратил на создание?

Бюджет порядка 20 тысяч рублей, это все на дизайнера. И я их еще не отдал. Он отказывается их брать, пока не сдаст продукт полностью. (интервью состоялось в середине ноября — прим.ред.)

Как люди будут использовать твой сервис?

Мы ожидаем, что журналисты будут к нам приходить, как минимум, два раза в день — утром и вечером. Мы сейчас набрали опыт, мы понимаем, кто распространяет анонсы по ночам, например. Президент, его пресс-служба, правительство очень часто анонсируют себя в ночи.

Ты сам писал всю программу? У тебя есть программистское образование?

Абсолютно. Первое – программистское, второе, незаконченное — историческое.

kupriyanov

Александр Куприянов родился в Новосибирске. Закончил Факультет бизнеса Новосибирского государственного технического университета. Работал в Стране.Ru, ИА REGNUM, РИА Новости. В РИАНе занимался вопросами планирования и региональными программами. Сейчас работает в Информационном агентстве ТАСС. Преподает в Высшей школе экономики на Факультете коммуникаций, медиа и дизайна.

То есть это скрипт, который по заданному набору правил, источников собирает и выводит информацию в виде ленты?

Да. Есть только небольшие нюансы. Сейчас мы собираем в районе 300 анонсов в день, по нашим расчетам, их может быть 700. Представляешь, лента из 700 новостей? Это много, мягко скажем.

Сейчас запустится система автоматической расстановки ключевых слов и тегов. Все это позволит в этих дебрях разбираться. Самый главный фильтр – тематический.

Есть механизм делать какие-то анонсы более важными, чем другие. Но иметь такой механизм – это не решение. У тебя 700 анонсов, 100 из них ты сделал важными. Это все равно очень много. Мы думаем о создании некого шпигеля. Самый верх, пять сообщений, будут отбираться руками.

Технология простая. Я очень много экспериментировал, например, с яндексовскими технологиями (речь идет о Tomita parser – прим.), которые открыты и доступны для всех. Сложность заключается в том, что сам этот механизм работает со словарями и правилами. И вот эти словари и правила никто, кроме тебя самого, не составит. Это достаточно долго.

Это программирование?

Это набор правил, лингвистическое программирование. То есть ничего на языках писать не надо, но ты сидишь и составляешь правила.

На вход подается текст, и правила гласят – выбирай из текста такие-то словоформы, третье лицо, единственного числа, превращай их в такую-то словоформу, глагол неопределенной формы, и выдавай. Или: найди все, что похоже на год и месяц.

Инструмент очень мощный, но он оказался избыточным. Оказалось, что все анонсы, которые хранятся в открытом виде, обладают таким количеством мета-информации, что функция лингвистического механизма свелась чуть ли не просто до вытаскивания даты и времени из текста. Кроме того, сам источник уже что-то значит. Это или судебное дело, или власть, или экономика.

Появляется все больше сайтов с семантически осмысленной разметкой. И это  сильно все упрощает. Заходит мой скрипт на сайт, а тот ему говорит: «Уважаемый робот, добро пожаловать. Вот у меня время, вот у меня заголовок, вот у меня перечень участников круглого стола. Пользуйся, дорогой робот».

Как решается задача ничего не пропустить? 

Я раз в несколько дней смотрю, чем отличаются анонсы, собранные роботом, от анонсов, собранных вручную крупными агентствами. И пытаюсь понять: это по закрытым каналам прошло – бог с ним, в сторону. А вот это, оказывается, пришло из источника, которого я не знал. Ага, иди сюда, в базу.

Знакомые написали плагин для «Хрома», который делает следующую вещь. Выделяешь текст, открываешь контекстное меню, нажимаешь пункт, который отправляет его на сервер. Сервер его анализирует, достает дату и другую информацию и закладывает в базу.

Потом я подумал: а как сделать, чтобы информация о будущем приходила ко мне целенаправленно? И оказалось, что в яндексовских подписках на новости ты можешь задать не очень сложный запрос с нужными условиями. “Яндекс” прекрасно справляется и закидывает отобранной по нужному критерию информацией. Кроме того, где-то четыре месяца назад Google объявил об инструментах автоматизации Gmail, то есть у них появился API по автоматической обработке писем.

Фактически две крупные поисковые компании сами отбирают контент тебе на сайт.

Да. Это все от лени, чтобы руками не делать.

А сколько настройка всей этой автоматизации заняла по времени?

Прототип я сделал за выходные, потом два месяца — на дизайн.

Структурно сервис состоит из порядка ста роботов. Каждый из них срабатывает со своей периодичностью, например, идет на сайт Тасса, забирает анонсы предстоящих пресс-конференций и выкладывает. Создание одного такого робота – 20 минут.

И насколько открыты наши ведомства?

В процессе работы с источниками я обратил внимание на то, что, на самом деле, наши власти – федеральные, городские, региональные – недостаточно открыты в плане анонсирования своей деятельности.

Если ты журналист, скорей всего, ты найдешь какие-то очень общие планы: “в третьем квартале мы проводим круглый стол…” А конкретные мероприятия с конкретными датами, темами, конкретными исполнителями – ты в 70% случаев не найдешь. Очень редко какая пресс-служба аккуратна в этом вопросе.

Это очень плохо, потому что из-за этого пресса как общественный институт не в состоянии на сто процентов выполнить свое предназначение, следить за властью, быть ее контролером.

У каждого журналиста есть понятие домашней работы. Если завтра он идет на какую-то пресс-конференцию, то сегодня он должен подготовиться, даже если он разбирается в теме. И неаккуратное отношение к анонсам со стороны властей лишает его этой возможности.

Безусловно, есть организации, у которых, с моей точки зрения, все очень хорошо налажено. По анонсам у нас хорошо работает Совет Федерации. Прямо загляденье, как у них все сделано. У нас относительно хорошо работает Дума: время, комитет, какие вопросы, кто принимает участие — вся эта информация у них разложена. В министерствах и ведомствах, по большому счету, творится черти что.

Власти Москвы – там не все равномерно, но любой москвич может получить информацию, когда, с кем встречается глава района, можно найти все графики всех его заместителей.

Суды все выкладывают, потому что они обязаны это делать по закону. На сайте Высшего Арбитражного Суда в день  рассматривают, по-моему, порядка 36 тысяч дел. Наверно, они просто собирают все арбитражные суды по всей стране. Такой массив собрать можно, но автоматически выделить важное-не важное крайне затруднительно.

mosanons2

Вопрос по поводу дополнительной информации, которую я нашел под анонсами, это вот памятные даты и годовщины каких-то событий. Как это делается?

Это пока эксперимент, потому что он ручной. Есть потребность в напоминаниях о 100 днях, 9 днях, и так далее. Изначально я думал делать только его. Это ручной труд, я пока не понимаю, как его автоматизировать.

Хотя первичную информацию собрал автоматом. Я подумал: а давай-ка кучу дат где-нибудь возьмем? Посмотрел «Википедию»: ага, там это есть. Два часа пыхтения за компом – все 64 тысячи дат, нашедшихся в «Википедии», легли в базу.

Конечно, все 64 тысячи, или по 300 дат в день, не показываются. Я сделал выборку, чтобы показывались исключительно круглые. Очень много приходится чистить, потому что «Википедия» любит такое: “1939 год — в этот день умер известный португальский футболист…”

Я в «РИА-Новости» работал руководителем продюсерского центра и занимался как раз тем, что планировал среднесрочную деятельность ньюсрума. Я понимаю, что важно, а что является шумом. Поэтому делаю выборку и какое-то количество потенциально востребованной информации остается.

Ты хочешь превратить это в интегрированный инструмент планирования для редактора?

Интегрированный инструмент планирования – достаточно серьезная вещь. Скорее, интегрированный источник информации для планирования.

Но разве те же «РИА», «Интерфакс»¸ «ТАСС» – они не дают тоже полной картины анонсов?

Их анонсы, безусловно, хороши. Они хороши тем, что у них есть доступ к закрытым данным. У них сидит штат редакторов, которые могут хоть с факса руками перепечатать текст и поставить. Я этого не делаю принципиально. Стоимость их продукта высока, соответственно, это накладывает ограничения на объемы продукта, на выборку, на все.

Анонсы для больших агентств – это продукт, за который они берут деньги. Я не делаю бесплатный аналог этого продукта, я объединяю открытые источники. «Мосанонс» — просто агрегатор информации, как Яндекс.Новости, только для анонсов. Агрегаторы новостей не отменяют бизнес новостных агентств.

Читайте также: Как противодействовать троллингу и агрессивному поведению в сети?

Подписывайтесь на нас в соцсетях, чтобы получать последние новости и краткие переводы лучших зарубежных статей о журналистике и новых медиа:

https://www.facebook.com/mdtlbx

https://twitter.com/mdtlbx