Тезисы выступлений


Анджей Аршавский, генеральный директор, "Лаборатория Цифрового Общества"

Большие Данные – онтология и применение в маркетинге

В докладе будет еще раз поднята тема определения термина Большие Данные и будет предложена альтернативная концепция его интерпретации. Также подробно рассматривается ошеломляюще быстро растущее направление применения технологий Больших Данных в маркетинге и продажах на рынках B2C и В2B. Это явление рассматривается с точки зрения технологий и данных, а также представляется в качестве яркого примера масштабного воплощения в повседневный бизнес еще не так давно мало понятного технического направления  Big Data.


Виктор Топорков, д.т.н.заведующий кафедрой вычислительной техники, НИУ МЭИ

Большие данные и экономические модели организации вычислений в распределенных средах

Большие задачи, например, обработка данных физических экспериментов на LHC (ЦЕРН), зачастую требуют привлечения распределенных вычислительных ресурсов, часть из которых используется совместно с их владельцами - в режиме неотчуждения. Для распределенных вычислительных сред с неотчуждаемыми ресурсами характерна конкуренция глобальных (пользовательских) и локальных потоков заданий в пределах рассматриваемого домена вычислительных узлов, имеющих своих собственников. Неоднородность, динамичность состава и различная административная принадлежность вычислительных ресурсов, используемых совместно с их владельцами, существенно усложняют организацию распределенной обработки данных с требуемым качеством обслуживания. В этих условиях весьма эффективными являются экономические модели планирования распределенных вычислений, включая грид-приложения, мультиагентные системы и облачные вычисления. 
Доклад посвящен различным аспектам комплексного решения проблемы организации распределенных вычислений на основе экономических моделей предоставления и потребления ресурсов, а также анализе свойств заданий и предпочтений ключевых игроков - пользователей, владельцев и администраторов виртуальных организаций.


Вадим Турлапов, д.т.н., руководитель лаборатории компьютерной графики, ННГУ имени Н.И.Лобачевского

Проблема Больших Данных в развитии национальной медицины и здравоохранения

Анализируются объемы данных, связанные с современными методами диагностики, прежде всего с методами томографии, и методами лечения в медицине. Даются оценки объемов данных на персональном уровне, уровне клиники, уровне территорий. Обсуждаются  условия и возможности превращения больших медицинских данных в технологический и стратегический ресурс, работающий на развитие страны и здоровья нации. Приводятся примеры и демонстрация возможностей существующих и возможных технологий в системе здравоохранения и медицинского образования, построенных на больших данных. Приводятся примеры работы с большими данными из области биологии. Обсуждаются требования к платформам и коммуникациям.


Максим Бабенко, к.физ.-мат.н., руководитель группы разработки, "Яндекс"
Иван Пузыревский, старший разработчик, "Яндекс" 

YT – эволюция системы распределенных вычислений

В течение последних трех лет мы разработали, реализовали и внедрили YT – новую платформу для хранения и обработки больших объемов статистических и аналитических данных. Платформа задумывалась как замена существующей в "Яндексе" с 2008 года MapReduce-подобной системе обработки данных с улучшенными показателями эффективности, доступности и масштабируемости. В докладе мы бы хотели дать краткий обзор развития технологии распределенных вычислений, поделиться опытом, полученным в процессе разработки и эксплуатации новой системы.


Сергей Кузнецов, д.физ.-мат.н.заведующий отделением прикладной математики и информатики, НИУ ВШЭ
Дмитрий Игнатов, к.т.н., НИУ ВШЭ

Решетки формальных понятий в современных методах анализа данных и знаний

В докладе рассказывается об  анализе формальных понятий (АФП) и его роли в разработке моделей майнинга данных (Data Mining) и открытия знаний, приводится краткий обзор его основных приложений в области анализа больших объемов данных сложной природы.


Леонид Соколинский, проректор по информатизации, ЮУрГУ

Интеграция параллелизма в СУБД с открытым кодом

Вычислительные кластеры сегодня получают все большее распространение. В списке ТОР 500 самых мощных компьютеров мира они занимают более 83%. Это обусловлено тем, что современные вычислительные кластеры демонстрируют превосходную масштабируемость при относительно низкой стоимости, так как собираются из стандартных компонентов, поставляемых на рынок. Кластеры применяются для решения широкого круга задач, однако их применение для обработки сверхбольших данных (big data) ограничивается тем фактором, что для них не существует параллельных СУБД с открытым кодом. Наиболее простым решением этой проблемы является интеграция фрагментного параллелизма в существующую "последовательную" СУБД с открытым кодом. В докладе рассматриваются пути и методы, позволяющие решить эту задачу.


Леонид Черняк, научный редактор, журнал "Открытые системы"

Перспективы работы с большими объемами данных

В XXI веке появились технологии новой эры, способные порождать, воспринимать и обрабатывать гигантские объемы данных. Эти технологии радикально меняют представления о том, какими могут быть компьютеры, и о том, что можно делать с использованием компьютеров новой эры. Среди новых направлений: когнитивный компьютинг, поддерживающий аналитическую деятельность человека, современные подходы к задачам искусственного интеллекта и к управлению экономикой с использованием полноценной обратной связи (feedback economy).


Борис Миркинд.т.н., профессор кафедры анализа данных и искусственного интеллекта, НИУ ВШЭ

Кластер-анализ как средство анализа и интерпретации данных

Кластер – это совокупность элементов данных или наблюдений, которые являются однородными или похожими в рассматриваемой системе признаков. Кластер-анализ – это вычислительная дисциплина, посвященная методам отыскания и описания кластеров в данных.
В докладе рассказывается об основных целях использования методов кластер-анализа: (а) структуризация (представление общей структуры данных), (б) описание кластеров в терминах тех или иных признаков, (в) установление взаимосвязи между различными аспектами явлений, (г) формирование обобщающих утверждений о свойствах данных и явлений, а также (д) визуализация данных в процессах принятия решений. Эти цели иллюстрируются примерами, взятыми в основном из работ докладчика.



Наталья Касперская, генеральный директор, InfoWatch 

Проблематика анализа и защиты Больших Данных

Термин «Большие Данные» (Big Data) до сих пор не имеет устоявшегося определения. На мой взгляд, Big Data – это данные такого объема, который достаточен для того, чтобы сделать выводы, к которым невозможно прийти на основе анализа разрозненных данных. И вопрос здесь не в количестве терабайт, а в том, насколько они агрегируются для возможного последующего анализа и извлечения из них какого-либо смысла.
Компания InfoWatch подходит к проблеме Больших Данных с точки зрения мониторинга и анализа корпоративной информации, которая растет лавинообразно, и эту информационную лавину необходимо анализировать, выделять из нее конфиденциальные данные и защищать их. Защита данных – это отдельная большая проблема, которая пока остается до конца не решенной. Ведь информация не имеет четко определенной и неизменной формы, она постоянно трансформируется в зависимости от задач, от доступа к ней тех или иных лиц, от текущей ситуации в компании.



Андрей Устюжанин, к.физ.-мат.н., руководитель совместных проектов CERN и «Яндекс»

Машинное обучение как инструмент современного ученого

Научные открытия сегодня требуют тщательной экспериментальной проверки большого количества гипотез. Для такой проверки необходимо уметь эффективно обрабатывать огромные объемы данных, извлекать из них содержащиеся там закономерности. Для этих задач одних методов статистики бывает недостаточно. Следующий виток развития технологий анализа данных принято называть общим термином "машинное обучение".
В своем  докладе на нескольких современных примерах я покажу некоторые типовые сценарии использования машинного обучения, опишу базовые принципы построения таких систем и приведу примеры инструментариев, готовых к использованию в научных целях.



Роман Путин, заместитель генерального директора, «Информ-Консалтинг»

Автоматизация подготовки и ведения нормативно-справочной информации на основе ретроспективного анализа Больших Данных

Подготовка качественной справочной информации для ее дальнейшего использования в информационных системах управления ресурсами предприятий требует выполнения значительного объема рутинных операций в сжатые сроки. При подготовке и ведении справочной информации специалисты сталкиваются с задачей по обеспечению непротиворечивости и полноты вводимой информации в информационную систему. Эффективность решения этой задачи обеспечивает специализированное программное обеспечение АС «Классификатор», разработанное и развиваемое компанией «Информ-Консалтинг». В решении разработчики особое внимание уделяют сервисам анализа массивов данных, накопленных в ходе проектов (ГАЗПРОМ, ЛУКОЙЛ, РУСАЛ, НЛМК и т.д.), а также обработке государственных стандартов и технических условий.


Павел Самарский, руководитель группы веб-проектов, Издательство «Открытые системы»
Павел Христов, к.ф.-м.н., директор группы ИТ-изданий, Издательство «Открытые системы»

Интернет-сервисы для подписчиков научных изданий

Классические механизмы привлечения подписчиков, основанные на периодическом издании подписных каталогов специализированными подписными агентствами, ранее использовавшиеся газетами и журналами, утратили свою эффективность. Издательствам необходимы принципиально иные, более эффективные, способные сократить издержки и задействовать новые каналы привлечения подписчиков инструменты. Специализированным, нишевым изданиям, особенно, профессиональным и научным, необходима альтернатива классическим подписным каталогам — их услуги слишком дороги для таких изданий, кроме того, они не достигают фокусной аудитории.
Разработанный в издательстве «Открытые системы» онлайн-сервис позволяющей создавать виджеты с информацией об изданиях и условиях подписки для внедрения на сайты изданий (издательств), а также административной (серверной) части, включающей типовые автоматизированные места сотрудников службы подписки, а также личный кабинет подписчика.
Виджет подписки и личный кабинет позволяют подписчику самостоятельно оформлять и редактировать новые заказы на подписку, продлевать подписку, редактировать собственный профиль, хранить ранее приобретенные цифровые продукты издателя, получать информацию и персональные предложения, связанные с новыми продуктами и издателя, и т. д.
Использование сервиса доказало свою особую эффективность в случае, когда издание адресовано узкоспециализированной аудитории, а издатель и потенциальные подписчики связаны общими профессиональными интересами и возможными долговременными партнерскими проектами.


Леонид Жуков, Ph.D, профессор отделения прикладной математики и информатики, НИУ ВШЭ

Профессия Data Scientist

Harvard Business Review в 2012 году назвал  Data Scientist “the Sexiest Job of the 21st  Century”.  Такие эпитеты привычны  скорее для фотомоделей и киноактеров, чем для ученых и инженеров. В своем докладе я расскажу о том, чем в действительности занимаются  Data Scientists, что сделало их профессию такой популярной и почему ее называют профессией будущего. Будут затронуты вопросы образования и практических навыков, необходимых для того, чтобы стать Data Scientist. Мы  также  обсудим ожидания индустрии и перспективы, которые открывает революция в Больших Данных для программистов, инженеров и математиков.



Владимир Будзко, д.т.н., чл.-корр. Академии Криптографии РФ, заместитель директора по научной работе, ИПИ РАН
Системы высокой доступности и Большие Данные
По мере увеличения степени встраиваемости средств информатизации в различные направления деятельности современного общества возрастают требования  к таким их характеристикам, как живучесть, адаптируемость, масштабируемость. Поэтому сформировалось и постоянно развивается научно-техническое направление, связанное с созданием систем высокой доступности (СВД). От таких систем требуется повышенная готовность осуществлять информационное обслуживание пользователей или управляемых объектов. А это означает, что предъявляются и повышенные требования ко всем обеспечивающим средствам.
Высокая доступность (ВД) применительно к автоматизированным информационным системам (АИС) предполагает  не только своевременность выработки информации, но и высокое качество последней. Поэтому АИС ВД должна включать средства оперативного сбора точных и полных данных и средства их своевременной обработки для получения информации, обеспечивающей принятие эффективного решения. Уместно называть такие системы не просто АИС ВД, а АИС высокой доступности данных – АИС ВДД.
Рассматриваются особенности применения платформы Больших Данных при построении АИС ВДД.



Александр Шмид, д.т.н., председатель правления, «ЕС-Лизинг»

Стратегические угрозы XXI века

В соответствии с десятилетним прогнозом (2005-2015) лаборатории стратегического планирования IBM к 2015 году во многих областях экономики компьютеры будут превосходить людей по качеству принимаемых решений. Характеристики анонсированной в марте 2012 года экспертной системы IBM Watson убедительно подтверждают достоверность такого  прогноза. Для компаний, необеспечивающих идентичного Watson уровня принимаемых решений, наличие у конкурентов систем класса Watson является стратегической угрозой бизнесу.
В докладе анализируются пути повышения качества корпоративных решений национальных компаний на технологической основе Watson – платформе IBM BIG DATA. Рассматриваются примеры задач, решаемых в Центре компетенции IBM BIG DATA ЕСЛ. Подчеркивается необходимость формирования новых университетских программ обучения студентов на основе новых, по сути революционных, технологий.



Светлана Мальцева, д.т.н., и.о. декана факультета бизнес-информатики, НИУ ВШЭ

Большие Данные в образовании: новые возможности и новые вызовы

Образование является одной из сфер, в которой новые технологии Больших Данных являются очень актуальными,  обеспечивая возможность перехода к новым, более эффективным образовательным моделям.
Широкое использование ИТ в современном образовательном процессе позволяет собирать, хранить и обрабатывать большие объемы данных, в том числе и в оперативном режиме. Аналитика этих данных  дает возможность решать новые задачи, обеспечивающие поддержку таких важных образовательных трендов, как использование среды открытых знаний, внедрение адаптивных систем обучения, реализация коллаборативного обучения.
Приход в образовательную сферу технологий Больших Данных означает существенное усиление роли в ней  информационных технологий, делает их  двигателем развития образовательных институтов и структур. В первую очередь этому способствуют возможности нового аналитического инструментария. Развитие концепции образовательной аналитики предполагает создание систем, функционал которых охватывает задачи извлечения данных из разнородных источников, моделирование образовательных процессов, базы педагогических практик.
Доступность больших объемов  данных и инструментов по извлечению информации из этих данных существенно влияет также на  развитие научного и инновационного потенциала университетов.



Борис Позин, д.т.н., технический директор, «ЕС-лизинг»

Современные тенденции Больших Данных. Взгляд технолога

Рассмотрена общая схема решения задач управления компанией с применением технологии Больших Данных. Сформулированы требования к комплексу инструментальных средств, необходимых для работы креативной команды, осуществляющей постановку и решение аналитических задач с использованием структурированных, неструктурированных и потоковых данных о функционировании компании и о внешней среде, с которой компания взаимодействует. Показаны основные технологии, удовлетворяющие этим требованиям, и свойства инструментальной платформы, которая позволит эффективно осуществлять решение задач исследования данных для проведения различных видов анализа. Приведены сведения о некоторых задачах, которые могут быть решены методами Больших Данных для анализа (в том числе совместного) различных видов данных
Приведены краткие сведения о платформе IBM Big Data и ее расширениях, которые необходимы для решения ряда новых задач в интересах различных заказчиков в банковской отрасли, в ретейле, в управлении ИТ с учетом опыта, накопленного в центре компетенции по технологии IBM Big Data.