Что такое Big Data?

cовместный спецпроект постнауки
и университета иннополис о больших данных

© Eric Fischer
Иннополис

Как большие данные стали одной из самых интересных задач IT-индустрии

Станислав Протасов

Станислав Протасов

кандидат физико-математических наук, МФТИ, программист компании Parallels

Большие данные — это совокупность технологий, которые призваны совершать три операции. Во-первых, обрабатывать большие по сравнению со «стандартными» сценариями объемы данных. Во-вторых, уметь работать с быстро поступающими данными в очень больших объёмах. То есть данных не просто много, но их постоянно становится всё больше и больше. В-третьих, они должны уметь работать со структурированными и плохо структурированными данными параллельно в разных аспектах. Большие данные предполагают, что на вход алгоритмы получают поток не всегда структурированной информации, и что из него можно извлечь больше, чем какую-то одну идею.

Типичный пример больших данных — это информация, поступающая с различных физических экспериментальных установок, например, Большого адронного коллайдера, который производит огромное количество данных, и делает это постоянно. Установка непрерывно выдает большие объемы данных, а ученые с их помощью учёные решают параллельно множество задач.

Появление больших данных в публичном пространстве было связано с тем, что эти данные затронули практически всех людей, а не только научное сообщество, где подобные задачи решаются давно. В публичную сферу технологии Big Data вышли, когда речь стала идти о вполне конкретном числе — числе жителей планете. 7 миллиардов, которые собираются в социальных сетях и других проектах, которые агрегируют людей. YouTube, Facebook, ВКонтакте, где количество людей измеряется миллиардами, а количество операций, которые они совершают одновременно, — огромно. Поток данных в этом случае — это пользовательские действия. Например, данные того же хостинга YouTube, которые переливаются по сети в обе стороны. Под обработкой понимается не только интерпретация, но и возможность правильно обработать каждое из этих действий, то есть поместить его в нужное место и сделать так, чтобы эти данные каждому пользователю были доступны быстро, поскольку социальные сети не терпят ожидания.

Читать далее

Кьянг Ку

Кьянг Ку

специалист в компьютерных науках Кьянг Ку о датамайнинге, системах «Твиттера» и «интернете вещей»

Управление большими массивами данных

Как работает Data Mining?

Кьянг Ку

Кьянг Ку

специалист в компьютерных науках Кьянг Ку о датамайнинге, системах «Твиттера» и «интернете вещей»

Наука о данных занимается извлечением знаний и значимой информации из крупных и сложных массивов данных. Извлечение информации выводит скрытые закономерности, спрятанные в данных, и позволяет лучше понимать данные. В этом значимость науки о данных. Она соединяет знания с реальностью. Она преобразует онлайновые знания в оффлайновые. Она меняет нашу жизнь, стратегии бизнеса, подход к выбору и помогает другим наукам технологии и социологическим исследованиям.

Твиттер — отличный пример массивной динамической диаграммы. У Твиттера ежемесячно более 284 миллионов активных пользователей. Они размещают более 500 миллионов твитов в день. Отношения и общение между пользователями создают массивные динамические диаграммы, которые сложно не только понять, но даже визуализировать.

Одно из решений этой проблемы — обобщить данные. Это позволяет понять, как информация распространяется в системе, и какие пользователи — самые интересные и важные в процессе общения. Если определить важных пользователей, можно, например, остановить вирус, если таковой распространяется по системе, можно рекламировать товары в системах Твиттера, можно разобраться, как люди воспринимают информацию в онлайновые часы и чем это непохоже на оффлайновые часы. Одна из важнейших задач в этой области — понять миры онлайна и оффлайна.Например, данные того же хостинга YouTube, которые переливаются по сети в обе стороны. Под обработкой понимается не только интерпретация, но и возможность правильно обработать каждое из этих действий, то есть поместить его в нужное место и сделать так, чтобы эти данные каждому пользователю были доступны быстро, поскольку социальные сети не терпят ожидания.

Читать далее

Репутация в социальных сетях

Как вычислить степень нашего доверия к «друзьям»?

Анализ социальных сетей — одна из самых популярных тем для исследований в наши дни. Если взять охват аудитории всех сайтов с социальными сетями, то мы увидим, что они привлекли самое большое число пользователей за всю историю интернета. Это означает, что у нас в руках огромное количество информации об активности людей в социальных сетях, равно как и об их структуре. Поэтому мы, люди, занимающиеся исследованиями, ищем пути такого использования этого большого количества данных, который дал бы нам возможность разобраться в них.

Нам всем знакомы понятия «доверие» и «репутация». Доверие — это то, что необходимо для принятия того или иного решения. Без доверия вы не отдадите деньги банку. В социальных сетях пользователи делятся очень многим. Очевидно, что им не хотелось бы делиться личными вещами, такими как фото, с людьми, которым они не доверяют. Исследователи пытаются найти способ вычисления репутации друзей и прочих людей, с которыми мы связаны в социальных сетях, чтобы иметь возможность делиться личными данными и информацией лишь с теми, кому мы доверяем. Именно для этого ученые работают над вычислением репутации.

Читать далее

Безопасность в социальных сетях

В конце 90-х было ощущение, что интернет станет источником достоверной информации. Однако пользователи делятся всем, чем угодно, начиная от несуществующих цитат, заканчивая ничем не подкрепленными новостями. Поэтому возникла идея создания инструмента для измерения доверия. Исследователи создают платформы, в которых идет автоматический анализ того, насколько пользователи доверяют друг другу. Они изучают все пути, по которым пользователи взаимодействуют друг с другом. Становится очевидно, что пользователи отдают предпочтение небольшому числу других пользователей, доверяют им, читают и комментируют чаще. Платформа умеет сама анализировать поток информации, и на ее основе подсчитывать так называемый «индекс доверия». Он измеряется в процентах, от нуля до ста, и претерпевает постоянные изменения: может как вырасти, так и упасть. Благодаря ему возможно судить, насколько пользователи доверяют друг другу.

Читать далее Изображение © Eric Fischer

Сергей Зыков

Сергей Зыков

о возникновении программной инженерии, сложности корпоративных систем и развитии технологий

Как разрабатывают информационные системы для корпораций?

%Подзаголовок%

Сергей Зыков

Сергей Зыков

о возникновении программной инженерии, сложности корпоративных систем и развитии технологий

Корпорации принципиально отличаются компаний, и прежде всего, размером. Второе – это распределенность, ведь, как правило, корпорация – это не один офис, а географически разные точки, которые чем-то между собой связаны. И третье – это диверсификация, то есть речь идет не об одном виде бизнеса. Возьмем Microsoft: они создают и продают программное обеспечение, но и есть специальная компания Microsoft Research, которая занимается исследованием перспективных направлений деятельности. Для корпораций необходимы средства информационной поддержки, для ведения на разных уровнях: это и учет, и планирование, и управление, и прогнозы. Для этого и создают корпоративные системы.

В 1968 году была конференция НАТО, где возник такой вопрос: а можем ли мы строить крупное, надежное, поддерживающее большое количество распределенных взаимодействующих единиц программное обеспечение. И ответ был – не можем. Не можем в принципе, потому что жизненный цикл выглядит совершенно иначе. Основные проблемы корпоративных информационных систем сводятся к проблемам программной инженерии, а также к анализу данных, интеграции, консолидации и представлению отчетной информации.

Читать далее

Книга «Software Architecture in Practice» выдержала уже три издания. Коллектив авторов предлагаемой книги представляет Институт программной инженерии, который, по сути дела, является колыбелью программной инженерии, и разрабатывает программное обеспечение, в том числе, для Пентагона.

Software Architecture in Practice
Авторы: Лен Баас, Пол Клементс, Рик Кацман
ISBN-13: 978-0321815736

Lorem ipsum dolor sit amet, consectetur adipisicing elit. Libero obcaecati non dolorum dolorem, quod maiores ducimus corporis vitae repellendus dignissimos, aliquam, eveniet reprehenderit a praesentium officiis eius architecto commodi ab?

Software Architecture in Practice
Авторы: Лен Баас, Пол Клементс, Рик Кацман
ISBN-13: 978-0321815736

Книга «Software Architecture in Practice» выдержала уже три издания. Коллектив авторов предлагаемой книги представляет Институт программной инженерии, который, по сути дела, является колыбелью программной инженерии, и разрабатывает программное обеспечение, в том числе, для Пентагона.

Software Architecture in Practice
Авторы: Лен Баас, Пол Клементс, Рик Кацман
ISBN-13: 978-0321815736

Южный Треугольник, как бы это ни казалось парадоксальным, выбирает восход . Комета Хейла-Боппа ничтожно оценивает космический возмущающий фактор. Ганимед представляет собой азимут. Сарос вызывает эллиптический сарос.

Software Architecture in Practice
Авторы: Лен Баас, Пол Клементс, Рик Кацман
ISBN-13: 978-0321815736

Южный Треугольник, как бы это ни казалось парадоксальным, выбирает восход . Комета Хейла-Боппа ничтожно оценивает космический возмущающий фактор. Ганимед представляет собой азимут. Сарос вызывает эллиптический сарос.

Software Architecture in Practice
Авторы: Лен Баас, Пол Клементс, Рик Кацман
ISBN-13: 978-0321815736