Казалось бы, в любой непонятной ситуации — анализируй данные. Но всё не так просто: оптимисты считают, что big data сделает мир более познаваемым и приятным, пессимисты сетуют на то, что эти методы непонятны, да и прозрачный мир слишком управляем. Мы предлагаем обратиться к критическому подходу, значит, поразмыслить над проблемой, а не принимать определённо одну из позиций.
Много лет статистика работала с данными разного объёма, но к концу 2000-х годов оказалось, что данные — это новая нефть. Самая известная статья на эту тему была написана Крисом Андресоном, главным редактором журнала Wired (пожалуй, главного бумажного американского журнала про технологии) —
«Конец теории: как потоки данных делают научный метод устаревшим». Тот случай, когда всё понятно из названия: автор утверждает, что данные делают науку ненужной, потому что теперь можно работать без гипотез и выборки.
Ну и есть более основательная книга Виктора Майер-Шёненбергера и Кеннета Кукира по этому поводу.
Но помимо дискуссий, рожденных такими публикациями, — по поводу того, что данные надо внедрять везде и немедленно, — сразу же стали говорить, что нельзя просто взять да использовать данные для познания всего.
Почему?
Например, потому что данные фиксируют положение вещей здесь и сейчас и делают наши текущие социальные и экономические свойства чем-то вроде расовой особенности или пола. Ведь политика, построенная на данных, претендует на объективность. Но в результате она скорее занимается объективацией и делает богатых богаче, а бедных беднее. Об этом и многих других политических, экономических и этических рисках написана уже целая книга Кейти О'Нил
Weapons of math destruction Об этом же статья Кейт Кроуфорд: хотя данные и большие, из них много исключено, и вместо того, чтобы представлять разнообразие, они его прячут. О разнообразии же пишет и Бернард Ридер.
Пушман и Бёрджесс анализируют метафоры, связанные с большими данными, и приходят к выводу, что в отличие от других научных объектов данные считаются как бы упавшими с неба, а не добытыми с помощью инструментов. И это вводит нас в заблуждение, будто они рассказывают, «как всё на самом деле устроено».
Это, конечно, не так. Об этом пишут и дана бойд, и Кейт Кроуфорд, и соавторы последней Грей и Милтнер. Пользователи твиттера — это не просто люди, а пользователи аккаунтов социальной сети с определённым интерфейсом (который часто меняется, и поэтому, кстати, данные за разные периоды сложно сравнивать). Кроме того, большие данные позволяют обнаружить совпадения (подчас абсурдные, вроде роста цен на масло в Бангладеше и падения акций S&P 500), но не причинность. Так что, будем честны, это не совсем наука.
Что делать? Эта критика «больших данных» кажется вполне обоснованной, но значит ли, что нам нужно совсем отказаться от их использования? Нет. Есть несколько идей о том, как не попасться в ловушки красивых и «объективных» визуализаций.
Роб Китчин сотоварищи считают, что нужно принять эпистемологический сдвиг и при этом видеть социотехнические «data assemblages»: состоящие из регистраторов, системы описания и всего, что создаёт данные.
Пауло Гербаудо пишет о том, что нужно использовать герменевтические методы в отношении больших данных
. Антрополог Том Бёлсторф предлагает принимать во внимание, когда и как собраны данные, что познание в случае с данными связано с наблюдением (и ведёт к последствиям, описанным Фуко), учитывать, что из «сырых» данных берутся не только «приготовленные», но и «прогнившие», то есть испорченные, в общем, понимать контекст производства (и не писать большие данные с большой буквы, да).
Тэтчер и Далтон в журнале «Общество и пространство» выделяют свои семь причин критического анализа больших данных Далтон и Тэтчер
:- «большие данные» всегда соотносятся со временем и пространством
- технология не нейтральна
- данные не определяют социальную жизнь
- данные никогда не бывают необработанными (raw)
- большое — не значит всеобъемлющее
- всегда есть возможность создавать контр-данные
- и возможности для географов (журнал Society and Space, понимаем контекст)
И там же Тейлор советует, что делать методологически.
Вывод: критический анализ данных нужен не для того, чтобы отказаться от новых методов и технологий, а наоборот — помогает понять, как жить с ними.
Например, Илиадис и Руссо
обозревают направление Critical data analysis, включая туда основные риски и способы что-то сделать (спойлер — главное не отрывать данные от контекста и не считать их объективными, ну и думать, как их применять полезно, а не для сильных мира сего).
Что ещё почитать по теме?
Журнал Big Data and society
http://journals.sagepub.com/home/bds