Открытые данные

Борис Штерн
Современные крупные эксперименты или наблюдения стоят сотни миллионов, а то и миллиарды долларов. В них участвуют многие десятки, сотни, а то и тысячи соавторов. Их списки в публикациях (как правило, в алфавитном порядке) называются в народе «братскими могилами», и поделом — из них совершенно непонятно кто реально получал результат и делал статью, а кто просто имел какое-то отношение (зачастую весьма формальное) к созданию установки. Таким образом, теряются индивидуальность и свобода исследователя. Происходит «индустриализация» некоторых областей науки со всеми ее «прелестями», типа административной иерархии и доминирования корпоративной политики над наукой. Это реальная проблема некоторых направлений, чреватая деградацией и тупиком. Наиболее перспективный рецепт против деградации — принцип открытых данных, уже зарекомендовавший себя в астрофизике и биологии. Открытые данные не только противоядие от обезличивания научных исследований. Это еще и новый путь людей в большую науку, отменяющий «научную провинцию», дающий шанс совершить научное открытие любому человеку в любом конце мира.
 
Что понимается под открытыми данными?
 
Два маленьких фрагмента из открытых данных эксперимента BATSE, наблюдавшего небо в мягких гама-лучах на протяжении 9 лет. Приведены кривые счета двух детекторов из восьми за время одной орбиты (около 1час. 45 мин.). На кривых видны следующие события. Сверху – до 51800 с – сильный шум от источника Лебедь Х-1, далее зашедшего за горизонт Земли. 54050 с – Лебедь Х-1 вновь показывается над горизонтом, 54560 с – высыпание частиц в магнитосфере Земли, 55000 с – солнечная вспышка, 56300с – восход Крабовидной туманности. Снизу – 78500 с – высыпание частиц, 79550 с – закат Лебедя Х-1, 80250 с – нетриггерный гамма-всплеск, пропущенный авторами эксперимента. 81700 – восход Лебедя Х-1, 83030 – еще один нетриггерный гамма-всплеск. Синусоподобные изменения в темпе счета – широтные вариации фона частиц, фон выше, когда станция залетает в высокие широты.
Два маленьких фрагмента из открытых данных эксперимента
BATSE, наблюдавшего небо в мягких гама-лучах на протяжении 9 лет.
Приведены кривые счета двух детекторов из восьми за время одной
орбиты (около 1час. 45 мин.). На кривых видны следующие события.
Сверху – до 51800 с – сильный шум от источника Лебедь Х-1,
далее зашедшего за горизонт Земли. 54050 с – Лебедь Х-1 вновь
показывается над горизонтом, 54560 с – высыпание частиц в
магнитосфере Земли, 55000 с – солнечная вспышка, 56300с – восход
Крабовидной туманности.
Снизу – 78500 с – высыпание частиц, 79550 с – закат Лебедя Х-1,
80250 с – нетриггерный гамма-всплеск, пропущенный авторами
эксперимента. 81700 – восход Лебедя Х-1, 83030 – еще один
нетриггерный гамма-всплеск. Синусоподобные изменения в темпе
счета – широтные вариации фона частиц, фон выше, когда станция
залетает в высокие широты.

Любой научный результат должен быть опубликован в открытой печати, иначе это не результат. Он может иметь справочный характер, например быть каталогом каких-нибудь объектов. В этом случае результат научной работы сам по себе не дает каких-либо новых выводов, но он необходим для дальнейшего продвижения и будет использован многими исследователями. Однако имеющиеся в литературе и в открытом доступе в сети объемные данные справочного характера — еще не то, о чем идет речь. Она идет о гигантских массивах сырой (или прошедшей лишь очевидную первичную обработку) информации, непосредственно выдаваемой аппаратурой. Как правило, эта информация остается в распоряжении авторов эксперимента. Иногда данными делятся, типа «мы вам — данные, вы нас — в соавторы». Иногда ими не делятся вообще. А бывает и так, что данные выкладываются в сеть, в открытый доступ: берите, кто хочет, и ройтесь в них, сколько заблагорассудится.

 
Это и есть открытые данные. Конечно, сами массивы информации — еще полдела, они должны сопровождаться полной информацией о свойствах и погрешностях аппаратуры, описанием структуры данных и т.п. Смысл в открытых данных появляется там, где их объем велик, а содержащаяся в них информация столь разнообразна, что ее хватит на многих «копателей» («dataminers» — термин, вошедший в обиход). Перейдем к примерам.
 
Самая масштабная инициатива по открытым данным принадлежит американской Национальной аэрокосмической администрации (NASA). В свое время они приняли принципиальное решение: все данные с аппаратов NASA, будучи оплачены налогоплательщиками, должны быть открытыми для всех. И этот принцип в целом соблюдается.
 
Например, снимки «Хаббла» или марсианских орбитальных аппаратов являются открытыми в исходном виде: не как обработанные jpeg-и, а как попиксельные данные в разных спектральных диапазонах. А другой известный аппарат, гамма-обсерватория «Комптон», оставила среди прочего массивы отсчетов детекторов гамма-квантов со всей Вселенной за 9 лет непрерывных наблюдений, и чего там только нет! Наконец, сейчас, в сентябре, открыты данные гамма-телескопа «Ферми», которыми мы воспользовались для построения изображения, открывающего данный выпуск газеты.

 
Еще один пример больших массивов данных, открытых для всеобщего изучения, — геном человека и других животных. Но это уже предмет для других авторов.
 
Коллизия интересов?
 
С какой стати авторы эксперимента должны выкладывать для всеобщего пользования свои драгоценные данные, добытые в результате многолетних трудов? В них вложена часть души в расчете на урожай в виде приоритетных научных результатов! Это с одной стороны. С другой стороны, откуда у авторов огромные средства на эксперимент? От налогоплательщиков! И последние вправе сказать: данные — на бочку! — они получены на деньги общества и должны быть общественным достоянием. А некоторые авторы могут возразить: зачем обществу сами данные? За государственные деньги заказан результат — научные факты, и мы эти факты излагаем в открытых научных статьях. И вот в этом месте воображаемые авторы совершенно не правы.
 
Срез трехмерной карты Вселенной, точками изображены галактики и скопления галактик. Мы находимся в центре. Радиус круга – около двух миллиардов световых лет
Срез трехмерной карты Вселенной, точками изображены
галактики и скопления галактик. Мы находимся в центре. Радиус круга –
около двух миллиардов световых лет


Зачем общество оплачивает удовлетворение любопытства ученых? Ради научных фактов? Как правило, в наименьшей степени ради них самих. Оно оплачивает саму систему выработки и организации знаний, методологию научного поиска и развития вкуса людей к поиску, наконец, налогоплательщики оплачивают воспроизводство носителей и добытчиков знаний. Рядовой налогоплательщик вряд ли понимает это, но интуитивно чувствует, что, платя за науку, в накладе не останется. И не остается. И вот именно ради этих целей данные должны быть открытыми. Обществу важно, чтобы с ними работало как можно больше людей, чтобы исследователи конкурировали друг с другом и учились выжимать из данных все, что можно, оттачивали мастерство и придумывали новые приемы и методы.
 
Есть и еще один аспект: посторонние исследователи, взгляд которых свеж и не замылен, обычно легко обнаруживают в данных всякий брак, систематические погрешности, пропущенные авторами, и т.п. И к тому же открытость требует досконального документирования всего эксперимента и описания всех погрешностей. Таким образом, открытые данные -это еще и способ контроля за качеством эксперимента.
 
…Итак, принцип открытости данных нужен обществу, но не лишит ли он исследовательские коллективы мотивации к разработке и созданию сложных установок? Ведь кто-то другой может увести из-под носа результаты, да еще и свой нос будет совать в самую кухню, где еще водятся всякие жучки (в просторечии «баги») и тараканы. В целом, чем сильней команда эксперимента, тем меньше ее должна беспокоить открытость данных.
 
Впрочем, есть достаточно простой компромисс — временное эмбарго на данные. То есть они выкладываются в сеть с задержкой, например, на полгода, что позволяет команде выловить всех жучков и тараканов и успеть снять сливки. Если это «богатые» данные, со сложной универсальной установки — «молока» там хватит на многих.
 
А тем временем в Европе…
 
В то время как NASA последовательно придерживается принципа открытых данных, в Старом Свете с этим сложней. Впрочем, Европейское космическое агентство ESA, по крайней мере в крупных экспериментах, следует если не принципу полной открытости, то хотя бы принципу конкурсности и прозрачности в вопросе доступа к данным. Возьмем для примера миссию «Интеграл» — большой аппарат, наблюдающий в рентгеновском и мягком гамма-диапазонах. В отличие от орбитальных обсерваторий «Комптон» и «Ферми», у него сравнительно узкое поле зрения, и встает вопрос, что наблюдать. Изначально был запланирован ряд очевидных приоритетных наблюдений, например скан плоскости Галактики. На оставшееся время проводится открытый конкурс заявок любых исследователей из стран-участниц (Россия входит в их число) на наблюдения разных объектов. Заявки рассматриваются экспертным комитетом, куда входят люди из разных стран, в том числе и из России. Победившие заявки утрясаются по срокам и включаются в программу наблюдений. Победители наделяются правами на данные (data rights), т.е. они, и только они, получают данные именно на то, что запрашивали в заявке. Но в поле зрения кроме заявленных объектов попадает много чего еще. И тут проводится второй тур заявок — на бесхозные объекты в запланированных полях наблюдения. Победители, и только они, получают данные по запрошенным объектам. Конкурс, как правило, невелик, и зачастую права на данные получают вопреки ужасающе низкому научному уровню обоснования.
 
По-моему, это более-менее разумная схема, во всяком случае -первый тур. Будь моя воля, я бы отменил второй тур и открыл бы все данные. Правда, они и так открываются со временем.
 
С национальными европейскими проектами все не так. Для примера возьмем итальянский (с российским участием) эксперимент PAMELA — магнитный спектрометр в космосе. Основное предназначение — измерение потока античастиц и (вдруг!) антиядер. Тут не то что речи нет об открытых данных, тут ощущается дух свирепого собственника. Мой знакомый, русско-финский профессор, обратился к команде «Памелы» с запросом по поводу данных о низкоэнергетических частицах, которые не относятся к основной цели эксперимента. Это в большинстве частицы солнечного происхождения, несущие информацию об активности Солнца и земной магнитосфере. Он спросил, на каких условиях может получить эти данные. И получил ответ: ни на каких.
 
С «Памелой» также связан довольно известный скандал. Они показали на конференции предварительные данные, кто-то сфотографировал их из зала и опубликовал (со ссылкой) в теоретической работе. Авторы эксперимента разразились гневными реляциями, расценивая это как нарушение авторского права. Теоретик поступил не очень солидно, но реакция команды «Памелы», по-моему, куда больше противоречит духу науки и, если честно, вызывает у меня полное неприятие. Либо не демонстрируйте результаты, либо не запрещайте их воспроизводить и цитировать. Доклад на конференции — это запуск результатов в открытый научный оборот, и понятие копирайта на картинку с результатами — чистый абсурд.
 

А как насчет Большого адронного коллайдера?

 Экспериментальная физика высоких энергий производит огромные массивы разнообразных данных, которых тоже хватает на многих исследователей. Подходит ли принцип открытых данных для физики высоких энергий? Думаю, что большинство экспериментаторов ответят — нет. Подозреваю также, что они при этом будут неправы. Тут, конечно, есть техническая проблема — гигантский объем данных. Но она не фатальна: пусть данные будут открыты хотя бы для профессионалов, имеющих к ним доступ по специальным каналам с быстрым трафиком. Гораздо большая проблема — в психологии, традициях и организационных принципах, сложившихся в физике высоких энергий. Сейчас данные не являются открытыми даже в пределах огромных коллективов — за них торгуются, их распределяют, а публикуют результаты все равно в «братских могилах». Индивидуальность исследователя проявляется разве что в докладах на конференциях. Сложившиеся традиции отталкивает от данной области науки людей, для которых самостоятельность и свободный поиск являются важнейшими ценностями.

 
Это — в общем, теперь пару слов о Большом адронном коллайдере, который стоит несколько миллиардов евро. Поток информации с его установок будет беспрецедентным: чтобы его переварить, потребуются распределенные вычисления огромного числа массивов компьютеров в разных концах мира (система «grid»). Уметь управляться с таким потоком информации — уже большое достижение и ценнейший опыт. Далее, количество информации сжимается -сигналы с детекторов превращаются в события с параметрами вылетевших лептонов и адронных струй. И с этой сжатой информацией (ее поток только с установки CMS составит порядка 30 мегабайт в секунду) уже можно делать физику.
Будь я большим начальником, представляющим интересы налогоплательщиков, я бы сказал:
 
— Так и быть, в течение года (условного) после физического пуска обрабатывайте данные как привыкли, открывайте или закрывайте бозон Хиггса и суперсимметричные частицы, публикуйтесь братскими могилами, а по истечении года — данные на бочку (в открытый доступ), вместе с детальной документацией!
 
Я не являюсь никаким начальником, поэтому меня никто не послушает, да и нет такого начальника, который мог бы на этом настоять (может, и к лучшему, а то бог знает что еще может прийти в голову начальнику). Поэтому остается только пропагандировать эту идею и искать сторонников. Это путь не быстрый, поэтому вряд ли данные БАК будут открыты, пока они еще теплые. А жаль, поскольку открытый доступ к ним существенно повысил бы суммарную квалификацию физиков, уровень развития методов обработки и интерес к науке. Да и вытрясли бы из БАКа больше.
 
Just do it
 
Этот фрагмент — только для очень любопытных и компьютерно-грамотных людей, особенно для тех, в ком бьется горячее сердце хакера. Последним не надо огорчаться, что все описанное ниже легально разрешено. Итак, для примера, учимся доставать и читать свежие данные «Ферми».
 
Все архивы данных NASA лежат на мощных серверах, где не бывает проблем с трафиком, и достаются либо через анонимный доступ по протоколу ftp, либо через обычный веб-браузер. Пойдем вторым путем, сюда: http://fermi.gsfc. nasa.gov/cgi-bin/ssc/LAT/WeeklyFiles. cgi и скачиваем файлы с названием типа LAT_allsky_239557417.000_ V01.fits — их там больше полусотни, каждый — недельный улов Ферми, их вес — от 300 до 400 мегабайт, так что связь на вашем конце должна быть хорошей.
 
Данные оформлены в стандарте fits, распространенном в астрономии и астрофизике. На том же сайте есть весь необходимый софт, чтобы читать данные и работать с ними. Я бы не рекомендовал целиком полагаться на этот софт — тогда вы становитесь его рабом и мало чему научитесь. Лучший путь — воспользоваться читалкой fits-файлов Fv (http://heasarc.gsfc. nasa.gov/ftools/fv), которая может конвертировать данные в обычный ASCII-файл и потом работать с ним своими средствами. В результате вы получаете 200 млн гамма-квантов с направлениями и временами прихода, с их энергией и рядом технических данных, нужных для более профессионального анализа. На этом этапе вы как бы получаете хороший, но любительский телескоп, в который вы можете любоваться Вселенной в гамма-лучах за год с лишним наблюдений, изучать переменность объектов и имеете некий шанс открыть нечто ускользнувшее от внимания предшественников.
 
Если же вам захотелось сделать нечто более серьезное, например изучить спектры каких-либо объектов, вам нужно еще разобраться, как устроена функция отклика детектора, скачать соответствующие файлы и освоить метод «forward folding», позволяющий грамотно работать с данными в условиях реальной жизни, где все перекошено и смещено. Это уже кухня настоящего исследователя, которой, увы, владеют далеко не все из считающих себя таковыми.
 
«Ферми» — это только для примера. Есть и другие, еще более богатые архивы. Например, архив эксперимента BATSE, наблюдавшего все небо в жестком рентгеновском и мягком гамма-диапазонах на протяжении 9 лет (см. рис. 2). Вероятно, самый захватывающий по своей неисчерпаемости — Сло-ановский цифровой обзор неба (www.sdss.org). Это детальное картографирование Вселенной, причем в трехмерии, поскольку снимаются спектры галактик и определяется красное смещение. Данные, конечно, открыты, и в исследовании Вселенной, по данным SDSS, участвуют сотни волонтеров, среди которых есть и профессионалы, и любители. Временами они находят что-то совершенно новое, например какие-нибудь экзотические, ранее неизвестные типы галактик. Ничто не мешает любому читателю взять да и присоединиться к ним. ♦
 
 

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Связанные статьи

avatar
  Подписаться  
Уведомление о

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: