- Троицкий вариант — Наука - https://trv-science.ru -

ИНИОН. Что делать?

Как бы ни была велика самоотверженность людей, спасавших книги после пожара в Институте научной информации по общественным наукам (ИНИОН) РАН [1], важнее всего, чтобы эти усилия не пошли прахом, то есть чтобы книги стали доступны в максимально короткий срок и способствовали развитию науки. Как сохранить институт после пожара? Рассуждает волонтер Павел Тычина (по основной профессии — банковский аналитик, по образованию — математик).

Есть много текстов о том, почему всё плохо и дальше станет только хуже. Не буду повторять подобные аргументы. Хочу лишь подчеркнуть, что действовать нужно быстро и эффективно. Иначе все плохие прогнозы сбудутся. Стоит выделить и главную проблему: общество не осознает сейчас всю важность ИНИОНа, перспективность научных исследований, которые там проходят. Если не удастся показать важность этого института, его штат сократят, а книги станут недоступны на долгие годы.

В чем заключается ценность библиотеки и института для общества? Одна только стоимость книг во много раз превосходит стоимость любого торгового центра, который может быть построен на месте ИНИОНа. Если принять среднюю стоимость трудновосстановимых книг за 500 долл., их общая стоимость уже превысит 1 млрд долл. А ведь погибло еще 3 млн обычных книг и других материалов, включая микрофильмы. Стоимость самого дорогого ТРЦ «Метрополис» составляет 1,2 млрд долл. при гораздо большей занимаемой площади и стоимости строительства 800 млн долл. [2].

Однако следует помнить, что интеллект оценивается дороже. Например, капитализация компании Google сейчас превышает 360 млрд долл. На первый взгляд, сама мысль, что с помощью ИНИОНа можно вырастить второй Google, кажется нелепой. Однако не будем спешить.

Анна Горская и пострадавшие  книги. Фото В. Акшенцевой

Анна Горская и пострадавшие книги. Фото В. Акшенцевой

Заглянем в будущее

Создание поисковых систем потребовало привлечения многих интеллектуальных и технических ресурсов человечества. Однако поисковые системы не всегда помогают найти нужную информацию. Часто ее можно найти только в «Википедии», 96% авторов которой составляют неженатые мужчины [3]. Чтобы информация попала в энциклопедию, могут понадобиться многие годы на ее поиск и обработку. Источники зачастую будут бумажными, а поиск осуществляется по библиотечным каталогам и с помощью советов других специалистов. Мы живем в условиях ускоряющегося информационного потопа. Очевидно, что переработка информации требует оптимизации и автоматизации не только для науки, но и для обычных людей.

Ситуация напоминает добычу каменного угля с большой глубины. Его залежи возникли из-за того, что древовидные папоротники не были измельчены насекомыми и бактерии не смогли их переработать.

Похожая ситуация наблюдается сейчас в области обработки информации — тексты должны быть не только отсканированы и распознаны, но и приведены в формат, пригодный для осмысленного поиска. Например, с помощью семантического анализа. Тогда потребление информации упростится, проведение научных исследований ускорится, и они станут более качественными.

Систему, которая поможет упростить обработку информации, создала компания ABBYY.

Платформа Compreno получила приз РБК за 2014 год в номинации «Прорыв года». «По сути, специалисты ABBYY научили „компьютер“ не просто распознавать, но и „понимать“ естественный человеческий язык» [4].

Платформа Compreno переводит текст на универсальный язык понятий, включающий в себя более 60 тыс. элементов [5]. Это позволяет производить поиск информации по смыслу. Мысль может формулироваться по-разному, но информация всё равно найдется.

Платформу Compreno можно использовать для:

Сейчас системы, основанные на Compreno, продают коммерческим компаниям для корпоративного поиска и извлечения данных [6]. Однако наибольшее развитие технологии наступает тогда, когда ею начинает пользоваться более широкий круг пользователей. И в этом смысле ничего лучше библиотек придумать невозможно.

Читателям библиотек и ученым нужен интеллектуальный поиск, который позволит добывать информацию и находить источники, необходимые для работы. Сейчас поиск источников для исследования может занимать многие месяцы. Применение интеллектуального поиска может сократить это время до считанных минут. В некоторых случаях может оказаться, что научные исследования уже проводились ранее, хоть результаты и опубликованы на другом языке.

Таким образом, Compreno поможет:

За услуги по интеллектуальному поиску читатели будут готовы платить деньги. Ведь речь идет о сокращении времени работы с одного месяца до 10–15 минут (по порядку величин). Думаю, что этот источник можно использовать для финансирования ИНИОНа в рамках частно-государственного партнерства.

Потенциальная аудитория пользователей очень велика. В одной только Нью-Йоркской библиотеке более 18 млн читателей в год.

Для успешного внедрения системы в библиотеки нужно иметь готовый работающий прототип. Необходимо, чтобы этот прототип удовлетворял реальные потребности научных исследователей и читателей. Совместная работа с сотрудниками ИНИОНа поможет это сделать. В области реферирования у сотрудников ИНИОНа тоже имеется громадный опыт. Он будет полезен и для понимания реальных потребителей, и для улучшения качества автоматического реферирования.

Технология Compreno требует гораздо больших вычислительных ресурсов, чем традиционные поисковые системы. Поэтому сейчас ее невозможно применить к поиску по всему Интернету. Даже поиск по полностью оцифрованной библиотеке из 15 млн книг потребует большого дата-центра.

Конечно, этот дата-центр ни в коем случае не надо размещать рядом с книгами, поскольку сервера перегреваются и их охлаждение — довольно сложная технологическая задача [7]. Его можно разместить где угодно, даже в Якутии (там можно использовать естественный холод). Кстати, в ходе бесед с волонтерами я узнал, что Якутия как раз сильно нуждается в развитии сетевой инфраструктуры.

Оцифровка дело сложное

Вернемся на землю и вспомним, что почти вся библиотека ИНИОНа не оцифрована. Не оцифрован даже каталог библиотеки.

Специалисты компании ABBYY написали статью про оцифровку книг [8].

Привлечение 3000 волонтеров помогло оцифровать все произведения Льва Толстого за 1,5 года — это в среднем по 10 страниц в год на одного волонтера. Кто-то оцифровал 1-2 страницы, а кто-то -более 5000. Очевидно, что процесс требует привлечения очень большого числа участников. Национальная библиотека Франции смогла оцифровать около 3 млн книг, то есть даже меньше, чем их сохранилось в библиотеке ИНИОН.

Как выставлять приоритеты? В тексте компании ABBYY проводится мысль, что нужно создать общегосударственную электронную библиотеку для исключения дублирования работы и выставления общих приоритетов в очередности оцифровки. Выставлять приоритет можно исходя из востребованности издания читателями или из его редкости, чтобы после возможного пожара уцелела хотя бы цифровая копия. Но это не единственные критерии, с помощью которых можно установить очередность оцифровки.

Есть еще два критерия:

Рассмотрим критерий охвата материала. Оцифровка должна в первую очередь облегчать поиск источников информации. Сами источники могут быть в полном объеме не оцифрованы. Читатель может получить их потом в бумажном виде или в виде картинки.

Думаю, что основную долю источников можно найти с помощью интеллектуального поиска по реферативным журналам на разных языках. Например, если исследователя интересуют материалы про Карла XII, то поиск должен учитывать контекст. Если в реферативной статье написано «В источнике № 1 есть много новых неизвестных фактов про Карла XII», то источник № 1 является ценным. Если же написано «В источнике № 2 про Карла XII нет ничего нового», то источник № 2 для исследователя не представляет интереса. При этом источник № 2 может сообщать новые сведения о других исторических персонажах и событиях и быть написан широко цитируемым автором.

Поиск должен учитывать цитируемость автора источника в данной области. Для настройки поиска потребуется большое количество специалистов, которые будут им пользоваться в повседневной научной работе и попутно оценивать его релевантность. Здесь опыт сотрудников ИНИОНа просто бесценен, а сокращение института негативно повлияет на развитие технологии интеллектуального поиска и в стране, и в мире в целом.

В отличие от поиска в Интернете, здесь не нужно будет бороться со специально разработанными «накрутками» для продвижения источника в топ поиска.

Кроме реферативных журналов следует оцифровать обзоры книг и статей, критические статьи, энциклопедии, аннотации книг и статей, списки литературы в статьях и книгах. Во вводных главах книг и диссертаций часто присутствует обзор основных результатов и источников в данной области. Авторефераты диссертаций тоже будут полезны для интеллектуального поиска источников.

Оцифровка обзорных материалов вместе с интеллектуальным поиском помогут осуществить максимальный охват источников при поиске.

Рассмотрим критерий увеличения количества качественных научных публикаций.

Для этого можно предложить несколько факторов в многофакторной статистической модели:

Предсказание ценности научных направлений важно и для оцифрованных источников. Возможно, что компьютерный анализ смысла текстов позволит находить новую, ранее не опубликованную информацию.

Вперед, к 100% оцифровки!

Волонтерское движение поможет не только в конечном итоге достигнуть 100% оцифровки, но и совершить важный просветительский проект, по своему значению не уступающий созданию Максимом Горьким издательства «Всемирная литература».

Для оцифровки библиотеки ИНИОНа можно организовать кружки по всей стране, в том числе с участием школьников. Они будут не только помогать оцифровке, но и делать доклады на кружках, совершенствовать знание иностранных языков, получать навыки исследовательской работы.

179-0017

В развалах ИНИОНа мы нашли книгу «Тимур и его команда», изданную в 1944 году в Париже на французском языке. Из советского времени можно взять положительный опыт и организовать движение инио-новцев, которые по всей стране будут помогать оцифровке книг. Уверен, что это будет незабываемым опытом, который запомнится на всю жизнь. Даже сбор металлолома в пионерском детстве был очень интересным. А тут у школьников будет возможность заняться еще более увлекательным делом — помочь в оцифровке научной библиотеки. Это возможность увидеть книги, которые не найдешь в обычной библиотеке или Интернете, возможность совершить настоящее открытие. Ведь некоторые документы могли пройти мимо исследователей. По своему опыту могу сказать, что даже одни обложки книг дают море новой информации.

179-0016

Это позволяет не просто бездумно заучивать формулировки из учебника, а увидеть настоящую, живую историю. Научиться думать и анализировать. В Англии преподавание истории построено на изучении и сопоставлении источников, то есть людей уже со школы учат анализировать информацию. Это также даст возможность лучше выучить иностранные языки, прикоснуться к таким отраслям знания, как литературоведение, философия, социология и экономика. Перед участниками проекта откроется новый удивительный мир, в котором они сами станут творцами и созидателями.

И наконец, такой подход предоставит возможность участия не просто в общенациональном, но и по-настоящему общемировом проекте. Возможность получить консультации исследователей из других стран, в том числе у выдающихся ученых современности. Участие в этом проекте интеллектуально обогатит всех к нему причастных, и быть инионовцем станет престижно.

Всем участникам проекта нужно выдать значки с эмблемой ИНИОНа, которые станут предметом гордости. Нужно проводить ежегодный конкурс школьных и студенческих работ, написанных по материалам ИНИОНа. Конкурс можно сделать международным. ИНИОН сгорел, но у него есть возможность воскреснуть и распространиться на всю страну, даже за ее пределы. Давайте же используем все имеющиеся возможности по максимуму!

1. http://trv-science.ru/2015/03/24/nas-obedinyaet-lyubov-k-knigam/

2. http://all-malls.ru/news/morgan-stanley-kupil-metropolis/

3. the-village.ru/village/city/city-news/172141-glava-russkoy-wikipedia

4. http://awards.rbc.ru/abbyy.htm

5. http://ibusiness.ru/blogs/17778

6. abbyy.ru/Default.aspx?DN=2d53227a-1105-4e71-b1f8-a68d1664a4ef

7. http://habrahabr.ru/company/mediagrus/blog/167879/

8. http://blog.abbyy.ru/2015/04/kniga-v-tsifre-nuzhna-li-rossii-edinaya-elektronnaya-biblioteka/

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Связанные статьи