Интервью с Председателем Архивного Комитета Санкт-Петербурга Петром Евгеньевичем Тищенко для проекта «Цифровая Трансформация».
Петр Евгеньевич, расскажите, кто придумал использовать разработки ИИ в деятельности Архивного комитета Санкт-Петербурга и когда Вы впервые приступили к этому?
В прошлом году, по поручению Губернатора Александра Беглова, мы приняли на государственное хранение коллекцию фонодокументов Ленинградского Дома Радио. На этих плёнках находится всё, что создано журналистами Радиокомитета Дома Радио в доцифровую эпоху. Это громадная коллекция примерно в 1000 раз больше, чем в среднем в год принимали документов на таких носителях специалисты нашего архива. Сам механизм приема предполагает оценку состояния, снятие статики, очистку, оцифровку, прослушивание, проведение экспертизы ценности, постановку на госучет, описание, добавление в нашу информационную систему. Мы посчитали, что по нашим архивным правилам и ресурсам, нам понадобится 683 года, чтобы справиться с задачей в полном объеме. Однако, мы смогли сократить эту цифру до 497 лет, благодаря обучению технологии «Бережливого производства», помощи специалистов госкорпорации «Росатом» и участию в проекте «Эффективный регион». Согласитесь, это тоже немало. Но и тут нам помогли.
Во время своего визита в Архивный центр весной 2021 года вице-губернатор Санкт-Петербурга Станислав Казарин предложил для улучшения качества описания фонодокументов, поступивших в Центральный государственный архив кинофотофонодокументов Санкт-Петербурга, использовать передовую отечественную технологию искусственного интеллекта, систему стенографирования «Нестор». Она была разработана для синхронного документирования устных выступлений, заседаний, собраний и конференций, в том числе, проводимых Государственной Думой. Разработчиком «Нестора» является группа ЦРТ— российская группа компаний, специализирующаяся на создании инновационных систем в сфере биометрии, высококачественной записи, обработки и анализа аудио-видео информации, синтеза и распознавания речи.
Это предложение было принято архивистами с большим интересом и энтузиазмом. Цифровые технологии могут преобразовать оцифрованные речевые фонограммы в готовые тексты и сформировать электронный каталог. С помощью этой технологии мы смогли сократить расчетный срок работ по оцифровке до 20 лет.
Работы с системой «Нестор» начались в июне 2022 года. Кстати, освоение и внедрение Нестора в работу ЦГАКФФД СПб проходит при полном содействии разработчика. Не только мы учимся работать с нейросетью, но и она обучается, благодаря нашим специалистам.
«Технологии искусственного интеллекта активно внедряются в федеральных и региональных архивах. Эксперименты по использованию нейросетей ведутся с разными видами архивных документов. Есть положительный опыт работы в нашей стране и с аудиовизуальными документами. В частности, распознавание документов, написанных на старославянском, поиск в документах древнерусских имен и прозвищ. В настоящее время внедрение ИИ в архивное дело ведется централизованно. Сам процесс начался в феврале 2020 года с поручения Президента Владимира Путина. Он дал задачу Минцифры совместно с Росархивом и РАН рассмотреть вопрос об организации оцифровки документов архивного фонда Российской Федерации и других.
Практика показывает, что информационные системы и искусственный интеллект не могут заменить человека, поэтому очень важна квалифицированная подготовка специалистов. Отмечу чёткую и правильную работу Архивного комитета Санкт-Петербурга в части внедрения ИИ в свою работу» – отметил вице-губернатор Санкт-Петербурга Станислав Казарин.
Получить права на использование программы ЦРТ помогло Правительство Петербурга?
Мы получили это ПО благодаря поддержке со стороны комитета по Информатизации и связи и лично его председателя Юлии Смирновой. И мы запустили программу в работу после того, как собрали сервер и закупили 5 магнитофонов, на которых смогли проигрывать бобины, записанные еще в доцифровую эпоху. Плюс, мы, фактически, приобрели в состав своей команды всех тех опытных специалистов, которые работали с этой коллекцией в телерадиокомпании благодаря решению финансового блока дать дополнительные ставки и профинансировать их из городского бюджета. С этим решением наш архив становится крупнейшим в России хранителем фонодокументов. Мы даже конкурируем и с федеральным архивом. В Европе точно мы самый большой хранитель документации такого рода. Мы приняли 7,5 тысяч коробов с фонодокументами, которые сейчас размещены на территории Архива на стеллажах, оборудованных заземлением, при правильной температуре и влажности.
Кстати, этой коллекцией дело не ограничилось. В текущем году мы получили также порядка 60 000 пленок от ленинградского телевидения на государственное хранение. Я думаю, что эта же программа – Нестор – будет пригодна для того, чтобы расшифровывать и каталогизировать видеодокументы также, как и фоно-.
Но 20 лет – это тоже немалый срок?
Срок в 20 лет нас не пугает, потому что, например, когда в петербургский архив были привезены документы обкома, райкомов и горкома партии в виде коробов, мешков с документами, на разбор, экспертизу ценности, написание и составление каталога, работу по оцифровке части этого фонда у нас ушло 29 лет. Поэтому нас такие масштабы не пугают.
В настоящий момент мы еще оцифровываем документы в рамках исполнения поручения Президента о противодействии фальсификации истории. Это необходимо для того, чтобы за период ВОВ все документы были открыты и доступны людям. Мы оцифровываем порядка миллиона образов и загружаем в нашу информационную систему. Сейчас большая работа проводится, чтобы сделать доступными документы ленинградского штаба партизанского движения, истребительных батальонов, народного ополчения. Эти документы хранятся в партийном архиве, и мы эту работу планомерно проводим.
Как часто петербуржцы обращаются в архив с запросами данных о Великой Отечественной войне? Какие документы запрашивают чаще всего?
Тема Великой Отечественной войны очень востребована. Пользователи активно обращаются к этой информации как в читальных залах государственных архивов, подведомственных Архивному комитету Санкт-Петербурга, так и на портале «Архивы Санкт-Петербурга». Активно используются все виды архивных документов. Удобно работать с фотодокументами по этой теме, которые размещены на странице Центрального государственного архива кинофотофонодокументов Санкт-Петербурга на портале в полном объеме.
Все ли записи для оцифровки надлежащего качества? Или где-то более неразборчиво, возможно, пленка худшего качества?
Частью подготовки к записи является очистка пленки, снятие статического заряда, чтобы качество звучания было максимально возможным. В случае повреждений – склейки. В общем, у нас есть много технических секретов, которые приводят к такому удивительному результату, который можно сейчас прослушать в читальном зале.
Однако, стоит отметить, что сами документы хранились телерадиокомпанией «Петербург» перед передачей в архив хорошо, и многие их них в хорошем состоянии для оцифровки. Мы получили даже лучшее состояние пленки, чем изначально рассчитывали.
Те документы, которые вы уже начали оцифровывать – уже доступны для прослушивания и исследований или еще нет?
26 января прошлого года в доме Радио, в присутствии губернатора Петербурга Александра Беглова и руководителя Росархива Андрея Артизова состоялась торжественная церемония передачи первой части коллекции. В рамках мероприятия директор ГКУ «Центральный государственный архив кинофотофонодокументов Санкт-Петербурга» Оксана Морозан и руководитель телерадиокомпании «Петербург» Юрий Шалимов подписали акт передачи данного собрания. В нее были включены 68 бобин, сохранившихся со времен ВОВ и в ближайшие после ее окончания годы. Здесь и репортажи с фронта, и трансляция из радиокомитета городского Дома Радио. И запись вражеских налетов, сделанная с крыши Дома Радио, и репортажи военных корреспондентов – Лазаря Маграчева и Матвея Фролова с линии фронта и с Дворцовой площади, когда Ленинград ликовал, празднуя победу и целая серия радиопередач о ВОВ. Это ценнейшая часть данной коллекции. Она уже прошла научную обработку, экспертизу ценности, была поставлена на государственный учет и доступна в читальном зале Архива. А остальные материалы будут становиться доступными постепенно, в процессе оцифровки. Мы не будем томить 20 лет желающих с ними ознакомиться.
Интересуется ли молодое поколение историями своих предков? Насколько часто к архивам в принципе обращается молодёжь? Как ещё можно привлечь внимание молодых петербуржцев, на Вам взгляд, к историям родной страны и нашего Города-героя?
Молодые люди нередко посещают читальные залы наших архивов, но предпочитают работать дистанционно, через портал «Архивы Санкт-Петербурга». Поиск своих предков – одна из самых распространенных причин обращения к архивным документам, но немало молодых ученых. Также студенты ВУЗов изучают историю нашей страны. Интересный опыт в 2021 г. получил Центральный государственный архив кинофотофонодокументов Санкт-Петербурга. По предложению вице-губернатора Санкт-Петербурга Владимира Княгинина, архив принял участие в проекте «Гражданская наука». Более 20 студентов Российского государственного педагогического университета имени А.И. Герцена дополнили информацию, содержащуюся в описании архивных документов. Для работы были выбраны фотодокументы, относящиеся к истории Блокады Ленинграда. Сотрудничество университета и архива было успешным, поэтому в этом году предполагается его продолжить. Также ведутся переговоры и с другими ВУЗами.
Вы упоминали в более ранних интервью, что с появлением «Нестора» возможности поиска нужных документов и исследования архивных записей расширились. В чем это заключается?
Это действительно так. Пользователи могут не просто найти интервью по его названию, но и прочитать содержание в текстовом файле. Благодаря тому, что фонодокументы распознаются в цифровом виде в машиночитаемый текст, мы их по тегам можем достаточно легко найти. Например: задаем в поиске «Шаляпин» и все аудиозаписи, где, либо упоминается великий певец, или сам он поет, или объявляется – в общем, везде, где звучит эта фамилия, все файлы окажутся доступными для пользователя.
И нет никаких минусов в ее использовании?
Из недостатков все же можно кое-что выделить: программа не переводит с других языков, есть ошибки, возникающие по разным причинам. Например, если текст более раннего времени, чем способна распознать программа, ошибок в тексте становится больше. Эта программа рассчитана на современную лексику и язык. А если произношение, например, 40-х годов или слова, с которыми нейросеть не работала, то они могут не распознаваться. Однако, чтобы выявить эти слова, заново не нужно прослушивать весь файл. Она сама показывает, где именно находятся места, которые нужно распознать. И включает аудиофрагмент записи, где они находятся. То есть, синхронизирует звук и текст. Ну и конечно, программа учится вместе с нами.
Мы с коллегами считаем, что все функции этой программы до конца нам только предстоит узнать и изучить. У нас есть возможность также предложить варианты для ее развития, так как мы находимся в тесной связи с разработчиками, и они всегда идут нам навстречу. Работа с нейросетями – это всегда совместное творчество.