ГЛОБАЛЬНЫЙ ПРОЕКТ ПО ПЕРЕВОДУ НАУКИ НА РУССКИЙ ЯЗЫК

ГЛОБАЛЬНЫЙ ПРОЕКТ ПО ПЕРЕВОДУ НАУКИ НА РУССКИЙ ЯЗЫК

Александра Элбакян

В современной мировой науке есть проблема — она вся ведется на английском языке. Все новые и самые прорывные научные результаты — в какой бы стране их не сделали — публикуются именно в журналах на английском. Научные журналы на других языках: русском, китайском, армянском и т.д. существуют, но не считаются авторитетными. Поэтому если ученый хочет, чтобы новое открытие признали, то отправляет его в американский или европейский журнал. Некоторые ученые в Европе последнее время даже жалуются на огромный поток некачественных китайских статей.

Когда-то, еще во времена существования СССР, русский язык составлял конкуренцию английскому как язык науки, но те времена давно прошли. И сегодня если хочешь заниматься наукой, то надо учить английский язык.

И тут я вижу две проблемы. Во-первых, родной язык при этом не развивается как язык науки. А поскольку за наукой будущее, то тот язык, который не развивает собственную науку, не имеет будущего. Во-вторых, наука на чужом языке на подсознательном уровне и воспринимается как чужое — а соотвественно враждебное — явление.

Есть и другие проблемы. Например, тем ученым, для которых английский язык — родной, писать на нем гораздо легче, чем иностранцам. Я, например, набираю максимальные баллы по тестам английского, но даже мне высказать оригинальную, а не шаблонную мысль на английском гораздо сложнее, чем на русском. А поскольку статья считается как основной результат работы ученого, то наши ученые неизбежно проигрывают в конкуренции за импакт-факторы и количество цитирований. Кроме того, поскольку решение о том, принять или не принять статью к публикации, сколько по времени мурыжить статью до опубликования и т.д. принимает журнал. А так как все журналы зарубежные, то получается, что наша наука находится полностью под иностранным влиянием и зарубежным контролем. И как отметил один мой коллега:

Им не нужно учить русский язык, чтобы получать нашу науку. Мы кормим своего врага, а он в свою очередь зажимает нам доступ к своей науке. Это идиотизм, но как выйти из этого противоречия?

Если в 60-е годы американцам приходилось иметь отдельное агентство, которое занималось переводом научных журналов из СССР, то теперь мы сами для них все делаем.


У меня есть идея, как выйти из этой ситуации с помощью проекта Sci-Hub. База проекта насчитывает 88 миллионов научных статей, более 90% из которых — статьи на английском. Теоретически, можно обучить на этих текстах нейронную сеть, и использовать её для того, чтобы переводить научные тексты на языки любых стран мира. Конечно, нейросети и сегодня неплохо переводят текст, но просто взять и использовать для научных текстов их нельзя — будет множество ошибок. Потребуются дополнительные исследования, чтобы настроить нейросеть для каждой специальности.

Чтобы вести такие исследования, можно было бы создать большую коллаборацию, куда бы вошел проект Sci-Hub, крупные научно-исследовательские институты, такие как МГУ, а также институт русского языка и иностранных языков. И поставить себе задачу русификации мировой науки.

Между прочим, такие прецеденты уже были в истории: например, это перевод наследия античных философов на арабский язык в девятом веке. Массово переводились труды по математике, медицине, астрономии и астрологии, алхимиии и т.д. что привело к расцвету наук в арабском мире. Потом в 12 веке эти труды начали переводить с арабского на латынь — так в Европе началась эпоха Возрождения.

Когда такая нейросеть заработает, то ученые смогут публиковать свои труды на любом языке, в том числе русском, и не беспокоиться о том, что если работы будет на русском, то её никто не прочитает и не будет цитировать — ведь достаточно будет нажать одну кнопку, чтобы прочитать её на любом языке мира.

Кроме того, такая нейросеть сможет автоматически генерировать научно-популярные статьи, чтобы рассказывать широкой публике о последних достижениях в науке. Уже сегодня искусственный интеллект может делать из длинных и объемных текстов — краткие объяснения, а если это применить к науке, то это получится автоматизация работы научных журналистов. Плюс компьютер сможет отвечать на вопросы по науке, а также подсказывать ученым на основе имеющейся литературы новые интересные гипотезы, которые заслуживают проверки.


В общем вот такой «переводческий проект» я пытаюсь понемногу продвигать уже где-то в течение года. Я рассказывала в 2022 на Конгрессе молодых ученых про нейросетевой перевод научных статей, отправляла работу на конкурс Сбербанка, еще направила письмо в Институт русского языка, и просто обсуждала с некоторыми коллегами. Пока все тихо.

В Министерство образования тоже отправила, но от них семь лет — один ответ: Sci-Hub проект «юридически незаконный», поэтому помогать не будем. Знакомый из института им. Витте хотел организовать конференцию для Sci-Hub на базе института где обсудить искусственный интеллект, но по его словам, сразу возник вопрос «легальности» и администрация испугалась делать.

А так идея обучить нейронную сеть на текстах Sci-Hub у меня была давно. К 2022 году, уже были модели, обученные на небольшом количестве текстов, где-то миллион или пару миллионов, такие как SciBERT. А вот обучать языковые модели на гигантском количестве текстов — например, на всех 88 миллионах научных статей из базы Sci-Hub — еще не пробовали, и я начала понемногу обсуждать такую идею. Но никого не заинтересовало.

Потом я узнала, что где-то в мае 2022 появилась такая модель ScholarBERT, обученная на полных текстах 85 миллионов научных статей. То есть объем базы Sci-Hub 88 миллионов, а тут 85. Однако про Sci-Hub авторы ничего не говорят, а пишут, что якобы какая-то некоммерческая организация из Калифорнии (!) про которую никто никогда ничего не слышал, им дала вот этот датасет.

Для обучения нейронной сети использовали кластер из 24 модулей, в каждом из которых по 8 видеокарт (!)

Но особо интересных результатов не получилось, и в целом про эту модель мало что известно.

А 16 ноября этого же года, с большой помпой вышла Galactica, обученная где-то на 40 миллионах научных статей — хотя там использовались не полные тексты статей, а аннотации, но тем не менее. Сначала появился сайт, где можно было задавать Галактике вопросы, однако вскоре он закрылся, вроде как из-за того, что нейросеть молола полную чепуху.

Почему авторы поторопились выложить недостаточно протестированную модель и опозорились? Мое предположение — они как-то узнали, что такое собирается делать Sci-Hub, и быстрее опубликовали статью, чтобы Sci-Hub не был первым. Такое какое-то ощущение складывается. Но может быть, и просто сами опозорились, Sci-Hub ни при чем.


Вот я посмотрела на это все, и решила свою идею про перевод научных статей на русский язык тут выложить, а то тоже вот так украдут или обгонят, и будешь потом доказывать, что ты тоже «мечтала такое сделать, но никто не поддержал и не вышло» А так хотя бы доказательство будет.  

Report Page