Кюлли Таро: для моделей искусственного интеллекта требуется качественный эстонский язык

Если обучать искусственный интеллект только при помощи бесплатного дубового канцелярита, примитивного сленга или кишащих оскорблениями текстов стенограмм Рийгикогу, ИИ будет считать, что именно так и следует говорить по-эстонски, констатировала Кюлли Таро в эфире Vikerraadio.
На прошлой неделе Министерство юстиции и цифровых технологий объявило, что Эстония готова поделиться открытыми данными корпуса текстов эстонского языка с крупными разработчиками языковых моделей, после чего министра Лийзу Пакоста обвинили в разных грехах, включая желание бесплатно отдать эстонский язык.
По крайней мере, новость вызвала интерес к лингвистике и языковым технологиям. Комментаторов было много, но я не уверена, что все они поняли, о чем точно идет речь.
К счастью, представители университетов, Института эстонского языка, Эстонского литературного музея и Национальной библиотеки в совместном обращении разъяснили, что для адаптации искусственного интеллекта с учетом потребностей Эстонии необходимо достаточное количество высококачественных лингвистических и культурных данных. Единственный способ заставить машины понимать эстонский язык и эстонский дух – это тренировать их на эстонском языке и при помощи данных о нашем народе и культуре.
В основе современной лингвистики и языковых технологий лежат корпусы текстов, с помощью которых как раз и обучают модели искусственного интеллекта. Корпусы текстов – это электронные базы данных систематически собираемых письменных текстов или записей речи.
Для эстонского языка корпусы создаются с начала 1990-х годов. Серию сводных корпусов, то есть самую масштабную языковую коллекцию с 2013 года собирает Институт эстонского языка. Последняя версия от 2023 года содержит 3,8 млрд текстовых слов, 255 млн предложений, 83 млн абзацев и 15 млн документов. Большую часть коллекции сводных корпусов составляют взятые из интернета публичные тексты. То есть речь идет в основном о веб-языке.
Лингвисты в совместном обращении обратили внимание и на то, что большая часть языкового контента, уже попавшего в исходные данные моделей искусственного интеллекта, состоит из машинного перевода инструкций по эксплуатации продуктов, правовых актов и предписаний, рекламных объявлений или комментариев в социальных сетях. В результате язык уже существующих моделей порой дубовый и канцелярский. До сих пор в модели включалось лишь небольшое количество высококачественных данных, то есть действительно красивый эстонский язык, например, художественная литература, учебники, научная литература или отредактированный медиаконтент.
При обучении языковой модели выходные данные будут в точности такими же, как и входные. Так что если обучать искусственный интеллект только при помощи бесплатного дубового канцелярита, примитивного сленга или кишащих оскорблениями текстов стенограмм Рийгикогу, ИИ будет считать, что именно так и следует говорить по-эстонски.
Корпусы текстов сегодня используются и для составления словарей. Последний раз эта тема подробно обсуждалась в прошлом году, когда шли дебаты о том, как следует составить следующий ортологический словарь.
К счастью, тогда договорились, что весь язык, встречаемый в интернете и отражаемый в веб-словаре Sõnaveeb, не должен быть нормой для эстонского литературного языка, и что ортологический словарь следует продолжать составлять прежним способом. Как это предусмотрено Законом о языке. Что нужно различать правильную и неправильную речь, красивую и некрасивую. В случае языка красота – это, конечно, вопрос договоренности, но я бы предпочла, чтобы основой для такой договоренности служил не бесплатный, доступный в интернете контент, а богатое наследие эстонского литературного языка.
Искусственный интеллект уже сильно изменил процесс обучения и работы. В будущем использование ИИ в повседневной жизни будет еще более масштабным и станет обыденным и доступным для более широкого круга людей. И в первую очередь в наших собственных интересах, а не в интересах Meta или любого другого разработчика, чтобы модели искусственного интеллекта обучались при помощи первоклассного эстонского языка. Если мы хотим, чтобы молодые люди думали и вели дела на красивом эстонском языке, мы должны обеспечить использование красивого языка в языковых моделях. Языковые модели имеют огромное значение для сохранения и развития языка.
В марте будет отмечаться День родного языка, и в этом году должен быть издан новый ортологический словарь. Было бы большим подарком для эстонского языка и культуры, если бы мы смогли договориться о правилах качественного дополнения и использования корпусов текстов. Это необходимо для того, чтобы словари, языковые модели, всевозможные машины и технологические приспособления помогали в распространении богатой и красивой эстонской речи.
Редактор: Евгения Зыбина