Эксперт об идее передать данные эстонского языкового корпуса Meta: у нас просто нет выбора
Министерство юстиции планирует передать данные эстонского языкового корпуса международной компании Meta. Это решение вызывает споры – на кону сохранение эстонского языка в цифровом формате и защита авторских прав медиаорганизаций.
Министерство юстиции планирует передать медиаплатформе Meta, куда входят Facebook и Instagram, данные взятые из эстонского языкового корпуса – базы текстов, которую в основном используют лингвисты для изучения языковых изменений. Сейчас в корпусе около четырех миллиардов слов. В том числе и тексты из различных источников: от новостных статей до научных публикаций.
"Объединенный корпус эстонского языка доступен в основном для лингвистов и используется преимущественно в исследовательских целях. В корпусе содержатся и полные тексты, но они недоступны для обычных пользователей – их нельзя читать, как обычный веб-сайт или Википедию. Мы стараемся включать в корпус бесплатные тексты, которые находятся в свободном доступе", – сказала заведующая кафедрой Института эстонского языка Сирли Зуппинг.
При этом эстонские медиаорганизации не давали согласия на передачу своего контента компаниям, занимающимся искусственным интеллектом. Эксперт в области искусственного интеллекта Аго Луберг говорит, что передача корпусов крупным технологическим компаниям, таким как Meta, необходима, чтобы эстонский язык присутствовал в ИИ-продуктах. В противном случае велик риск, что цифровое будущее может оказаться исключительно англоязычным.
"Даже в Конституции Эстонии предусмотрено, что эстонский язык должен сохраняться. Я считаю, что у нас просто нет другого выбора, кроме как предоставить наш язык для использования, чтобы мы могли применять эти языковые модели на эстонском языке", – сказал Луберг.
Однако, по его словам, все-таки важно, что именно государство передает платформам. Вопрос о конфиденциальности данных и возможных коммерческих рисках остается открытым.
"Возможно, медиаорганизации чувствуют себя как-то несправедливо обделенными, и в плане договоренностей это, наверное, политический вопрос. Но с чисто научной точки зрения, чтобы мы могли развивать языковые модели, я как ученый считаю, что мы должны это позволить", – отметил Луберг.
Премьер-министр Кристен Михал исключил возможность того, что Эстония бесплатно передаст крупным компаниям данные на эстонском языке.
Редактор: Елизавета Калугина