Компания Amazon опубликовала под лицензией CC BY 4.0 набор данных "MASSIVE" (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation), модели для систем машинного обучения и инструментарий для тренировки собственных моделей, которые можно использовать для понимания информации на естественном языке (NLU, Natural Language Understanding). Набор включает более миллиона аннотированных и классифицированных текстовых высказываний, подготовленных для 51 языка. В качестве эталона для построения набора MASSIVE была использована коллекция SLURP, изначально доступная для английского языка, которая была локализована на 50 других языков с привлечением профессиональных переводчиков. Применяемая в голосовом помощнике Alexa технология понимания информации на естественном языке (NLU) вначале преобразует речь в текст, после чего применяет к тексту несколько NLU-моделей, анализирующих наличие ключевых слов для определения сути заданного пользователем вопроса. Одной из целей создания и публикации набора является адаптация голосовых помощников для обработки информации сразу на нескольких языках, а также стимулирование сторонних разработчиков к созданию приложений и сервисов, расширяющих возможности голосовых помощников. Чтобы привлечь внимание разработчиков Amazon учредил конкурс по созданию лучшей универсальной модели, использующей опубликованный набор данных. В настоящее время голосовые помощники поддерживают лишь несколько языков и применяет модели машинного обучения, привязанные к конкретному языку. Проект MASSIVE нацелен на устранение этого недостатка путём создания универсальных моделей и систем машинного обучения, способных разбирать и обрабатывать информацию на разных языках.