Если вы не говорите по-английски и не говорите с максимально нейтральным американским акцентом, вы, вероятно, сталкивались с цифровым помощником, который не мог вас понять. Если повезет, пара наборов данных с открытым исходным кодом от MLCommons может помочь будущим системам понять ваш голос.
Два набора данных, которые стали общедоступными в декабре, — это People’s Speech Dataset (PSD), база данных спонтанной английской речи на 30 000 часов; и Многоязычный корпус разговорных слов (MSWC), набор данных, содержащий около 340 000 ключевых слов на 50 языках.
Делая оба набора данных общедоступными по лицензиям CC-BY и CC-BY-SA, MLCommons надеется демократизировать машинное обучение, то есть сделать его доступным для всех, и помочь подтолкнуть отрасль к ориентированному на данные ИИ.
Дэвид Кантер, исполнительный директор и основатель MLCommons, сказал Nvidia в подкасте на этой неделе, что он рассматривает ИИ, ориентированный на данные, как концептуальный поворот от «какая модель является наиболее точной» к «что мы можем сделать с данными для повышения точности модели». .” Для этого, сказал Кантер, миру нужно много данных.
Повышение понимания с помощью «Народной речи»
Спонтанное распознавание речи по-прежнему является сложной задачей для ИИ, и PSD может помочь обучающимся машинам лучше понимать разговорную речь, речевые нарушения и акценты. Если бы подобная база данных существовала раньше, по словам руководителя проекта PSD Даниэля Гальвеса, «мы, вероятно, общались бы с нашими цифровыми помощниками гораздо менее роботизированным способом».
30 000 часов речи в наборе данных People’s Speech Dataset были отобраны из 50 000 часов общедоступной речи, извлеченной из цифровой библиотеки Интернет-архива, и обладают двумя уникальными качествами: во-первых, это полностью спонтанная речь, то есть она содержит все тики. и неточности обычного разговора. Во-вторых, все это сопровождалось стенограммами.
Используя некоторые трюки с механизмом логического вывода на базе CUDA, команда PSD смогла сократить время маркировки этого массивного набора данных всего до двух дней. Конечным результатом стал набор данных, который может позволить чат-ботам и другим программам распознавания речи лучше понимать тех, чьи голоса отличаются от голосов американских англоговорящих белых мужчин.
Гальвез сказал, что нарушения речи, неврологические проблемы и акценты плохо представлены в наборах данных, и в результате “[those types of speech] не совсем понятны коммерческим продуктам».
Опять же, сказал Кантер, подобные проекты терпят неудачу из-за отсутствия данных, включающих разных говорящих.
Корпус для расширения охвата цифровых помощников
Корпус многоязычной устной речи отличается от PSD. Вместо полных предложений корпус состоит из 340 000 ключевых слов на 50 языках. «Насколько нам известно, это единственный набор данных устной речи с открытым исходным кодом для 46 из этих 50 языков», — сказал Кантер.
Цифровые помощники, такие как чат-боты, склонны к предвзятости, основанной на их обучающих наборах данных, что привело к тому, что они не завоевывают популярность так быстро, как могли бы. Кантер прогнозирует, что цифровые помощники будут доступны по всему миру «к середине десятилетия», и он видит в MSWC ключевую базу для достижения этого.
«Когда вы смотрите на эквивалентные базы данных, это китайский, английский, испанский языки, а затем они довольно быстро отваливаются», — сказал Кантер.
Кантер сказал, что наборы данных уже были протестированы некоторыми компаниями-членами MLCommons. Пока, по его словам, они используются для шумоподавления аудио- и видеозаписей переполненных помещений и конференций, а также для улучшения распознавания речи.
Кантер надеется, что в ближайшем будущем наборы данных получат широкое распространение и будут использоваться наряду с другими общедоступными наборами данных, которые обычно служат источниками для исследователей машинного обучения и искусственного интеллекта. ®