Распознавание речи не поддерживается для данного языка. Руководство по распознованию речи в Windows

Благодаря распознаванию речи в Windows использование клавиатуры и мыши не является обязательным. Вместо этого, вы можете управлять компьютером с помощью голоса и диктовать текст.

Примечание : распознавание речи доступно только на следующих языках: английский (США и Великобритания), французский, испанский, китайский, мандаринский (упрощенный и традиционный китайский) и немецкий.

Настройка распознавания речи в Windows 8.1

Прежде чем можно будет использовать распознавание речи, вы должны выполнить несколько действий. Сначала нужно настроить микрофон . Затем можно обучить компьютер распознавать этот голос.

Чтобы настроить микрофон

Перед настройкой распознавания речи, убедитесь, что микрофон подключен к компьютеру.

В поле поиска введите текст Настройка микрофона Настройка микрофона .
Следуйте инструкциям, появляющимся на экране.

Примечание : Если это возможно, используйте микрофон гарнитуры из-за меньше вероятность перехвата фоновых шумов.

Как обучить компьютер распознаванию речи

Функция распознавания речи используется специальный профиль, чтобы распознать Ваш голос и голосовые команды . Чем чаще вы используете распознавания речи, тем более детальным становится Ваш профиль голосовых команд, благодаря чему компьютер лучше Вас понимает.

Панель Поиск также можно открыть при помощи клавиатуры, нажав клавиши Win + Q .
В поле поиска введите текст Распознавание речи , а затем нажмите клавишу или выберите пункт Распознавание речи .
Нажмите кнопку Научить компьютер .
Следуйте инструкциям, появляющимся в процессе обучения распознаванию голоса.

Использование распознавания речи

С помощью голоса можно выполнять несколько задач, например, заполнять формы в режиме онлайн или вводить буквы. Когда вы говорите в микрофон, распознавание речи меняет произносимые слова в текст, отображаемый на экране.

Для того, чтобы диктовать текст с помощью распознавания речи Windows 8.1

Быстро сдвиньте палец внутрь от правого края экрана, а затем нажмите панель Поиск. (Если вы используете мышь, выберите в верхний правый угол экрана, переместите указатель мыши вниз, а затем выберите панель Поиск).
Панель Поиск также можно открыть при помощи клавиатуры, нажав клавиши Win + Q .
В поле поиска введите текст распознавание речи , а затем нажмите клавишу или выберите пункт Распознавание речи Windows .
Скажите «начать слушать» или нажмите кнопку на микрофоне, чтобы активировать режим прослушивания.
Откройте приложение, которое вы хотите использовать или выделите текстовое поле, для которого вы хотите диктовать текст.
Произнесите текст, который вы хотите диктовать.

Чтобы исправить ошибки

Ошибки можно исправлять тремя разными способами.
- Чтобы исправить последнюю произнесенную фразу, скажите – «пожалуйста, исправьте это».
- Чтобы улучшить одно слово, скажите «Исправить», а затем произнесите слово, которое необходимо исправить. Если слово повторяется несколько раз, все его экземпляры будут выделены, и вы сможете выбрать экземпляр, который вы хотите улучшить.
- В диалоговом окне Панель альтернатив произнесите номер соответствующего элемента, а затем произнесите ОК .

Чтобы добавить или изменить слова в Словаре

С помощью Словаря речи Windows 8.1 можно добавлять свои собственные слова, заблокировать возможность диктовать определенное слово, улучшить слово в словаре или удалить его.

Быстро сдвиньте палец внутрь от правого края экрана, а затем нажмите панель Поиск. (Если вы используете мышь, выберите верхний правый угол экрана, переместите указатель мыши вниз, а затем выберите панель Поиск).
Панель Поиск также можно открыть при помощи клавиатуры, нажав клавиши Win + Q .
В поле поиска введите текст распознавание речи , а затем нажмите клавишу или выберите пункт Распознавание речи Windows .
Скажите «начать слушать» или нажмите на кнопку микрофона, чтобы активировать режим прослушивания.
Скажите «Открыть Словарь речи» и выполните одно из следующих действий:
- Чтобы добавить слово в словарь, скажите «Добавить новое слово», а затем следуйте инструкциям на экране.
- Чтобы предотвратить диктовку определенного слова, скажите «Запретить диктовку слова», а затем следуйте инструкциям на экране.

Управление компьютером с помощью распознавания речи

Примечание : Каждый раз, когда нужно проверить, какие команды можно использовать, скажите: «Что я могу сказать?»

Чтобы...	Скажите это...
Открыть экран запуска
Открыть панель панель функций
Открыть панель Поиск
Показать все приложения	Приложения
Начать работу с приложением	Щелкните правой кнопкой мыши и скажите Windows С
Использовать приложения	Скажите, что вы хотите сделать. Например, измените на градус по Цельсию в приложении Погода.
Выбрать любой элемент, используя его имя	Скажите Файл; Пуск; Вид
Выбрать любой элемент или значок	Скажите Корзина; Скажите Компьютер; Скажите имя файла
Дважды щелкнуть на элементе	Дважды щелкните Корзину; Дважды щелкните Компьютер; Дважды щелкните имя файла
Перейти к открытому приложению	Отсылка к Paint; Перейти к WordPad; Перейти к название программы; Перейти к приложению
Прокрутить в нужном направлении	Выполните прокрутку вверх; Прокрутите вниз; выполните Прокрутку влево; выполните Прокрутку вправо
Вставить новый абзац или строку в документе	Новый абзац; новая строка
Выделить слово в документе	Установите выражение
Выделить слово и начать его исправлять	Исправьте выражение
Выделить и удалить конкретные слова	Удалить выражение
Показать список команд, которые можно выполнить	Что я могу сказать?
Обновление списка доступных команд речи	Обновить речевые команды
Включить режим прослушивания	Начните слушать
Отключить режим прослушивания	Перестать слушать
Переместить панель микрофона, функции распознавания речи	Переместите распознавание речи
Свести к минимуму панель микрофона	Свернуть распознавание речи
Просмотреть содержимое Справки и поддержки Windows, касающуюся конкретных задач	Как что-то сделать? Скажите, например, «Как установить принтер?» Обратите внимание, что эта команда доступна только в случае использования распознавания речи на английском языке (США).

Windows предоставляет функцию распознавания речи на основе устройств (доступную как с помощью приложения Windows Recech Recognition Desktop), так и с помощью облачной службой распознавания речи на тех рынках и регионах, где доступна Cortana. Microsoft может использовать голосовые данные, взаимодействия с компьютером, чтобы улучшить услуги распознавания речи.

Чтобы использовать распознавание речи, необходимо включить параметр «Знакомство с вами» (параметр конфиденциальности в разделе «Персонализация рукописного ввода и ввода с клавиатуры»), поскольку голосовые службы существуют как в облаке, так и на вашем устройстве. Информация, которую Microsoft собирает с их помощью, позволяет их улучшить. Речевые службы, которые не передаются в облако и присутствуют только на вашем устройстве, такие как «Диктор» и «Распознавание речи Windows», по-прежнему будут работать, если этот параметр отключен, но Microsoft уже не будет собирать данные.

Если для параметра «Диагностика и использование данных» («Параметры» → «Конфиденциальность» → «Диагностика и отзывы») установлено значение «Полные», входящие данные для рукописного ввода и ввода текста отправляются в Microsoft, и компания использует эти данные в совокупности, чтобы улучшить платформу для всех пользователей.

Чтобы отключить распознавание голоса в Windows 10, выполните следующие действия.

Откройте приложение «Параметры» .

Перейдите в раздел «Конфиденциальность» → «Голосовые функции» .

Справа отключите опцию «Распознавания голоса в сети» передвинув ползунок переключателя в положение «Откл.» .

Теперь функция отключена.

Кроме того, вы можете применить настройки реестра.

Отключить распознавание речи в сети с помощью настройки реестра.

Загрузите следующий ZIP-архив: загрузите ZIP-архив .

Извлеките его содержимое в любую папку. Вы можете разместить файлы непосредственно на рабочем столе.

Дважды кликните файл Off-Online Recognition.reg , чтобы начать процесс слияния.

Чтобы отменить изменение при необходимости, используйте файл On-Online Speech Recognition.reg .

Файлы реестра, выше, изменяют ветвь реестра

HKEY_CURRENT_USER\Software\Microsoft\Speech_OneCore\Settings\OnlineSpeechPrivacy

Они изменяют параметр DWORD (32 бита) с именем HasAccepted .

HasAccepted = 1 - Включить распознавание речи в сети.
HasAccepted = 0 - Функция распознавания речи отключена.

Кроме того, начиная с Windows 10 build 17063, ОС имеет ряд новых параметров в разделе «Конфиденциальность». К ним относятся возможность управления разрешениями на использование для ваших библиотек / папок, микрофона, календаря, информации учетной записи пользователя, файловой системы, местоположения, контактов, истории вызовов, электронной почты, обмена сообщениями и т. Д.

Наконец, вы можете отключить распознавание речи в сети на странице конфиденциальности программы установки Windows во время установки ОС с нуля.

Операционная система Windows 7 оснащена многими опциями, которые дают все больше возможностей пользователям данной системы. В нее смогли внедрить весьма интересную функцию, которая носит название «распознование речи». Но что представляет собой данная система? Об этом и пойдет разговор.

Опция, о которой идет речь, позволяет применять в приложениях всей системы абсолютно новый способ взаимодействия пользователя с компьютером. Именно система «Распознавание речи Windows 7» допускает возможность управления компьютером, не используя при этом клавиатуру, мышь и другие средства.

Хочется отметить, что данная инновация будет доступна и в других продуктах Microsoft. Эта функция была замечена немного ранее, то есть ее попытались внедрить в Windows Vista, но в седьмой версии операционной системы компании Microsoft голосовое управление выполнено на более высоком уровне по сравнению с предшественником. Если сказать проще, такая опция, как распознавание речи Windows 7 стала еще более функциональной.

Кроме всего сказанного, хочется отметить, что она имеет довольно широкий спектр применения. Пользователи Windows 7 с функцией распознания речи имеют возможность запускать программы и конвертировать все звуковые фрагменты в текст, выполнять всевозможные команды на компьютере, используя всего лишь свой голос и необходимые приспособления. Но что же нужно для того, чтобы распознавание речи Windows 7 стало реальным?

В первую очередь, вам понадобится микрофон, который следует подключить к компьютеру. Кроме этого, необходимо приобрести специальное приложение или программу, которая издается самим производителем, то есть компанией Microsoft. После того как все необходимые компоненты будут установлены, а микрофон подключен к компьютеру, следует осуществить еще определенный план работы:

Необходимо выполнить тестовые голосовые команды и конвертировать их в текст.
После того как вы проведете обучение программы распознания, нужно будет создать шаблоны разных команд своим голосом. Именно на основе данной работы компьютер сможет принимать и выполнять все заданные вами команды.

Функция распознавание речи Windows 7 используется в текстовом редакторе компании Microsoft - WordPad. Она безотказно функционирует при заполнении различных форм, а также хорошо себя проявляет в работе в Internet Explorer и при

Кроме этого, данная опция без труда отредактирует записанный ранее текст, определив специальные голосовые команды. Конечно, в процессе распознавания той или иной задачи случаются типичные ошибки (когда происходит ошибочное распознавание некоторых звуков). На этот случай в программе предусмотрен список соответствий тех или иных слов.

Функция, конечно, феноменальная, но все же здесь есть одно «но». Все дело в том, что распознавание русской речи сейчас, в принципе, недоступно. Имеются отличные версии программы для английского, французского, немецкого и японского языка. Существуют также версии для китайской, испанской и итальянской речи.

Но вот данная новинка не совсем адаптирована для русской речи. Ваш компьютер не сможет воспринимать поставленные перед ним задачи, а значит, вам будет проще написать что-то при помощи клавиатуры или же выполнить определенные задачи с помощью мыши.

Конечно, вы можете попробовать поработать с подобными русскоязычными программами или же отдать свое предпочтение английскому языку, но все же остается надеяться, что в скором времени распознавание речи на русском языке тоже будет доступно в качественном режиме. И именно тогда вы сможете опробовать на практике такую уникальную функцию. Ведь она, без сомнения, явно упрощает работу на персональном компьютере и является огромным прорывом в сфере программирования. Так что остается лишь ждать.

Управление с помощью сенсорного экрана — это уже стандарт. Новейшие системы, такие как Windows 8 «понимают» голосовые команды.Распознавание речи должно привести к тому, что наша связь с компьютером будет еще проще, интуитивнее и… естественнее. Я расскажу как это выглядит на сегодняшний момент.

Немного истории — как развивалось общение с машиной

Способы общения с компьютером развивались на протяжении многих лет. Первым интерфейсом, через который человек мог давать команды были перфокарты, которые восходят к 1832 году. Они использовались в машинах для производства ткани. Клавиатуру же начали использовать в 1960 году. Два десятилетия спустя присоединилась стандартная мышь и используется по сей день. Хотя мышь поделилась полномочиями с трекпадом, но она все еще самый популярный вид управления. Благодаря смарфонам и планшетам стал очень популярным сенсорный интерфейс и жесты, которые используются, в частности,для управление Xbox 360 Kinect. После сенсорных экранов и жестов, идет голосовое управление, но это решение до сих пор было так слаборазвито, что порой о ней и не услышишь.

Настройка распознавания речи в Windows 8

К сожалению, голосовое управление пока не доступно на русском языке. Поддерживаются пока английский, французский, немецкий, японский, корейский, китайсий и испанский языки. Microsoft решила сосредоточиться на крупнейших и наиболее развитых странах, но не исключено, что в течение некоторого времени он добавит эту функции и для нашей страны. Если попробовать запустить, вот так ругается

Если вы все еще хотите протестировать это решение, необходимо настроить систему(изменить язык) и выучить пару слов на английском. Чтобы сделать это, необходимо перейти в панель управления, и выбрать пункт Язык. Если у вас нет другого языка, кроме русского, необходимо нажать кнопку «Добавить язык», а затем выбрать один из поддерживаемых языков. В нашем случае это «Английский (США)». Видим, что доступна только раскладка на этом языке, два раза кликаем, пойдет проверка доступности языка для интерфейса, после проверки нажимаем «Загрузить и установить языковой пакет», и пойдет процесс, терпеливо ждем когда загрузится. Как только этот процесс завершится, установите английский языком по умолчанию

Теперь нужно перейти на начальный экран Windows 8 (плиточный), в поиск ввести «Windows Speech Recognition» и нажать Enter.

Таким образом, вы можете запустить инструмент распознавания голоса. При первом запуске он предложит настроить микрофон, после выбора, что нибудь скажите, чтобы проверить.

Далее предложить пройти обучающие уроки. Они длятся до 15-20 минут, но очень полезны и содержат основные сведения об использовании функций. Но если вы в английском не сильны, я думаю не стоит тратить время, трудно будет что-либо разобрать, сразу в бой

Как работать

Для того чтобы компьютер начал распознавать вашу речь необходимо сказать «start listening» (что означает начать слушать), или нажмите кнопку микрофона для запуска режима прослушивания. Теперь можно открыть приложение или просто диктовать слова в текстовый редактор, строку браузера или поиска

Что мы можем делать

В принципе возможности огромны, кроме стандартных слов можно создавать свои команды. Основные возможности приведены в таблице

Действие	Что сказать
Выберите любой элемент по его имени	Click File,Start,View
Выберите любой элемент или значок	Click Recycle Bin,Click Computer,Click(название файла)
Дважды нажмите или дважды щелкните любой элемент	Double-clickRecycle Bin,Double-click Computer
Переключение между открытыми приложениями	Switch to Paint,Switch to WordPad
Прокрутка	Scroll up; Scroll down; Scroll left; Scroll right
Включить новый пункт или новую строку в документе	New paragraph; New line
Выберите слово в документе
Корректировка слова	Correct word
Выберите и удалите определенные слова
Показать перечень применимых команд
	Refresh speech commands
Включите режим прослушивания
Отключите режим прослушивания
Свернуть микрофон	Minimize speech recognition
Посмотреть Windows, справки и поддержку	How do I do something? Например:How do I install a printer?

Если вы не знаете, как произносится фраза, я предлагаю вам использовать Google Translate или http://училочка.рф (этого сайта он лучше понимал)

Было у меня желание записать свои команды состоящих из простых буржуйских слов. Которые я могу выговорить. Так он мне и не дал этого сделать, не сумел запустить редактор команд. В итоге он отлично понимал мое произношение слов One, Two и Open. Этим набором можно запустить приложение по номеру в начальном экране. Сначала сказать номер, потом сказать OPEN. Не густо конечно, но я считаю эксперимент удавшимся. Было бы не плохо, если бы Microsoft ввел русский язык, хорошая замена пульту дистанционного управления.

Перевод

С тех пор, как на сцену распознавания речи вышло глубинное обучение, количество ошибок в распознавании слов кардинально уменьшилось. Но, несмотря на все те статьи, которые вы могли читать, у нас до сих пор нет распознавания речи человеческого уровня. У распознавателей речи много видов отказов. Для дальнейшего улучшения их нужно выделить и постараться устранить. Это единственный способ перейти от распознавания, подходящего для некоторых людей большую часть времени, к распознаванию, работающему для всех людей всё время.

Улучшения в количестве ошибочно распознанных слов. Тестовый голосовой набор был собран на телефонном коммутаторе в 2000 году из 40 случайных разговоров двух человек, чей родной язык – английский

Говорить о том, что мы достигли уровня человека в распознавании речи в разговорах, основываясь лишь на наборе разговоров с телефонного коммутатора, это всё равно, что утверждать, что робомобиль водит не хуже человека, протестировав его в единственном городе в солнечный день без всякого уличного движения. Произошедшие в деле распознавания речи в последнее время сдвиги удивительны. Но заявления по поводу распознавания речи на уровне человека слишком смелы. Вот несколько областей, в которых всё ещё необходимо добиваться улучшений.

Акценты и шум

Один из очевидных недостатков распознавания речи – обработка акцентов и фонового шума. Основная причина этого в том, что большая часть тренировочных данных состоит из американского говора с высоким отношением сигнала к шуму. К примеру, в наборе разговоров с телефонного коммутатора есть только беседы людей, чей родной язык – английский (по большей части, это американцы) с небольшим фоновым шумом.

Но увеличение тренировочных данных само по себе, скорее всего, не решит эту проблему. Существует множество языков, содержащих много диалектов и акцентов. Нереально собрать размеченные данные для всех случаев. Создание высококачественного распознавателя речи только для американского английского требует до 5 тысяч часов аудиозаписей, переведённых в текст.

Сравнение людей, занимающихся преобразованием речи в текст, с Baidu’s Deep Speech 2 на разных типах речи. Люди хуже справляются с распознаванием неамериканских акцентов – возможно, из-за обилия американцев среди них. Думаю, что люди, выросшие в определённом регионе, с гораздо меньшим количеством ошибок справились бы с распознаванием акцента этого региона.

При наличии фонового шума в движущейся машине отношение сигнал/шум может достигать величин в -5 дБ. Люди легко справляются с распознаванием речи другого человека в таких условиях. Автоматические распознаватели гораздо быстрее ухудшают показатели с увеличением шума. На графике видно, как сильно увеличивается отрыв людей при увеличении шума (при низких значениях SNR, signal-to-noise ratio)

Семантические ошибки

Часто количество ошибочно распознанных слов не является самоцелью системы распознавания речи. Мы нацеливаемся на количество семантических ошибок. Это та доля выражений, у которых мы неправильно распознаём смысл.

Пример семантической ошибки – когда кто-то предлагает «let’s meet up Tuesday» [давайте встретимся во вторник] а распознаватель выдаёт «let’s meet up today» [давайте встретимся сегодня]. Бывают и ошибки в словах без семантических ошибок. Если распознаватель не распознал «up» и выдал “let’s meet Tuesday”, семантика предложения не изменилась.

Нам нужно аккуратно использовать количество ошибочно распознанных слов в качестве критерия. Для иллюстрации этого я дам вам пример с наихудшим из возможных случаев. 5% ошибок в словах соответствует одному пропущенному слову из 20. Если в каждом предложении 20 слов (что для английского языка вполне в рамках среднего), то количество неправильно распознанных предложений приближается к 100%. Можно надеяться на то, что неправильно распознанные слова не меняют семантический смысл предложений. А иначе распознаватель может неправильно расшифровать каждое предложение даже с 5% количеством ошибочно распознанных слов.

Сравнивая модели с людьми важно проверять суть ошибок и следить не только за количеством неправильно распознанных слов. По моему опыту, люди, транслирующие речь в текст, делают меньше ошибок и они не такие серьёзные, как у компьютеров.

Исследователи из Microsoft недавно сравнили ошибки людей и компьютерных распознавателей схожего уровня. Одно из найденных различий – модель путает “uh” [э-э-э…] с “uh huh” [ага] гораздо чаще людей. У двух этих терминов очень разная семантика: “uh” заполняет паузы, а “uh huh” обозначает подтверждение со стороны слушателя. Также у моделей и людей обнаружили много ошибок совпадающих типов.

Много голосов в одном канале

Распознавать записанные телефонные разговоры проще ещё и потому, что каждого говорящего записывали на отдельный микрофон. Там не происходит наложения нескольких голосов в одном аудиоканале. Люди же могут понимать нескольких ораторов, иногда говорящих одновременно.

Хороший распознаватель речи должен уметь разделять аудиопоток на сегменты в зависимости от говорящего (подвергать его диаризации). Также он должен извлечь смысл из аудиозаписи с двумя накладывающимися друг на друга голосами (разделение источников). Это необходимо делать без микрофона, расположенного прямо у рта каждого из спикеров, то есть так, чтобы распознаватель работал хорошо, будучи размещённым в произвольном месте.

Качество записи

Акценты и фоновый шум – всего два фактора, к которым распознаватель речи должен быть устойчив. Вот ещё несколько:

Реверберация в разных акустических условиях.
Артефакты, связанные с оборудованием.
Артефакты кодека, используемого для записи и сжатия сигнала.
Частота дискретизации.
Возраст говорящего.

Большинство людей не отличат на слух записей из mp3 и wav-файлов. Прежде чем заявлять о показателях, сравнимых с человеческими, распознаватели должны стать устойчивыми и к перечисленным источникам вариаций.

Контекст

Можно заметить, что количество ошибок, которые люди делают на тестах в записях с телефонной станции, довольно высоко. Если бы вы беседовали с другом, который не понимал бы 1 слово из 20, вам бы было очень сложно общаться.

Одна из причин этого – распознавание без учёта контекста. В реальной жизни мы используем множество разных дополнительных признаков, помогающих нам понимать, что говорит другой человек. Некоторые примеры контекста, используемые людьми, и игнорируемые распознавателями речи:

История беседы и обсуждаемая тема.
Визуальные подсказки о говорящем – выражения лица, движение губ.
Совокупность знаний о человеке, с которым мы говорим.

Сейчас у распознавателя речи в Android есть список ваших контактов, поэтому он умеет распознавать имена ваших друзей . Голосовой поиск на картах использует геолокацию , чтобы сузить количество возможных вариантов, до которых вы хотите построить маршрут.

Точность систем распознавания увеличивается с включением в данные подобных сигналов. Но мы только начинаем углубляться в тип контекста, который мы могли бы включить в обработку и в методы его использования.

Развёртывание

Последние достижения в распознавании разговорной речи невозможно развернуть. Представляя себе развёртывание алгоритма распознавания речи, нужно помнить о задержках и вычислительных мощностях. Эти параметры связаны, поскольку алгоритмы, увеличивающие требования к мощности, увеличивают и задержку. Но для простоты обсудим их по отдельности.

Задержка: время от окончания речи пользователя и до окончания получения транскрипции. Небольшая задержка – типичное требование для распознавания. Она сильно влияет на ощущения пользователя от работы с продуктом. Часто встречается ограничение в десятки миллисекунд. Это может показаться слишком строгим, но вспомните, что выдача расшифровки - это обычно первый шаг в серии сложных вычислений. К примеру, в случае голосового интернет-поиска после распознавания речи нужно ещё успеть выполнить поиск.

Двунаправленные рекуррентные слои – типичный пример улучшения, ухудшающего ситуацию с задержкой. Все последние результаты расшифровки высокого качества получаются с их помощью. Проблема только в том, что мы не можем ничего подсчитывать после прохода первого двунаправленного слоя до тех пор, пока человек не закончил говорить. Поэтому задержка увеличивается с длиной предложения.

Слева: прямая рекуррентность позволяет начинать расшифровку сразу. Справа: двунаправленная рекуррентность требует подождать окончания речи перед тем, как начинать расшифровку.

Хороший способ эффективно включать будущую информацию в распознавание речи пока ещё ищут.

Вычислительная мощность: на этот параметр влияют экономические ограничения. Необходимо учитывать стоимость банкета для каждого улучшения точности распознавателя. Если улучшение не достигает экономического порога, развернуть его не получится.

Классический пример постоянного улучшения, которое никогда не развёртывают – совместное глубинное обучение . Уменьшение количества ошибок на 1-2% редко оправдывает увеличение вычислительных мощностей в 2-8 раз. Современные модели рекуррентных сетей тоже попадают в эту категорию, поскольку их очень невыгодно использовать в поиску по пучку траекторий, хотя, думаю, в будущем ситуация поменяется.

Хочу уточнить – я не говорю, что улучшение точности распознавания с серьёзным увеличением вычислительных затрат бесполезно. Мы уже видели, как в прошлом работает принцип «сначала медленно, но точно, а затем быстро». Смысл в том, что до тех пор, пока улучшение не станет достаточно быстрым, использовать его нельзя.

В следующие пять лет

В области распознавания речи остаётся ещё немало нерешённых и сложных проблем. Среди них:

Расширение возможностей новых систем хранения данных, распознавания акцентов, речи на фоне сильного шума.
Включение контекста в процесс распознавания.
Диаризация и разделение источников.
Количество семантических ошибок и инновационные методы оценки распознавателей.
Очень малая задержка.

С нетерпением жду прогресса, который будет достигнут в следующие пять лет по этим и другим фронтам.

Теги: Добавить метки