audio преобразователь - Как преобразовать речь в текст?





расшифровка видео (5)


Поздно к вечеринке, так что ответим больше на будущие ссылки.

Достижения в области + мышление и повестка дня Mozilla привели к этим двум проектам в этом направлении:

У последнего есть 12-гигабайтный набор данных для загрузки. Первый позволяет обучать модель с вашими собственными аудиофайлами для моего понимания

Как я могу взять MP3 и преобразовать речь в текст?

У меня есть записанные заметки на конференции и на собраниях (на записи есть один голос, это мой голос). Я думал, что было бы проще и интеллектуально интересно преобразовать текст, используя речь в текстовые инструменты, а не просто расшифровывать вручную. Я знаю, что есть технологии, особенно для приложений VoIP, использующих Asterisk и Podcasts, но каковы они и как я могу их использовать?







.NET может сделать это с помощью пространства имен System.Speech.

Вам нужно будет сначала преобразовать в .wav или захватить звук в реальном времени с микрофона.

Подробности о реализации можно найти здесь: Transcribing Audio с .NET







Почему он не может прочитать WAV?

Он сообщает, что файл имеет неправильную частоту дискретизации (8000) вместо запрошенной (16000). Частота дискретизации очень важна для программ распознавания речи.

Почему он не может читать / dev / dsp?

В последних версиях Ubuntu pulseaudio Framework используется вместо OSS. Версия, которую вы пытаетесь использовать, использует OSS, поэтому вам нужно установить пакет oss-compatibility из вашего дистрибутива, чтобы вернуть поддержку OSS.

Вы можете попробовать более новый Julius, который имеет поддержку pulseaudio

Почему тогда он может читать / dev / dsp, но никак не реагирует?

Аудио вход не работает должным образом.

Кто-нибудь еще имел успех с распознавателями речи с открытым исходным кодом, особенно в Linux?

Конечно, посмотрите это видео как пример того, что люди делают с CMUSphinx:

http://www.youtube.com/watch?v=vfaNLIowSyk

Я предлагаю вам пересмотреть пакет CMUSphinx, который является ведущим механизмом распознавания речи с открытым исходным кодом. На сайте много документов, их просто нужно прочитать. Помните, что распознавание речи - это сложная область, в которой вы можете получить отличные результаты, но вам также нужно вложить свое время в понимание технологии. Как и с любым другим доменом.

Короче говоря, для расшифровки файла с помощью CMUSPhinx необходимо выполнить 3 простых шага:

  1. Возьмите wav-файл и повторно сэмплируйте его в 16-битный моно-файл 8 кГц с sox
    sox input.wav -r 8000 -c 1 resampled.wav
  1. Установить карманный сфинкс 0,7
   apt-get install pocketsphinx
  1. Расшифровать файл
    pocketsphinx_continuous -samprate 8000 -infile resampled.wav

Результат будет распечатан на стандартный вывод. Чтобы подавить регистратор, добавьте перенаправление stderr в / dev / null

    pocketsphinx_continuous -infile resampled.wav 2> /dev/null




audio speech-to-text