Для распознавание голоса можно использовать wave файл моно 8 000 Гц , так как такое качество используется в телефонах, а голос из телефона мы прекрасно понимаем.
Волна, которая рисуется точками, полученными при прочтении этого файла представляет собой движение динамика при проигрывании звука.
Разделив происходящее с динамиком за 1 секунду на 8000 частей, мы увидим 8000 положений динамика.
Динамик, подчиняясь электромагниту движется вверх и вниз, передавая давление воздуху.
Мы можем описать участки графика как шаблоны.
Но возникает другая проблема. Мы можем сказать слово с разной громкостью и скоростью, и это изменит шаблон.
Возможно, и я надеюсь на это, что область шаблонов с разной громкостью и скоростью одних звуков и других не пересекаются.
Возможно, они пересекаются.
Тогда нужно будет использовать предположения о возможным существовании слов с одним звуком и со вторым, и возможным существовании предложений с первым словом и со вторым.
Волна, которая рисуется точками, полученными при прочтении этого файла представляет собой движение динамика при проигрывании звука.
Разделив происходящее с динамиком за 1 секунду на 8000 частей, мы увидим 8000 положений динамика.
Динамик, подчиняясь электромагниту движется вверх и вниз, передавая давление воздуху.
Мы можем описать участки графика как шаблоны.
Но возникает другая проблема. Мы можем сказать слово с разной громкостью и скоростью, и это изменит шаблон.
Возможно, и я надеюсь на это, что область шаблонов с разной громкостью и скоростью одних звуков и других не пересекаются.
Возможно, они пересекаются.
Тогда нужно будет использовать предположения о возможным существовании слов с одним звуком и со вторым, и возможным существовании предложений с первым словом и со вторым.
Комментариев нет:
Отправить комментарий