пятница, 7 октября 2011 г.

Распознавание голоса

Для распознавание голоса можно использовать wave файл моно 8 000 Гц , так как такое качество используется в телефонах, а голос из телефона мы прекрасно понимаем.
Волна, которая рисуется точками, полученными при прочтении этого файла представляет собой движение динамика при проигрывании звука. 
Разделив происходящее с динамиком за 1 секунду на 8000 частей, мы увидим 8000 положений динамика.
Динамик, подчиняясь электромагниту движется вверх и вниз, передавая давление воздуху.
Мы можем описать участки графика как шаблоны.
Но возникает другая проблема. Мы можем сказать слово с разной громкостью и скоростью, и это изменит шаблон.
Возможно, и я надеюсь на это, что область шаблонов с разной громкостью и скоростью одних звуков и других не пересекаются.
Возможно, они пересекаются. 
Тогда нужно будет использовать предположения о возможным существовании слов с одним звуком и со вторым, и возможным существовании предложений с первым словом и со вторым.

Комментариев нет:

Отправить комментарий