사용법 - 구글 음성 인식 api




음성을 음소로 끊거나 새로운 음성 샘플을 합성하는 API? (5)

그런 소프트웨어는 없습니다. 임의의 음성을 구성하는 음소로 변환하는 것은 부분적으로 해결 된 문제 일뿐입니다. speech-to-text 소프트웨어는 speech-to-text 마찬가지로 여전히 불완전합니다.

아이디어는 표적의 목소리의 timbre 을 재현하는 것입니다. 오디오를 완벽하게 분할 할 수 있다고하더라도 음소를 재정렬하면 스플 리 이스 인공물은 물론 부 자연스러운 종지감과 억양으로 오디오가 생성됩니다. 이 시점에서 당신은 평탄화, 시간 스케일링 및 피치 보정에 들어갈 수 있습니다.이 모든 것은 이론적으로 가능하고 이해가 잘되지만 실세계 데이터에서는 제대로 작동하지 않습니다. 특히 문제의 오디오 샘플이 하나의 음소, 그리고 음색이 보존 될 필요가있을 때.

이러한 문제는 억양 및 주변 음소에 기반한 소리의 allophonic 변화에 의해 음운론적인면에서 복합적으로 allophonic . 낮은 품질의 오디오 근사값을 충실하게 생성하려면 대상의 언어, 악센트 및 음성 패턴에 대한 자세한 이해가 필요합니다.

또한 궁극적 인 문제는 사회 공학 중 하나이며 사람들은 자신이 아는 사람들의 목소리에 속지 만 쉽게 속이기 쉽지 않습니다. 입력 데이터가 큰 코퍼스를 사용하더라도 기껏해야 대화에 충분하지 않은 짧은 샘플을 얻을 수 있습니다.

확실히 가능하지만 어려운 일입니다. 비록 그것이 존재했다하더라도, 항상 충분하지 않을 것입니다.

기술 괴짜가 누군가의 목소리를 녹음 한 영화를 아십니까? 그런 다음 어떤 문구를 입력하여 대상이 말하는 것처럼 보이게 할 수 있습니까?

해당 소프트웨어가 API 버전에 있습니까? 나는 Google에 무엇이 있는지조차 몰라.



이 기술은 "음성 합성"및 "음성 인식"

이것에 대한 Java API는 여기에서 찾을 수 있습니다. Java voice JSAPI

애플은이 애플 연설을 위한 API를 가지고있다.

Microsoft는 여러 가지가 있습니다 ... 하나는 여기에 비스타 연설


포르 만트 (formant) 인식 피치 이동으로 흥미로운 음성 왜곡 효과를 얻을 수 있습니다. Adobe Audition은 꽤 좋은 구현 방식을 가지고 있습니다. Antares는 몇 가지 흥미로운 음성 효과 VST 플러그인을 제작 합니다.

이러한 기술은 음성을 소스 필터 모델로 처리하기 위해 선형 예측 코딩 (LPC)의 일부 형식을 사용합니다. LPC는 음성 신호 (formant)의 공명을 추정하고, 역 필터를 사용하여 그 효과를 반전 한 다음 결과 잔차 신호를 코딩함으로써 음성 신호에 작용합니다. 잔여 신호는 이상적으로 성문 충동을 나타내는 충 동 열차입니다. 이를 통해 피치와 포먼트를 독립적으로 스케일링 할 수 있으므로 단순 피치 쉬프트보다 훨씬 나은 성 전환 결과를 얻을 수 있습니다.


Lyrebird 는 바로이 문제를 해결하기위한 신생 기업입니다. 사람의 목소리 샘플과 일부 텍스트 샘플을 제공하면 샘플에있는 사람의 목소리로 작성된 텍스트의 음성 버전을 합성 할 수 있습니다.





phoneme