<img src="/assets/img/common/logo.svg" alt="AmiVoice Cloud Platform" width="329" height="24">

AmiVoice Cloud Platform-Tech Blog

★様々な魅力がありますが、ひしば的オススメポイントはここ★

プログラムを書くことで、音声をテキストに変換する様々なアプリケーションが自分で開発できる
課金対象は、認識させる『音声の長さ』ではなくノイズや無音部分を省いた『発話部分』のみで、1秒単位で計算してくれる
シーンや利用用途にあわせて13種類の音声認識エンジン(普通の会話向け・医療向け・金融向けなど)を選べる
単語登録もできる
ログあり(データが保存され品質向上に利用される)と、ログなし(データが保存されない)が選べて安心
「会話_汎用」エンジンの場合で、ログありは0.0275 円 / 秒（税込）、ログなしは0.044 円 / 秒（税込）とリーズナブル
「会話_汎用」「英語_汎用」「中国語_汎用」は、それぞれ毎月60分無料
マニュアル内にチュートリアル・サンプルプログラム完備で分かり易い

このサービス内容と価格で弊社の高い精度の音声認識を使用できるのは、とてもお得なのでは？と思います。

今回はcurlというコマンドを使用してACPを試します

後ほど書きますが、ACPは様々なプログラミング言語に対応していて、多様な形で利用することができます。
その中でも初心者でも気軽にACPを試せる方法として先輩たちにお勧めされたのが、「curl」というコマンドを使用する方法でした。

★ざっくり解説★

curlとは、コマンド(PCに出す命令文)のひとつで、通信を使ってサーバーやAPIなどとデータの送受信ができるものです。
普段インターネットでWebサイトを見たりするときに使用しているhttpも通信規格のひとつですが、curlはその他にも様々な通信規格に適応していて使いやすいものです。また、非常にシンプルなコマンドで扱えるので比較的簡単に使用できます。
お持ちのPCにインストールする必要がある場合もありますが、Windows10では何もしなくても元から入っています。

ちなみにこの時点でもし、そもそもサーバーとかAPIとかよくわかんない、聞いたことない(！？)と思ったとしても、今回は大丈夫です。「curlというものを使うらしい」くらいの理解でもいいので、安心してこのまま進んでみてください。

次はACPを使用するのに必要そうな情報を知ろう

利用には登録が必要です。初めての利用登録の流れはこちらの記事にありますので、ぜひご参照ください。

AmiVoice Cloud Platform を使ってみよう

では、マニュアル内のチュートリアルから、とりあえずこれさえ知っておけば試せそうな情報を拾ってみます。

ACPには、音声認識を行う方式が、以下の2種類あります。

1.HTTP音声認識API（非ストリーミング）

とても簡単
curlが使用できるのはこちらで、他にも、C++、C#、java、JavaScript、PHP、Pythonと様々なプログラミング言語での使用ができる
すでに録音済みの音声ファイルがある場合にのみ使える
1回でアップロードした音声データに含まれるすべての発話の認識処理が終了するまで、認識結果を受け取ることができない
受付可能な音声データの最大容量：16MB　よってサイズの小さい短い音声ファイルを簡単に認識させたいケース向き

2.WebSocket音声認識API （ストリーミング）

HTTPに比べると、ちょっと難しく感じる方もいるかも
こちらの方式ではcurlは使用できないので、C++、C#、java、JavaScript、PHP、Pythonのいずれかを使用する
すでに録音済みの音声はもちろん、リアルタイムに録音しながらでも、どんどん投げれて、認識結果もどんどん受け取れる

1と2に共通すること

ACPの利用にはマイページ⇒接続情報で確認できるAppKeyが必要
非音声区間による強制切断時間：50秒ということで、最初に無音とかノイズとかが長く続くと強制切断されちゃうので、注意が必要です
認識結果は、JSONというフォーマットで返却される
注意点として16kHz未満（8kHz/11kHz）のサンプリングレートの音声データを受け付けて認識可能なエンジンは、現時点(2021年3月)では日本語の「会話_汎用」エンジン（-a-general）のみなので、それ以外の音声認識エンジンを指定して認識させたい場合は16kHz以上のフォーマットの音声データで送信する必要がある。

※音声ファイルにはサンプリングレートというものがあり、1秒間に何回記録するかを表すものです(サンプルレート・サンプリング周波数などとも呼ばれます)。例えば16kHzは1秒間に16000回記録をしていて、この数が多ければ多いほど、滑らかな音になり音質が良くなったと感じることができます。
※詳細はこちらのページに記載がありますので、詳しく知りたい方はご確認ください。

他にも情報が丁寧かつたくさん書かれていますが、このぐらいの理解でも使えるのか、試しに先に進んでみます。

ACPサンプルプログラムに挑戦

マニュアル内のサンプルプログラムを試しにダウンロードします。

『jq』というJSON形式を読みやすく整形してくれるツール

ダウンロードした『sample_1.1.5』というディレクトリの中の、『Hrp』というディレクトリの中に、『curl』の名を持つディレクトリがあります。中にはファイルが2つありますが、使用するのは『run.bat』というファイル。バッチファイルなどと呼ばれるもので、ダブルクリックすると予め設定されている命令を実行してくれるという便利なファイルです。

ダブルクリックすると下記のような黒い画面が立ち上がります。Windowsに入っている〔コマンドプロンプト〕という名前のアプリケーションです。PCにキーボードでコマンド(命令)を打って、送るための画面です。

※PCの設定によっては「WindowsによってPCが保護されました」というポップアップが立ち上がるかもしれませんが、これに関しては詳細表示→実行を押して大丈夫です。

黒い画面

「Please enter AppKey:」と書いてあるので、ここにACPのマイページ⇒接続情報で確認できる自分専用のAppKeyをコピペしてエンタ―キーを押下します。
すると今度はぶわーと数字やアルファベットが大量に表示されます。

数字やアルファベットが大量に表示

※「続行するには何かキーを押してください…」と表示されますが、押すと画面が終了するので、ちょっと待ってね。

これが、「JSON形式で書かれた、認識結果」です。
JSON形式で書かれたものを読める形に変換するには様々な方法がありますが、今回はただ結果を見たいだけなので、以下のページを使います。
『jq』というJSON形式を読みやすく整形してくれるツールのお試しページです。

jq play

jqplay.org

上記のページの左側に先ほどのコマンドプロンプトに表示された結果をコピペしたら以下が表示されました。

“results”: [

    {

      “tokens”: [

        {

          “written”: “アドバンスト・メディア”,

          “confidence”: 1,

          “starttime”: 570,

          “endtime”: 1578,

          “spoken”: “あどばんすとめでぃあ”

        },

        {

          “written”: “は”,

          “confidence”: 1,

          “starttime”: 1578,

          “endtime”: 1850,

          “spoken”: “は”

        },

        {

          “written”: “、”,

          “confidence”: 0.97,

          “starttime”: 1850,

          “endtime”: 2010,

          “spoken”: “_”

        },

        {

          “written”: “人”,

          “confidence”: 1,

          “starttime”: 2010,

          “endtime”: 2314,

          “spoken”: “ひと”

        },

      {

          “written”: “と”,

          “confidence”: 1,

          “starttime”: 2314,

          “endtime”: 2426,

          “spoken”: “と”

        },

        {

          “written”: “機械”,

          “confidence”: 1,

          “starttime”: 2426,

          “endtime”: 2826,

          “spoken”: “きかい”

        },

        {

          “written”: “と”,

          “confidence”: 0.93,

          “starttime”: 2826,

          “endtime”: 2938,

          “spoken”: “と”

        },

        {

          “written”: “の”,

          “confidence”: 1,

          “starttime”: 2938,

          “endtime”: 3082,

          “spoken”: “の”

        },

        {

          “written”: “自然”,

          “confidence”: 1,

          “starttime”: 3082,

          “endtime”: 3434,

          “spoken”: “しぜん”

        },

        {

          “written”: “な”,

          “confidence”: 1,

          “starttime”: 3434,

          “endtime”: 3514,

          “spoken”: “な”

        },

        {

          “written”: “コミュニケーション”,

          “confidence”: 1,

          “starttime”: 3514,

          “endtime”: 4362,

          “spoken”: “こみゅにけーしょん”

        },

        {

          “written”: “を”,

          “confidence”: 1,

          “starttime”: 4362,

          “endtime”: 4442,

          “spoken”: “を”

        },

        {

          “written”: “実現”,

          “confidence”: 1,

          “starttime”: 4442,

          “endtime”: 4922,

          “spoken”: “じつげん”

        },

        {

          “written”: “し”,

          “confidence”: 1,

          “starttime”: 4922,

          “endtime”: 5242,

          “spoken”: “し”

        },

        {

          “written”: “、”,

          “confidence”: 0.98,

          “starttime”: 5242,

          “endtime”: 5626,

          “spoken”: “_”

        },

        {

          “written”: “豊か”,

          “confidence”: 1,

          “starttime”: 5626,

          “endtime”: 5978,

          “spoken”: “ゆたか”

        },

        {

          “written”: “な”,

          “confidence”: 1,

          “starttime”: 5978,

          “endtime”: 6090,

          “spoken”: “な”

        },

        {

          “written”: “未来”,

          “confidence”: 1,

          “starttime”: 6090,

          “endtime”: 6490,

          “spoken”: “みらい”

        },

        {

          “written”: “を”,

          “confidence”: 1,

          “starttime”: 6490,

          “endtime”: 6554,

          “spoken”: “を”

        },

        {

          “written”: “創造”,

          “confidence”: 0.88,

          “starttime”: 6554,

          “endtime”: 7034,

          “spoken”: “そうぞう”

        },

        {

          “written”: “して”,

          “confidence”: 1,

          “starttime”: 7034,

          “endtime”: 7210,

          “spoken”: “して”

        },

        {

          “written”: “いく”,

          “confidence”: 1,

          “starttime”: 7210,

          “endtime”: 7402,

          “spoken”: “いく”

        },

        {

          “written”: “こと”,

          “confidence”: 0.97,

          “starttime”: 7402,

          “endtime”: 7674,

          “spoken”: “こと”

        },

        {

          “written”: “を”,

          “confidence”: 1,

          “starttime”: 7674,

          “endtime”: 7706,

          “spoken”: “を”

        },

        {

          “written”: “めざ”,

          “confidence”: 0.96,

          “starttime”: 7706,

          “endtime”: 7962,

          “spoken”: “めざ”

        },

        {

          “written”: “します”,

          “confidence”: 0.96,

          “starttime”: 7962,

          “endtime”: 8506,

          “spoken”: “します”

        },

        {

          “written”: “。”,

          “confidence”: 0.84,

          “starttime”: 8506,

          “endtime”: 8778,

          “spoken”: “_”

        }

      ],

      “confidence”: 1,

      “starttime”: 250,

      “endtime”: 8778,

      “tags”: [],

      “rulename”: “”,

      “text”: “アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことをめざします。”

    }

],

“utteranceid”: “20201222/11/0176883ceb6f0a30116494c1_20201222_111742”,

“text”: “アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことをめざします。”,

“code”: “”,

“message”: “”

}

これなら何が書いてあるかわかります。このバッチファイルでは最初にダウンロードした『sample_1.1.5』というディレクトリの中の、『audio』というディレクトリの中の、『test.wav』という音声ファイルをサーバーに投げて、結果を受け取っています。

返ってくるJSONの中身ですが、主なものとしては下記のようなことが書いてあります。

“written” ：音声認識結果の単語の表記
“confidence” ：この単語の信頼度（0～1の間の値で、数値が高いほど信頼度が高い）
“starttime” ：この単語の開始時間（音声データの先頭の時間を0として）
“endtime” ：この単語の終了時間（音声データの先頭の時間を0として）
“spoken” ：この単語の読み（ひらがな）

※詳細はこちらのページに記載がありますので、詳しく知りたい方はご確認ください。