【作ってみた!】音声認識+生成AIで便利ツール~AmiVoiceライブラリとPower Automateでノーコード作成~

スパイス犬
こんにちは。
類を見ない暑さとなった6月某日、開発系の展示会にAmiVoiceAPIを出展させて頂きました。
ブースにご来訪頂いたたくさんの皆様、本当にありがとうございました。
自分たちも使ってなんぼ!というコンセプトに基づき、展示会で使用した「AmiVoiceAPIを使った音声メモ」をご紹介したいと思います。
テーマは、#生成AI、#ノーコード、#無料 です
さて、来訪頂いたお客様からの要望、貴重なコメントを忘れないようにメモしておきたいのですが、何より、たくさんの方々とお話しさせてもらいたいので、筆記やパソコンを使う時間をセーブしたい。
そこで、スマホに声で録音して、記事としてTeams投稿する!
手順は以下です。
- iPhoneのボイスメモで声を録音して会場からでファイルサーバに保存
- AmiVoiceAPIでテキストに変換
- 生成AIで文章を成形 機密情報のマスクも実施
- Microsoft Teamsに投稿
このプロセスをWindowsを持っている方なら誰でも無料で使えるPower Automate Desktop(PAD)を使って実装しました。
ともあれ投稿した内容をお見せいたします。

- Microsoft Teamsのチャネルをリンゴマークのスマホで表示
- 上段が生成AIを用いて成形した文章。タイトルも自動作成
- 下段がAmiVoiceAPIで音声認識したままのテキスト
このシステムをノーコードで実現しました。構築のTipsを少しご紹介いたします
1 Power Automate Desktopの利用
一連のタスクの自動化処理はPower Automate Desktopの「フロー」として新規作成しました。プログラム、バッチファイルの連続実行を行います。

一点Power Automate Desktopの無料版でできないこととしてフローのトリガー実行があります。
トリガーがあれば「音声ファイルのアップロード」でフロー実行させたのですが、今回は、会社に置いてきたパソコンでPower Automate Desktopのフローをタスクスケジューラ登録し、定期的に起動するようにして、新規の音声ファイルが生成されたかをチェックするようにしました。
2 iPhone純正のボイスメモでその場で音声を録音
業務で使用するスマホがiPhoneであることから、iOS純正の「ボイスメモ」を用いました。

iPhoneのボイスメモは、圧縮効率の良いm4aを音声ファイルフォーマットとして採用しているのですが、AmiVoiceAPIはこのフォーマットを現時点では採用していないため、パソコン内に配置したFFMpegを用いて、m4a->mp3フォーマットに変換するフローをPower Automate Desktopに含めました。
3 AmiVoiceAPIによる音声認識は、AmiVoiceが提供しているサンプルプログラムで
音声認識はAmiVoideから提供させて頂いているクライアントライブラリを用いたサンプルプログラムWrpSimpleTesterをそのまま使って頂いて実現可能です。
音声認識には汎用エンジンであるa-generalを用いましたが、医療、金融、保険とAmiVoiceAPIは最適なエンジンを提供していますので、用途に合わせて選択してください。
音声認識サービスはAmiVoiceホームページからアカウント作成していつでもご利用開始できます。60分/月以内ならずっと無料ですよ。
4 生成AIはGPT4.1をチョイス
AzureOpenAIのクラウドAPIを用いて、箇条書き、タイトルを自動生成を指示しました。
LLMはお好みでセレクトしてください。
モデルによって特徴はありますので、AmiVoiceAPI音声認識結果に対してどのような相性、特徴があるかは、調査して次の機会でご説明しますね。
なお、今回の生成AIへの指示はこちら!
“あなたは役立つアシスタントです。 以下の内容を箇条書きにしてください。 箇条書きの一行目は文章に合う簡潔なタイトルを考えて、隅付き括弧に区切って表示してください。パスワードやPINコードを思われる文字列が含まれている場合は、アスタリスクでマスクしてください”
5 Teamsへの投稿はアダプティブカードでHTTP POST
Teamsのアダプティブカードというテンプレートを用いると、目的に適したデザイン、字体などで修飾したメッセージを簡単に実現できます。投稿先チャネルにWebhookURL(送信先となるエンドポイント)を作成しておけば、HTTP POSTで投稿できます。
チャネル投稿後は、メンション機能で伝えたい方、チームメンバーへの通知も楽々
おまけ
音声認識+生成AIにこんな投稿をさせてみました。
ー関西人のトラブルの一日は生成AIでどうなるかー
ー原文-
今日はな、朝からお客さんとこに直行して、「トリリンガルスパーク」っちゅう新製品のプロモーションする予定
やってんけど、人身事故で電車がめっちゃ遅れてるって分かってな、「あかん、これ間に合わへんわ」
ってなって、急きょリモートで打ち合わせできへんか提案してん。
そしたらな、急なお願いやったのに、営業さんと技術の人、合わせて3人も参加してくれて、
ほんまにありがたいことに、いろいろ貴重な意見もろたわ。
ほんで午後は、電車の遅れも解消してたから、有明でやってたCRMの展示会に行ってきてん。
パートナーの人から最新の情報も聞けて、なかなかええ収穫やったで。
明日は、いつも通りオフィスに出社する予定やわ。
投稿結果
-関西人らしさがなくなってしまったと同時に、トラブル乗り切った感も薄れてしまったような・・・

本記事は以上になります。ここまで読んでくださりありがとうございました。
他のTechブログも面白いのでよかったらアーカイブ覗いてみてください。
この記事を書いた人
-
スパイス犬
柴犬とインドカレーをこよなく愛する“ブラウンカラー”エンジニア。日々の暮らしにスパイスを加えたいという思いから、心機一転、音声認識の世界に飛び込みました。
最近、愛犬がスバル車のエンジン音を聞き分けることに気づき、犬の聴覚を音声認識技術に活かせないかと密かに妄想中です。