RaspberryPiとArduinoを連携する【USBシリアル編】

RaspberryPiとArduinoを連携する

RaspberryPiを使っているとセンサ系での物足りなさを感じてくることが良くあります。 特にアナログ値を使うようなセンサでは回路の知識がないと悲しくなります。 そこでそういった部分をカバーすることを考えるとArduinoとの連携を行いたくなってきます。 ArduinoであればGroveインターフェースで回路側の負担が少なくできることもメリットです。 あとオリジナルのUnoではなく激安品まで考えると1枚当たりのコストはセンサより安価にもできます。 (300円程度の商品もあるようです。絶対という保証はないですが。)

Arduino以外にmbedも使うことができると思うのですが、まずはArduinoってことで。

Arduinoとの接続は

  • I2C接続
  • シリアル通信
  • Firmata

とありますが、今回はシリアル通信を行うことにします。 個人的にはシリアルが一番汎用的に使用できるロジックだと思いますが、I2Cもいい選択肢かなと思います。 コードのベースができてしまえば使いまわしができます。Firmataはどうなんでしょうか?(RaspberryPiでFirmata接続するArduinoの エントリがあんまりないなと思いますが一般的じゃない?node.jsでJohnny-Fiveのほうが一般的?)

USBポートにArduinoを接続してみる

【接続前】

$ lsusb
Bus 001 Device 004: ID 0411:01ee BUFFALO INC. (formerly MelCo., Inc.) WLI-UC-GNM2 Wireless LAN Adapter [Ralink RT3070]
Bus 001 Device 003: ID 0424:ec00 Standard Microsystems Corp. SMSC9512/9514 Fast Ethernet Adapter
Bus 001 Device 002: ID 0424:9514 Standard Microsystems Corp.
Bus 001 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub

【接続後】

$ lsusb
Bus 001 Device 005: ID 2341:0001 Arduino SA Uno (CDC ACM)
Bus 001 Device 004: ID 0411:01ee BUFFALO INC. (formerly MelCo., Inc.) WLI-UC-GNM2 Wireless LAN Adapter [Ralink RT3070]
Bus 001 Device 003: ID 0424:ec00 Standard Microsystems Corp. SMSC9512/9514 Fast Ethernet Adapter
Bus 001 Device 002: ID 0424:9514 Standard Microsystems Corp.
Bus 001 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub

Bus 001 Device 005: ID 2341:0001 Arduino SA Uno (CDC ACM)が追加されています。Arduinoって書いてあるので発見は楽です。認識はされているので今度はシリアルデバイスとしてどのように認識されているか確認してみます。

【接続前】

$ ls /dev/ttyA*
/dev/ttyAMA0

【接続後】

$ ls /dev/ttyA*
/dev/ttyACM0  /dev/ttyAMA0

接続後にはシリアルデバイスとして/dev/ttyACM0が追加されています。これを使うことになります。

Arduinoのシリアル接続制御のひな形

Arduinoとの接続がうまく行ったのでArduinoでシリアル送受信をする処理を書いてみました。stringのライブラリがうまく使えなかったので微妙なところはあるのですが…

f:id:ueponx:20170101132859j:plain

#include <String.h>
#define maxLength 64
String inString = String(maxLength);

void setup() {
  Serial.begin(9600);
  pinMode(13, OUTPUT);
  digitalWrite(13, HIGH);
  inString = "";
}

void loop() {
  if (Serial.available() > 0) {
    char inChar = Serial.read();
    if (inString.length() < maxLength) {
      inString.concat(String(inChar));
      if (inChar == '\n') {
        if (inString.startsWith("ON")) {
          Serial.println("<--HI-->");
          digitalWrite(13, HIGH);
        } else if (inString.startsWith("OFF")) {
          Serial.println("<--LOW-->");
          digitalWrite(13, LOW);
        }
        inString = "";
      }
      Serial.println(inString);
    }
    else {
      Serial.println("Maximum number of characters.");
    }
  }
}

このコードではON【CR】【LF】(またはON【LF】='\n')を受信すると13pin(オンボード上)のLEDをONとし、 OFF【CR】【LF】(またはOFF【LF】)を受信するとLEDをOFFするという動きになります。 (厳密にいうとONから始まり【LF】で終わるような場合にONし、OFFから始まり【LF】で終わるような場合はOFFにします。)

この受信文字("ON"など)の処理部分を拡張することで多様な処理ができるかなと思います。 ただ、センサの値によりトリガとして動作させる時には別途処理は考えないといけないかと。

pythonからシリアル制御を行う

pySerialを使用します。

http://pythonhosted.org//pyserial/

このブログでも過去に使用していますので以下を参考にします。

uepon.hatenadiary.com

インタラクティブシェルで以下のようにするとLEDのON/OFFができました。

$ python
Python 2.7.9 (default, Sep 17 2016, 20:26:04)
[GCC 4.9.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import serial
>>> import time
>>> s = serial.Serial('/dev/ttyACM0',9600)
>>> time.sleep(2)
>>> s.write("ON\n")
3
>>> s.write("OFF\n")
4
>>> s.write("ON\n")
3
>>>

これでシリアル通信を介したRaspberryPiとArduinoの通信処理はうまく行ったようです。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import serial
import time

s = serial.Serial('/dev/ttyACM0', 9600)
time.sleep(2)
s.write("OFF\n")
time.sleep(10)
s.write("ON\n")
s.close()

まとめ

とりあえず、RaspberryPiとArduinoをUSB接続してシリアルで制御できました。 これでそれなりにセンサデバイスとしてArduinoが使えそうです。 なんとなくですが、能動的にセンサーのデータを取得するのはArduinoで行い、RaspberryPiは受信に徹する方がいいのかなと思います。その場合は、RaspberryPi側での受信にはtimeoutを設定することでブロッキング時間を短縮したほうがいいかなと思います。例えば以下のような感じ。

s = serial.Serial('/dev/ttyACM0', baudrate=9600, timeout=3)

折角なので他の方法も試してみたいと思います。

RaspberryPiのSDカードアダプタを使用する

RaspberryPiのSDカードアダプタを使用する

実はこれまでRaspberryPiはRaspberry Pi 1 Model B使用していたのですが、やっぱりSDカードの出っ張りが気になってきました。 ということで、出っ張らないSDカードアダプタを購入し、SDカードをMicroSDカードにに変更することにしました。 これまで使っていたSDカードはこれになります。

16GbyteのSDカードだったので以下のカードへの移行を行います。

出っ張らないSDカードのアダプタは

を使用することにしました。

早速SDカードのバックアップをとります。いつも通りWin32DiskImagerを使用します。

ja.osdn.net

バックアップはこのあたりのエントリで。(昔は使い方の勘違いがあったので)

uepon.hatenadiary.com

バックアップが作成できたらMicroSDカードに書き込むわけですが、

f:id:ueponx:20161228130224j:plain

あれ?サイズが違うエラー?

カードの刻印には16Gbyteと書いてあるのですが、どうも微妙にサイズを違う?

再インストールに向けての準備(Sambaのインストール)

これでは折角のアダプタが無駄になるのでファイルのバックアップ(イメージのバックアップではなく)を行って再インストールを行おうと思います。 FTPでバックアップをするのは面倒なので、RaspberryPiにsambaをインストールします。

Sambaのインストールと設定と接続

こちらのブログを参考にしました。以下でインストールします。かなり時間がかかるのでびっくりしますが待機です。

$ sudo apt-get update
$ sudo apt-get install samba

ファイルのバックアップをとるだけなのでブログの設定と同様に

共有設定は以下で追加します。

  • 共有名 : pi
  • 共有するフォルダ : /home/pi (ユーザー名「pi」でログインした際のホームフォルダ
  • 読み込みだけでなく、書き込みも可能
  • クライアントからの接続は、ゲスト接続
  • サーバー側では、ファイル操作を、ユーザー「pi」 によって実行

設定ファイルをvimで開き

$ sudo vim /etc/samba/smb.conf
[pi]
path = /home/pi
read only = No
guest ok = Yes
force user = pi

以上を追加します。

設定の追加後に以下のようにサービスを再起動します。

$ sudo service smbd restart

これでWindows側からアクセスが可能になります。

まとめ

単純に16GByteと書いてあるメモリカードのサイズが一致しないこともあったので結構焦ってしまいました。 折角なのでRASPBIAN JESSIE WITH PIXELも2016-11-25に出たので、これまでの環境をクリーンインストールして移行したいと思います。

www.raspberrypi.org

RaspberryPiのマイクで会話してみる【ヒミツのクマちゃん 完結編】

RaspberryPiのマイクで会話してみる【ヒミツのクマちゃん 完結編】

これまでのエントリの内容に最後に「今日会った出来事を教えてね」感じで会話するようにします。

uepon.hatenadiary.com

uepon.hatenadiary.com

uepon.hatenadiary.com

uepon.hatenadiary.com

uepon.hatenadiary.com

動作の概要は以下のような感じになります。

f:id:ueponx:20161226015507j:plain

これまでのソースファイルに音声認識APIへのアクセスをいれ、そのあとにNobyAPIに送信することで 会話を行うことになります。少しアレンジした点は音声認識の開始と終了に効果音をいれたところになります。

                # pygame
                pygame.mixer.music.load("./Q.mp3")
                pygame.mixer.music.play()
                time.sleep(1)
                pygame.mixer.music.stop()

このように音声認識開始と終了の部分に短い効果音をいれると話す人の戸惑いが少ないと思います。(ペッパーなどでも入れてますね。) 他のロボットと違い、目などの色で話している人にロボットがどのような状態かを知らせる手段がないので こういう工夫が必要だと思います。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import requests
import json
import types
import time
import picamera
import os
import sys
import pyaudio
import pygame.mixer
import wave

# MSEmotionAPIのwait
SHORTSLEEP = 10
LONGSLEEP = 60

# 音声録音のパラメータ
chunk = 1024*2
FORMAT = pyaudio.paInt16
CHANNELS = 1
#サンプリングレート、マイク性能に依存
RATE = 16000
#録音時間
RECORD_SECONDS = 5

# pygame
pygame.mixer.init()

try:
  while True:
        # MS Emotion APIで顔の認識を行う
        with picamera.PiCamera() as camera:
                camera.start_preview()
                camera.hflip = True
                camera.vflip = True
                time.sleep(2) #カメラ初期化
                camera.capture('foo.jpg')

        url = 'https://api.projectoxford.ai/emotion/v1.0/recognize'
        MS_APIKEY = '【Microsoft Emotion APIのキー】'
        headers = {'Content-type': 'application/octet-stream', 'Ocp-Apim-Subscription-Key': MS_APIKEY}
        payload = open('./foo.jpg', 'rb').read()

        r = requests.post(url, data=payload, headers=headers)
        data = r.json()

        ninshiki = len(data)

        # 顔認識が出来たらNoby APIにアクセスしておみくじを引く

        if ninshiki > 0:
                dict = data[0]['scores']
                max_key = max(dict, key=(lambda x: dict[x]))

                print "key: %s,\t value:%f" %(max_key, dict[max_key])

                ENDPOINT = 'https://www.cotogoto.ai/webapi/noby.json'
                NOBY_APIKEY = '【NobyのAPIキー】'

                payload = {'text': 'おみくじ引きたいな。', 'app_key': NOBY_APIKEY}
                r = requests.get(ENDPOINT, params=payload)
                data = r.json()

                response = data['text']
                # print "response: %s" %(response)

                uranai = response.split("\r\n")[1]
                print uranai

                # おみくじのフレーズを話す
                voice1 = 'こんにちは、今日は来てくれてありがとう。今日の運勢を占うね。'
                # shを呼び出す。
                cmdtext = './jtalk2.sh ' + uranai
                # print cmdtext

                os.system('./jtalk2.sh ' + voice1) #成功すると0 # import os
                os.system(cmdtext.encode('utf-8')) #成功すると0 # import os

                os.system('./jtalk2.sh ' + '最近あったできごとを教えて?')
                print 'マイクに5秒間話しかけてください >>>'

                # pygame
                pygame.mixer.music.load("./Q.mp3")
                pygame.mixer.music.play()
                time.sleep(1)
                pygame.mixer.music.stop()

                # pyaudio
                p = pyaudio.PyAudio()
                #マイク0番からの入力を5秒間録音し、ファイル名:voice.wavで保存する。
                #マイク0番を設定
                input_device_index = 0
                #マイクからデータ取得
                stream = p.open(format = FORMAT,
                                channels = CHANNELS,
                                rate = RATE,
                                input = True,
                                frames_per_buffer = chunk)
                all = []
                for i in range(0, RATE / chunk * RECORD_SECONDS):
                        data = stream.read(chunk)
                        all.append(data)

                stream.close()
                data = ''.join(all)
                out = wave.open('voice.wav','w')
                out.setnchannels(1) #mono
                out.setsampwidth(2) #16bits
                out.setframerate(RATE)
                out.writeframes(data)
                out.close()

                p.terminate()
                print '<<< 録音完了'

                pygame.mixer.music.load("./OK.mp3")
                pygame.mixer.music.play()
                time.sleep(1)
                pygame.mixer.music.stop()

                path = 'voice.wav'
                DOCOMO_APIKEY = '【docomo音声認識APIのキー】'
                url = "https://api.apigw.smt.docomo.ne.jp/amiVoice/v1/recognize?APIKEY={}".format(DOCOMO_APIKEY)
                files = {"a": open(path, 'rb'), "v":"on"}
                r = requests.post(url, files=files)
                print r.json()['text']

                payload = {'text': r.json()['text'], 'app_key': NOBY_APIKEY}
                r = requests.get(ENDPOINT, params=payload)
                print r.json()['text']

                cmdtext = './jtalk2.sh ' + r.json()['text']
                os.system(cmdtext.encode('utf-8')) #成功すると0 # import os

                os.system('./jtalk2.sh ' + '教えてくれてありがとう。また会いにきてね!')

                print 'LONG_SLEEP_MODE'
                time.sleep(LONGSLEEP)
        else:
                print 'SHORT_SLEEP_MODE'
                time.sleep(SHORTSLEEP)

except KeyboardInterrupt:
  sys.exit()

もう少し関数とかクラスとかを使用するときれいにまとまりますが、それは今後の自分のpythonスキルの向上のために今後修正していこうと思います。 また、音声認識に関しては非常にネットワークAPIとの相性が良くない(特にリアルタイムのレスポンスを求めるものは難しい)のでスレッドなどを使用したりなどのイライラさせない工夫がカギになってくると思います。

まとめ

やっと音声関係というか「ヒミツのクマちゃん」を使ったもので完結編になりました。 軽い気持ちで購入したヒミツのクマちゃんですが、ちゃんとした会話のできるロボットになってくれました。 ぬいぐるみの出来がよいので、最終的にはRaspberryPiをどういう風に隠すか、マイクをどのようにするかなど考えればきりがないのですが。 それも含めて工作や工夫の醍醐味のあるテーマだったかなと思います。

Raspberry Pixelを古いPCにインストールしてみる

RASPBIAN JESSIE WITH PIXELが発表されましたが、更にこれにPCとMACに対応したバージョンが登場しました。 Raspberry Pixelは軽量デスクトップOSとして使用できそうです。昔から古いPCにUbuntuにをインストールしようと思っていたので これを機にPixelをインストールしようと思います。

掲載ページ

www.raspberrypi.org

The MagPi magazineという雑誌のおまけについたDVDの公開されたもののようですが、そのイメージをダウンロードできるようになっています。

ダウンロードリンク

http://downloads.raspberrypi.org/pixel_x86/images/pixel_x86-2016-12-13/2016-12-13-pixel-x86-jessie.iso

今回はUSBメモリに関してはSANDISKのコンパクトタイプのものAmazonでは1,000円ほどですが、秋葉原あたりではもう少し安く購入できました。 出っ張りも少ないし、アクセススピードも結構早いかなと思います。

そしてターゲットとなる古いPCは以下になります。もう購入してから5~6年ほど立ったものかなと思いますが、【Acer Aspire One 753】となります。 スペックとしては以下のようになります。以前からメモリは増設してあったものなので4Gほど搭載されています。Windows7のプリインストールモデルだったのですが、 Windows10ではSSDに換装してもCPUが100%になることもしばしばという状態だったので、ほどんど使っていませんでした。

www.notebookcheck.net

かなり旧式のCeleronですし、しかたないです。

公式サイドからISOファイルをダウンロードしたらサイト推奨の【Etcher】というツールを使ってイメージ書き込みをUSBにするわけですが、 【Win32DiskImager】でも試してみましたが問題なくできました。

etcher.io

sourceforge.net

あとは、USBを挿して起動すれば問題なくOSが起動できます。

https://www.raspberrypi.org/wp-content/uploads/2016/12/VirtualBox_PIXEL-CD_18_12_2016_10_25_32.png

https://www.raspberrypi.org/wp-content/uploads/2016/12/splash-768x576.jpeg

f:id:ueponx:20161225214324p:plain

f:id:ueponx:20161225214328p:plain

ChromiumVLCもインストールされているのでそれなりに使用できるようです。使用したPCでも負荷もほとんどないようなので常用できそうです。ただし、キーマップとか日本語化はしないといけないようですし、コマンド関係もかなり絞られているようなので別途インストールは必要の様です。

使用してみた感想としてはわりといい感じです。むしろPCで使用するよりもVMとして使用したほうがいいのかも?

【関連】

uepon.hatenadiary.com

RaspberryPiのマイクで録音した音声をテキスト化する【ヒミツのクマちゃん その3】

RaspberryPiのマイクで録音した音声をテキスト化する

ヒミツのくまちゃんと話すための企画その2になります。

前回のエントリーではマイクで録音するところまで来ました。

uepon.hatenadiary.com

後は録音した音声をテキスト化することができれば、拡張性(雑談APIやNobyに渡すことができるので会話っぽい表現を実装可)が増えそうです。

音声のテキスト化(音声認識)のAPI

あたりがいいかなと思いました。(docomoさんのは内部的にはAmiVoiceっぽい) ということでdocomoさんのAPIを使用します。(後日、GoogleさんのAPIも触る予定ですが)

基本的な情報は以下のURLにあります。

dev.smt.docomo.ne.jp

基本動作は音声データを送信すると音声認識したデータをテキスト化してJSON化して返信するものです。つまり、データの送り方(REST)とデータの形式(ファイルのバイナリフォーマット)が分かれば概ね処理ができます。

f:id:ueponx:20161217091728j:plain

今回は特別なSDKなどを使用せず、RESTで通信を行いたかったのでdocomoさんのAPIの中の音声認識API【Powered by アドバンスト・メディア】を使用します。

以下は上記サイトの引用です。

音声認識API【Powered by アドバンスト・メディア】とは
音声データをREST形式で送信するだけで音声認識をすることができます。

主な特徴
* HTTPで音声データをPOSTするだけなので、AndroidiOSに限らず様々なプラットフォームでのご利用が可能です。
* クライアントアプリケーションに特殊なライブラリを組み込む必要がないため自由度の高い実装が可能です。
* クライアントアプリケーションにライブラリを組み込んでリアルタイム認識を行うタイプの音声認識と比較して、応答速度が遅い為、レスポンスが求められる用途には向いていません。

ドキュメントを眺めてみる

以下のURLがドキュメントページになります。

https://dev.smt.docomo.ne.jp/?p=docs.api.page&api_name=speech_recognition&p_name=api_amivoice_1#tag01

サービスのエンドポイント

アクセスを行うエンドポイントは以下となります。

https://api.apigw.smt.docomo.ne.jp/amiVoice/v1/recognize

amiVoiceって書いてあるw

リクエストクエリパラメータ

キー 必須 説明
APIKEY APIにアクセスするアプリの認証に利用する

リクエストヘッダのMIME-TYPE

HTTPで送信するデータ形式MIMEタイプはこのようになっている?

キー 必須 説明
Content-Type MIMEタイプmultipart/form-data; boundary=<バウンダリ文字列>

あれRESTアクセスだし、MIMEタイプは単純なOctet-Streamなんじゃねーの?んが。

やられました

とはいってもマルチパートでってことはファイル+制御用のJSONを送ればいいのかなと予想がつきます。

リクエストパラメータ(マルチパート化されたデータの中身)

キー 必須 説明
a 音声のバイナリデータ。10秒を超える音声データは途中で打ち切られます。音声データのフォーマット:PCM(MSB)16khz/16bit
v - 発話区間検出処理。"on"を指定すると、音声データの無音部分を無視して音声認識処理を行います。

このあたりをマルチパート化して送信するようです。

音声ファイルのフォーマットはサンプリングレート16kHz、16bitの10秒以内の音声でいいようなので、PyAudioへは

FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 16000

のようにパラメータを指定すれば問題なさそうです。

また、vのキーに関しては制度を気にしなければ問題はなさそうなのですが、無音部分は無視してもらわないとかなり精度がわるそうな気がするので、指定をすることにします。

ドキュメントを見てもわかりますが以下のように通信データが送信されます。

POST https://api.apigw.smt.docomo.ne.jp/amiVoice/v1/recognize?APIKEY=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Content-Type: multipart/form-data; boundary=<バウンダリ文字列>
--<バウンダリ文字列>
Content-Disposition: form-data; name="v"

on
--<バウンダリ文字列>
Content-Disposition: form-data; name="a"; filename="sample.adc"
Content-Type: application/octet-stream

音声データ(binary)
--<バウンダリ文字列>--

データの格納さえうまく調整できれば、Arduinoとかmbedからでも通信できそうな印象です。

ここまでわかれば、あとはpythonのrequestsモジュールでマルチパート化してPOSTする処理が わかれば、使用できそうです。

pythonのrequestsモジュールでマルチパート化処理を行う

こちらを参考にしました。

クイックスタート — requests-docs-ja 1.0.4 documentation

stackoverflow.com

ふむふむ、複数のデータはマルチパート化してPOSTするときには、以下のどちらかの形式でタプル化してpostの引数に与えれば良いようです。

  • (キー, データ)
  • (キー, データ, Content-Type)
  • (キー, データ, Content-Type, ヘッダー)

例えば、StackOverflowのサンプルをみてみれば、

  • キー=>foo、データ=>bar
  • キー=>spam、データ=>eggs

というデータセットをマルチパート化する場合には以下のような処理になります。

requests.post('http://…', files=(('foo', 'bar'), ('spam', 'eggs')))
# または
files = {'foo':'bar', 'spam':'eggs'}
requests.post('http://…', files=files)

今回のAPIではavというキーにデータを入れることになるので

files = {"a": 【音声ファイルのデータ】, "v":"on"}
r = requests.post(url, files=files)

こんな感じになるでしょう。あとはファイルの読み込みですがopen()で読みすればよさそうです。以下は処理の抜粋になります。

path = 'voice.wav'

files = {"a": open(path, 'rb'), "v":"on"}
r = requests.post(url, files=files)

これで一応大体の構想ができました。

API利用登録

では、登録を行っていきます。 下記のdocomoDeveloperSupportのページからログインを行ってください。SNS系のログインでも問題ありません。

dev.smt.docomo.ne.jp

次に音声認識のページの中ほどにある【申請する】のボタンをクリックします。

f:id:ueponx:20161219232846j:plain

すると、【API使用申請】のページに遷移します。

f:id:ueponx:20161219232944j:plain

ここで使用するアプリケーションの情報を登録することになります。 登録時点で決まっていなくても後で修正ができるので問題ありません。

入力が終わったら【API機能選択へ】のボタンをクリックします。

f:id:ueponx:20161219233148j:plain

API機能選択】の一覧画面に遷移するので、その中から

を選択します。他のAPIを含めても問題ありませんが、今回は1つだけにします。選択が終了したら下の方にある【利用するAPI利用規約に同意して次へ】をクリックします。

f:id:ueponx:20161219233928j:plain

【確認画面】に遷移するので、内容確認後【利用申請する】ボタンをクリックします。

f:id:ueponx:20161219234115j:plain

これで申請が完了しました。

f:id:ueponx:20161219234202j:plain

詳細は【マイページ】にある【API利用申請・管理】画面の【登録アプリケーション一覧】に情報が表示されます。API使用のキーに関してもここで確認ができます。

f:id:ueponx:20161219234228j:plain

これで音声認識APIが使用できるようになりました。

音声認識APIにデータを送信する

音声認識APIにデータを送信して、認識結果のテキスト情報を確認してみます。まずは録音した音声データがあればそれを使用します。 音声のデータフォーマットが10秒以内、サンプリングレート16kHz、サンプル16bitになっていない場合にはエラーとなるので注意が必要です。 今回はvoice.wavというファイルを送信することにします。

前述の通りpythonでデータを送信するコードを作成すると以下のようになります。認識された結果はJSON形式で返されるのですが、その中でtextのデータが認識された文書全体となります。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import requests
path = 'voice.wav'
APIKEY = '【発行されたAPIのキー】'
url = "https://api.apigw.smt.docomo.ne.jp/amiVoice/v1/recognize?APIKEY={}".format(APIKEY)
files = {"a": open(path, 'rb'), "v":"on"}
r = requests.post(url, files=files)
print r.json()['text']

このプログラムを実行すると以下のようになります。

$ python sample.py
、おまえ滑舌悪いんじゃないの。

無事に認識できたようです。(実験中に嫁に言われました…涙)

録音機能と連携させる

先程は事前に収録したものでテストしましたが、今度はPyAudioと連携し、録音後API側に対して要求を出すものにします。とは言っても、データは一度ファイルとして蓄積するので先程の処理とは大きく変わらないと思います。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

#マイクからの入力を5秒間録音し、ファイル名:voice.wavで保存する。

import requests
import pyaudio
import sys
import time
import wave

chunk = 1024*2
FORMAT = pyaudio.paInt16
CHANNELS = 1
#サンプリングレート、マイク性能に依存
RATE = 16000
#録音時間
RECORD_SECONDS = 5 #input('収録時間をしていしてください(秒数) >>>')

print 'マイクに5秒間話しかけてください >>>'

#pyaudio
p = pyaudio.PyAudio()

#マイク0番を設定
input_device_index = 0
#マイクからデータ取得
stream = p.open(format = FORMAT,
all = []
for i in range(0, RATE / chunk * RECORD_SECONDS):
        data = stream.read(chunk)
        all.append(data)

stream.close()
data = ''.join(all)
out = wave.open('voice.wav','w')
out.setnchannels(1) #mono
out.setsampwidth(2) #16bit
out.setframerate(RATE)
out.writeframes(data)
out.close()

p.terminate()

print '<<< 録音完了'

path = 'voice.wav'
APIKEY = '【発行されたAPIのキー】'
url = "https://api.apigw.smt.docomo.ne.jp/amiVoice/v1/recognize?APIKEY={}".format(APIKEY)
files = {"a": open(path, 'rb'), "v":"on"}
r = requests.post(url, files=files)
print r.json()['text']

実行結果

$ python pyaudio_amivoice.py
マイクに5秒間話しかけてください >>>
ALSA lib pcm_dmix.c:1022:(snd_pcm_dmix_open) unable to open slave
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.rear
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.center_lfe
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.side
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.hdmi
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.hdmi
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.modem
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.modem
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.phoneline
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.phoneline
ALSA lib pcm_dmix.c:1022:(snd_pcm_dmix_open) unable to open slave
Cannot connect to server socket err = No such file or directory
Cannot connect to server request channel
jack server is not running or cannot be started
<<< 録音完了
おはようございます。。

いろいろWarningは出ていますが、うまく動きました。

まとめ

一応録音した音声をテキスト化することができました。更にこれを雑談APIやNobyAPIなどに送信すれば会話を行うことができるようになります。 もう少しでクマちゃんとの会話ができるようになるのではないかと思います。

次回は会話っぽいやり取りまで進めたいと思います。

/* -----codeの行番号----- */