「生の声の温もりをもっと身近に」。Voiceテックで世界をつなぐ株式会社Voicy CTO 窪田雄司

AIスピーカーにはできない「生の声の温かみ」に可能性を見出した、日本発の音声ニュースアプリ

まずはじめに、御社のメインプロダクトである音声ニュースアプリ「Voicy」について教えてください。

「Voicy」は、人の声の良さ・温かみにフォーカスした音声ニュースアプリです。ニュースを声で配信するという面ではラジオに近いサービスですが、「Voicy」はスマホ一台あれば、誰でも配信者になれるのが特長です。その手軽さを生かして、女子高生からお笑い芸人まで100名を超える老若男女のパーソナリティが、それぞれ個性的なチャンネルを開設しています。

▲100を超えるチャンネルを擁する「Voicy」アプリ。録音用アプリは別にある。

ニュース元として毎日新聞、スポニチ、THE BRIDGEなど多くのメディアと提携しているので、それらの記事を土台としつつ、パーソナリティが自分の意見を言ったり、ツッコんだり、ひとネタ入れたり……どんどん話を膨らませていけるので個性が出るんですね。

女子高生にお笑い芸人……本当にバラエティ豊かですね！窪田さんお勧めのチャンネルはありますか？

僕はエンジニアなので、やっぱり「IT」のカテゴリはよく聴きますね。中でも、居酒屋での世間話をそのまま配信しているパーソナリティさんがいて……（笑）。毎回、ベンチャーの社長さんを呼んでは飲みながらグダグダ喋っているんですけど、そこから宝探しみたいに良い話を見つけるのが面白いんですよね。ときどき「ハイボールでーす」って店員さんの声が入る臨場感もあったりして。

居酒屋から配信！それはなかなか聞けない本音が聞けそうです。

そういうところはやっぱり面白いですよね。喫茶店とかファミレスで、横で話している女子高生の話が面白いみたいな。音声で情報を得るという意味では、最近AIニュース（AIによる音声合成技術を使ってニュースを読み上げるサービス）なども注目されていますが、Voicyのような「人の声の温かみ」にフォーカスしたサービスは実は国内にも海外にもなくて。日本発の新しい音声情報サービスとして面白いものをどんどんやっていきたいと思ってやっています。

「“楽しいドリブン”でジョインを決めた」。窪田さんとVoicyの出会い

窪田さんのご経歴を教えてください。

受託開発を行う会社に新卒から入って、そこで5年ほどエンジニアをやっていました。そのあと1年ほど、オーストラリアにワーキングホリデーに行って遊んでいまして（笑）。そのときに、日本で仕事することってすごく面白いことなんだと思いはじめて、猛烈に仕事がしたくなり、ちょっと早めに帰国したんですね。そこからは開発一本で、フリーランスのエンジニアをしばらく続けた後、コンサルティング会社の技術部門に籍を置いていました。

オーストラリアにいながら「猛烈に日本で仕事がしたくなった」とは、興味深いですね。

オーストラリアでは、エレベーターが目的階に着いてドアが開かなくても、誰も気にしないんです。日本ではあり得ないなぁということがわりと日常で。そこで、ユーザーが高い品質を求めて、企業側もキッチリ作るという日本の文化は素晴らしいことだなと感じたんです。日本できちんと作れることは、実はスキルの高いことなんだなと。

Voicyにジョインするきっかけは何だったんでしょうか。

前職のときに参加していた勉強会で代表の緒方に出会って、その後何度か飲みに誘われて話していく中でVoicyのアイディアが出てきたんです。一緒に、こうやったら面白いんじゃないかと話しながら、僕の方でサンプルを作ったりしているうちに、じゃあもう会社やろうよという話になったんです。

だから、何かきっかけがあったというよりは、やっていくうちにだんだん足を突っ込んで……という感じですね。

なるほど。ワーキングホリデーのお話といい、窪田さんは楽しいことに足を突っ込みがちなんですね（笑）。そんな窪田さんですが、Voicyではどんなことを担当されているのですか。

そうですね（笑）。結構“楽しいドリブン”で動いてるところがあるかもしれません。

現在は、技術に関することはすべてやっていて、スマホアプリ、インフラの構築（AWS）、webアプリ、webサーバーの保守…。webアプリのサーバーサイドの開発だけは他のエンジニアにも手伝ってもらいましたが、他はすべて自分でやっています。

まったく触ったことのないサービスや技術もあって最初の頃は特に大変でしたが、アルゴリズムやオブジェクト指向のような基本的なことが大事だと思っているので、技術的な新しいチャレンジは心配していませんでした。チャレンジすること自体はむしろ好きなので、ちょうど良い機会だからどんどんやっていこうと。ワクワクの方が大きかったと思います。

▲緒方さんが前職の時にトーマツベンチャーサポート(株)から授与された賞。窪田さんと緒方さんが出会うきっかけとなったのはトーマツベンチャーサポートの勉強会だったそうです。

SIerからベンチャーに挑戦してみて実感した、スピード重視だからこそ優先すべき「縦のクオリティ」。

SIerやコンサルティング業界とスタートアップ業界では文化の違いも大きいように思いますが、実際にそういった面での戸惑いはありましたか。

うーん、それは特になかったですね。私自身はずっとSIをやっていてベンチャーはVoicyが初めてなんですが、SIをやっていた経験は今すごく生きていると思ってます。というのも、しっかり作るクセが付いているんですよね。ベンチャーってスピード感が重視されがちですけど、品質はしっかりしないと、結局は後で問題が出て対応に追われたりしてしまいます。

昨年の9月にスマホアプリをリリースした後、一度大きいデザイン変更があり、webアプリも今年7月に出し、その間にも細かい仕様変更をいくつか行いましたが、自分一人でそこまでできたのは最初の段階でしっかり作れていて、バグや不具合に手間取られなかったのも大きいと思います。

クオリティを上げれば、結果的に工数も減るということですよね。

QCDってありますよね。クオリティ（品質）、コスト（費用）、デリバリー（引き渡し）の略ですけど、そのクオリティの考え方って2つあると思うんです。僕は「縦のクオリティ」「横のクオリティ」とか言うんですけど。

いわゆるバグが多いとか不具合が多いとか、品質が本当に下がるような縦のクオリティは下げちゃいけないと思うんですね。一方で横のクオリティ、スコープと言われるような機能の幅については、機能が少なければその分クオリティとしては低いとも言えるんですが、そこを狭めるのは良いと思うんです。縦のクオリティはきちんと担保して、下げるなら横を狭めて何とか期日に間に合わせると。

優先すべきは縦のクオリティ、すごく納得しました。

同じ期間でも意識して作れば品質は上がるのに、意識するクセを付けないと、そこが上げられなくなっちゃうんです。“品質を上げる＝時間がかかる”ではなく、例えばひとつNULLチェック^※1を入れるだけでも品質は上がるのに、それすらやらないというのは良くない。わずか5秒のそのクセを付けるには、最初は少し時間がかかると思いますけど、意識しないと身に付かないものだと思うんです。

Twitterにクレームが上がれば、すぐリツイートして会いに行く！「自分の作ったサービスが好きだからこそ、ユーザーの声はどんなものでも貴重です」

CTOとして技術面のほとんどを担当される中で、Voicyだから苦労したという点はありますか。

先ほどもお話したとおり、類似サービスが国内にも海外にもまったくなかったので、参考にするものがなかったというのはありますね。UIなんかもデザイナーと「ここはこうしたら良いんじゃないか」って言いながら作るんですけど、自分たちが思っているのと同じようにユーザーも思ってくれるのかっていうのは常に不安を感じながら、リリースまで持っていったというのが正直なところです。

世の中にまったくない、新しいサービスだからこその醍醐味ですね。

昨年9月のリリースから一年経ちましたが、その分、ユーザーとの交流の中で出た声をすごく大事にしていて、できるだけUIにも反映させるようにしてきました。

あるリスナーさんがtwitterで「VoicyのUIがイマイチ」と呟かれていたんですけれど、代表の緒方がそれを見つけてすぐリツイートして、「詳しく聞かせてください！」って会いに行ってヒアリングしたり。その後、僕も一緒に飲みに行ったり、交流が続いてたりするんですよね。

緒方さんもまた、フットワークが軽い！

緒方は最初からずっと「ドライじゃなく、ウエットなサービスにしたい」と一貫して言っていたんです。パーソナリティから「どうしたら聞いてもらえますかね」って悩み相談が来ればコンサルしたり、パーソナリティ同士の交流イベントももう2回開催しています。

▲1月に行ったパーソナリティ感謝祭の時のチェキ。感謝祭はこれまでに1,6月の2回行っており、左下に少し見えるのは6月の時のもの。。パーソナリティのVoicy愛が伺えます。

パーソナリティの人たちも、ただの便利な配信ツールとしてじゃなく「もっとVoicyを盛り上げていきたい」と、作り手の一員の感覚で使ってくれているのがすごく分かる。そこがうちのサービスの魅力だし、エンジニアとしてもやりがいを感じる部分です。事務所にも気軽に遊びに来てくれたり……他のベンチャーでもここまでユーザーと近くやっているところはないんじゃないかと思いますね。

ユーザーさんとの“ウエット”な交流が、UIの改善に反映されていると。

今のUIも完成形だとは全然思っていないので、ユーザーからの意見やクレームはいっぱい欲しいと思っています。緒方がそういったコミュニケーションを取るのがすごく得意なので、逆に僕は技術的なものを巻き取ろうと。

緒方からとにかくぼんぼんアイディアが出てくるんですが、ユーザーにとって良いと思えたらなるべく止めずに入れて、その期間でできないものは次に回そうという感じでやってきていますね。

名・女房役ですね！

変な話、それこそSIerだったら仕様変更や追加があれば予算を積んでいただけますけど、自社のサービスなので仕様が変わったときのメリットがパッと見えにくい。しかもベンチャーは大概にして仕様がコロコロ変わるので、作ったものがムダになることもザラなんですね。

でも自社サービスは、決められたものを作ることが目的じゃなくて、良いものを作ることが目的なんですよね。「それ今から直すの大変だよなぁ」って、精神的にくる気持ちも分かるんですけど（笑）、それで結果的に良いものになるんだったら、それはやるべきなんですよ。

今後サービスの拡大にともない、エンジニアの方も増やされると思いますが、どんなチームにしたいという展望はありますか。

一番は、自分の作るプロダクトが好きな人にジョインしてほしい。それに尽きます。プロダクトが好きだったら、それを良くしてユーザーが喜ぶ姿もイメージできるはずですし、そこがイメージできず、いかに“イケてる”仕組みを裏で作っても本末転倒というか。それこそユーザーが喜ぶならあえてレガシーなシステムを選択肢として取れるっていうのも大事だと思うんです。

エンジニアの方でも、アプリを触って「温かいサービスだぁ」とか「すごく心がこもってると感じました」と言ってくださる方が結構いらっしゃって。もちろん緒方がすぐに会いに行くんですけど（笑）。そういう方に、こういう初期の段階ではジョインしてほしいなぁと思いますね。

技術面については、モノも人も増えてきたのでCI（Continuous Integration：継続的インテグレーション）^※2の準備もしていて、体制はしっかり整えていきたいと思っています。僕は「コードを見れば分かるでしょ」っていうのはダメだと思っていて。それはデキる人の論理だし、プロジェクトではデキない人に合わせて、その人たちが分かるように作るべきなんです。

というのも、デキない人が成長してデキる人になったら、また新たにデキない人が入ってくるのが組織なので、その状態でプロジェクトを回せるようにするのがデキる人の役目だと思っています。

AIスピーカー本格上陸で「音声」技術が注目される中、「聴く」をもっと身近にするためのVoicyの挑戦

▲社内に新設されたミニ録音スタジオ。パーソナリティの方は誰でも利用でき、よく録音のためにオフィスに遊びに来るそうです。

まさにここ数ヶ月、「音声」周りが賑わっていますが、その辺りはいかがでしょうか。

AIスピーカーにはもちろん注目しています。「Google Home」、LINEの「Clova WAVE」、Alexa（音声で制御できるAIアシスタント）搭載の「Amazon Echo」。他の会社もいろいろ出してくるでしょうね。

ちょうど2年前の秋に、緒方とVoicyのモックを作って想定クライアントを回ったりしていたんですけれど、当時は「何で音声なの？」「別に動画でいいじゃん」とよく言われていました。そこからAIスピーカーが出たり、海外で音声に関するベンチャーが注目を浴びたりして、少しずつ「声、アリかもね」となってきて。

その流れでAIスピーカーが、日本でもドーッとやって来たところで、この波には乗っとかんとなと。Alexaの開発環境やSDKはすでに整っているので、今少しずつ調べながら手を出しているところですね。

VoicyはAlexaに対応していこうということですか。

Alexaというか、AIスピーカー全般です。うちとしてはいろんなところから声を出したいんですよ。AIスピーカーもそのうちの一つで、他にもTVでもいいし、机でもいいし、壁から声が出たっていい。とにかく声の出る場所っていうのをいっぱい作りたいなと。

コンテンツをユーザーさんと一緒になって盛り上げていくのと両輪で、単純なラジオの延長だとマーケットが決まってしまうので、“何か＋声”というのを模索しつつ。“机＋声”かもしれないし、“電気＋声”かもしれない。

“物＋声”というと、音声サンプリングとか、機械的な読み上げのようなものを想像してしまうんですが、そうではないんですよね。

実はアメリカなんかでは日本よりずっと「音声」が身近なんです。Audibleのようなオーディオブックが流行っていたり、Podcastも日本よりだいぶメジャーなんですよね。そう考えると、日本人って「聴く」体験自体そこまで得意じゃなくて、積極的じゃないのかなというのがあって。

だから、やっぱり聴く機会を増やしたいと思ったときに、生活の中のどういうシーンなら聴くのかなと考えるんですね。それでうちでは「お休み前」とか「通勤中」のようなシーン別のカテゴライズもしているんですけれど。

オーディオブックや音声スイッチが情報収集の手段や機能面にフォーカスして、海外から入って来ている一方で、うちとしてはそこに「人の個性」とか「声の温かみ」を乗せていきたい。例えば、人気声優さんのサンプリングをしたところで、生の声の近さというのは全然違うので。機能面での音声のトレンドがある中、そこに一つ、「声としてのエンターテイメント」みたいなコンテンツがあってもいいじゃないかと思うんです。

日本人の「聴く」体験のお話、とても興味深いですね。日本発の新しいサービスだからこそ「声の温かみ」を軸に展開されるという御社の強い思いが伺えました。

Voice Tech CompanyとしてのVoicyが描く未来

最後に、Voicyと窪田さんの今後の展望をお聞かせください。

これから音声のインターフェースがトレンドになる中で、うちは音声のプロフェッショナル集団になっていきたいと思っています。Voicyという社名からしてやっぱり声の会社なので、私自身、そこに関して技術面でいろいろ挑戦できる組織にしていきたいと思っています。

将来的には、海外という大きなマーケットがあるので、そこへのチャレンジもやっていきたいですね。言語の違いや文化の違いという点で、その違いを埋める声のサービスって相性が良いと思うんです。外国語学習という機能面でももちろん親和性は十分ですけれど、それ以上にコンテンツを通してその国が身近になるものもできると思うんです。

人の声の温もりが、世界をつなげる。

「今、うちの近くでこんなお祭りやってます～！」って聞くと、行ったことがない場所でも、その土地が急に身近に感じたりするじゃないですか。そういったことを今はまだ日本だけでやっていますけど、それで世界がつながっていけるっていうものを作りたいですね。

そのためにも、自分たちでは「Voice Tech Company」と勝手に言っているんですけど、音声と言えばVoicyといってもらえるようになることを目指しています。音声技術関連の会社を集めて「Voice Tech Summit」なんてイベントを開催してみても良いですね。「Voicy」のサービスを起点に、音声に関するところで新しいことにどんどん挑戦していきたいと思っています。

「生の声の温もりをもっと身近に」。Voiceテックで世界をつなぐ 株式会社Voicy CTO 窪田雄司