インターネットがつながる場所があれば、誰でも手軽にAI音声を利用することができる注目のサービス「CoeFont」。今回は「CoeFont」というサービスの概要から、AI音声を利用するメリット、AI音声サービスのもつ可能性まで、株式会社CoeFont 広報担当・​​山田 泰裕氏にお話を伺いました。

誰でも簡単にAI音声が利用できる「CoeFont」

ーまずはじめに、「CoeFont」というサービスの内容について具体的に教えてください。

山田氏:CoeFontは「AI音声プラットフォーム」 で大きく2つのサービスがあります。そのひとつはテキストをAI音声によって音声化することができるサービスです。インターネットが繋がる場所であれば、どんな人でもおよそ6000種類あるAI音声を利用し、好きな文章を音声化することができます。

ー打ち込んだテキストを選んだ音声で読み上げてくれるサービス、という理解でよろしいでしょうか?

山田氏:はい。加えてもうひとつ、オリジナルのAI音声作成機能もあります。これは、自分の声を利用してオリジナルのAI音声を作ることができるもので、いわゆる文字のフォントのような要領で自由に「声のフォント」が作成可能となっています。

株式会社CoeFont 広報担当 山田 泰裕氏
PR会社やクリエイティブエージェンシーを経て、2021年10月より、CoeFontに参画。
PR責任者として、PRやESG活動を推進。

ーとてもユニークなプロダクトだと思うのですが、こうしたサービスが生まれた背景や開発にいたったきっかけについてお話しください。

山田氏:弊社の代表・早川尚吾は現在現役の大学4年生なのですが、そんな彼の趣味のひとつがオンラインゲームなんです。そこで彼はゲームをプレイしながらポイントごとにクリアの秘訣みたいなものを音声で記録していたのですが、あとでその録音を聞き直しているときに「自分の声が好きじゃない」と思ったみたいなんですね。そしてそのうちにもっといい声、いわゆるイケボや、可愛い声で自分の伝えたいことを伝えられたら世の中がもっと変わるんじゃないか、という発想を持ったんです。その発想をもとに、最新のAIの技術を活用して生まれたサービスがこのCoeFontです。

ーCoeFontにはどんな強みがあるとお考えですか?

山田氏:CoeFontには大きく2つの強みがあります。1つ目はAI音声利用にまつわる時間やコストの削減です。
実は、従来AI音声を作成するための予算はおおよそ75万円以上。AI音声を出力するためのサンプル音声の収録には10時間以上の録音が必要だったんです。それに対して我々のCoeFontは独自のAIのアルゴリズムを使うことによって収録時間は最短15分から3時間ほど。コストも最安値で500円から、オリジナルのAI音声を作ることができます。

ーそのおかげでだれでも簡単に自分の声の音声AIを作れるんですね。

山田氏:はい。その通りです。おまけに収録する場所についても、特別な収録ブースなどを利用する必要がありません。パソコン1台、オンラインでネットがつながる場所だったらどこでもできてしまうので、場所や時間の制約にとらわれずに、AI音声を作ることができるのがメリットです。

ー2つ目の強みはどんな点でしょう?

山田氏:2つ目は、自然なイントネーションでの音声出力が実現されていることです。今までのAI音声は、事前に収録されたサンプルの音声を入力されたテキストに対してそのまま当てはめる形で、出力されていました。そのため、実際に音声を再生した時に不自然なイントネーションになってしまうことも多かったんです。

ーたしかに、AI音声独特のぎこちなさというのはありますよね。

山田氏:そうなんです。一方、CoeFontは独自のAIのアルゴリズムを組み込んでいます。このアルゴリズムの特徴のひとつは、文章の前後の文脈を汲み取ることができるということです。文脈を理解することにより、自然なイントネーションでAI音声の出力ができるんです。

ー具体的にはどのようなプロセスで判断しているのでしょうか?

山田氏:例えば、日本語の「はし」という言葉は、同じ「は」と「し」の組み合わせでも食べる時に使う「箸」と渡るための「橋」があります。通常会話の中で、私たちはそれをイントネーションで意味を区別していますよね。ただ、従来のAI音声だと収録した音声をそのままはめ込む形になっているので自然な発声ができない場合があります。

一方でCoeFontは、例えば前後に「渡る」という言葉があったらこれは「橋」だ、例えば食べ物の単語があったら「箸」だというように、前後の文脈から推論をして、自然な形で音声を発声することができるんです。それが他社様のAI音声との大きな違いであり、強みだと思います。

ーAI音声を作る際に、その人のもつイントネーションの他、音声にはスピードや間合いの違いも反映されているのでしょうか?

山田氏:はい。ご自身のAI音声を作る場合、AI音声が再生されるスピードはご自身の喋るスピードの平均値により決まります。具体的には、AI音声作成時にサンプルとしてよみあげた原稿から、その方の喋るスピードやイントネーションなどの平均値をとり、それを実際の音声に反映させるんです。これによって、その声の持ち主の特徴や癖までも再現されるようになります。

ー音声のスピードを調整することは可能なのでしょうか?

山田氏:はい、可能です。CoeFontにはテキストを音声で出力する時に微調整を行う編集画面があります。ここでは、イントネーションの設定、喋るスピード、声の大きさなどを調整することができます。

ーイントネーションの設定はどのように行うのでしょうか?

山田氏:画面をみていただくのが一番わかりやすいと思いますが、テキストの文字のひとつひとつに丸があります。この丸を動かすことで発音の上下を調整することができます。AIが判断したイントネーションに対して、違和感がある場合にも、この設定で微調整を行うことができるんです。

そのほかにも、音量のバランスやスピードを調整するところがあり、用途や好みに合わせて音声を編集して使うことが可能です。

CoeFontの管理画面の一例。使いやすい編集画面が意識されている。

ーイントネーションの上げ下げを線と丸で調整できるのはとてもわかりやすいですね。

山田氏:ありがとうございます。どなたでも簡単にプラットフォームを利用していただけるように、UI(User Interface)にもきちんとこだわって作っています。

AI音声の活用で時間やコストの削減に

ーサービスの軸である音声ですが、この音声のもつメリットや魅力についてはどのようにお考えですか?

山田氏:音声の魅力はたくさんありますが、やはり視覚的に何かを伝えられない時、音声はとても重要なファクターになってくると考えています。昨今はインターネットの発達などにより、タイムリーに情報を伝えられる機会も増えました。しかし一方で受け取り手がいつでも視覚的に情報を読み取ることができるわけではありません。例えば車の運転中などの場合、文字を読むことは難しいですよね。そうした場合にも、音声なら目を離すことなく情報を得ることができます。

ーたしかに、日常生活においては、勉強中、移動中、仕事中など、目が離せない場面がたくさんあります。

山田氏:はい。こうした目が離せない場面のなかでも、音声は「ながら」で聴くことができるのが魅力だと思います。

ー他にはいかがでしょう?

山田氏:テキストの文字で何かを伝える場合、テキストが表示される場所の大きさには限りがあるので、文字数などが制限される場合もあります。それに対して音声というものは音声を聴く環境があれば、比較的制限がなく伝えることが可能です。こういった制約条件が取り払われているというのが大きな特徴かなと思います。

ーマーケティング領域でも、音声コンテンツへの注目は高いですよね。

山田氏:その通りです。マーケティング領域でいえば、デジタル音声広告、企業のポッドキャストなど音声を利用したコンテンツへのニーズは拡大しています。
さきほどの通り生活者が何かを行なっている時にも、その手を止めることなく情報を届けることができるので、そこに価値を感じている企業も多くいらっしゃると思います。また昨今は音声付きの動画広告クリエイティブもよく見られるようになっています。

ーそういった場面でも、CoeFontは有効に使っていただけそうですよね。

山田氏:はい。音声付きの動画広告や、デジタル音声広告のクリエイティブ制作の部分で、CoeFontが貢献できる部分は大いにあると考えています。

ー特にどういった点がCoeFontを活用するメリットになってくるとお考えですか?

山田氏:一番は予算や時間といった制約の低減です。デジタル広告施策においては、施策の効果をみながら成果を高めるために常に磨きをかけていくことが必須です。広告クリエイティブについても、より成果があがるものをABテストで確かめたり、改善を加えていくことが求められます。
しかし、音声付き動画広告や音声広告のクリエイティブの場合、ナレーションを担当してくれる方のキャスティング、MA室など収録環境の手配など、コストや工数の面で負担が大きいというデメリットがありました。

ー確かに、気軽に作り直そうというのは難しそうです。

山田氏:そうなんです。しかしCoeFontを利用すれば、好きな音声を選び、伝えたいテキストを入力し、イントネーションや声のスピードなどもその場で直すことができます。そのため、クリエイティブのブラッシュアップにかかる工数やコストも削減できますし、複数バリエーションのクリエイティブを作ることもより簡単になります。
「音声付き動画広告やデジタル音声広告施策に取り組んでみたい」、と思いながらも「予算があわない」と諦めてしまっていた企業担当者の方にも、ご検討いただける可能性が広がるのではないかと思います。

ー弊社の動画制作ツール「LetroStudio」とも機能連携をしていただいています。

山田氏:はい。この連携は、まさに今申し上げたコストや工数などの懸念点を払拭し、音声付き動画広告クリエイティブのPDCAを高速で回していくことができるものだと思っています。使いたい動画素材に私たちの提供するAI音声を組み合わせていくことで、より自由度の高い表現の実現や、効率的なクリエイティブ制作を実現可能です。これによってマーケターの方の選択の幅を広げることができるのではないでしょうか。
これからも弊社はこのような形で、AI音声のもつバリューを提供していけたら、と考えています。

▶動画制作ツール「LetroStudio」×「CoeFont」でAI音声機能付きマーケティング動画をカンタン制作!詳細はこちら
LetroStudio、新機能「AI音声機能」を提供開始 縦型動画の制作ニーズの高まりに合わせ、多数の音声データ搭載

社会のインフラとして声のできること、可能性を広げる

ー今後こんな分野でも使ってもらいたい、こういう領域でも使ってもらえるようにアプローチしたい、という希望はありますか?

山田氏:弊社としてはまず、「AI音声を使う」ということ自体がまだあまり浸透していないのでユースケースをどんどん増やしていきたいと考えています。
例えば現段階では、バスの車内音声、各種施設の館内音声から、テレビの地上波のナレーションでもCoeFontは少しずつ使われ始めています。こうしたユースケースを増やしていくことで、「AI音声を利用すると便利だ」という認識がもっと広がっていけばいいなと思っています。

ーAI音声が広がることによって仕事を奪われてしまうのでは?と考える人もいるのではないでしょうか?

山田氏:確かに「AIの脅威」などといった文脈で語られることはあります。AIという言葉に無味無臭な印象があることなどにも起因していると思いますが、私はそれは違うのではないかと思います。例えば、ラジオ番組でのニュース原稿など正しく情報を読む必要がある場面ではAI音声が力を発揮すると思います。しかし、フリートークでパーソナリティの方が話す内容やリアクション、即時的な対応力というのは、人間にしかできないものです。今後もそこはきちんと住み分けがされていくのではないでしょうか。

ーこうした、「AI音声」に対するネガティブなイメージを払拭するためにも、AI音声の活用方法の認知を広げているんですね。

山田氏:その通りです。そのために例えば、私たちは咽頭がんなどのご病気で声帯を摘出しなくてはならなくなった方、ALSで今後声が出なくなってしまう可能性がある方など、医療目的で利用される方に対して、無償でCoeFontをご提供しています。こうした医療分野での無償提供は商用利用ではありませんが、AI音声を社会のインフラとしてご利用いただき、その可能性を広げていくために大変重要な取り組みであると考えています。

ーその他に今後開発予定の機能やサービスはありますか?

山田氏:現在CoeFontでは、英文を入力して英語で読み上げてくれるAI音声、中文を入力して中国語で世にあげてくれる AI音声をご提供しています。今後はそれをもっと色々な言語で作れるようにして、しっかりとグローバルに対応していきたいと考えています。

また、この機能については、日本語でサンプル収録したAI音声で、英文や中文の読み上げに対応できる機能も近々実装できる予定となっています。

ー様々な角度から、AI音声のインフラ化を進めているんですね。

山田氏:はい。当社は「身体、国境、時間、などあらゆる制約に縛られない声のサービスを拡充させていく」ということを目指しています。
弊社のサービスは現状「text to speach」、テキストを入力して音声にするという範囲に留まっていますが、今後は日本語の内容を英語に変えて出力する翻訳機能、ボイスチェンジ機能など、さらに新しい機能の開発にも力をいれていきたいです。
そうすることによって、声のできることや可能性を無限大に広げ、何かにチャレンジしたい時により制限の少ない社会を実現していければ、と考えています。