最近は色々と面白いものが登場して、自称、科学少年おやじの心はくすぐられずにはいられない。
今回は、声質変換ソフトウエア「Voidol2」をいじってみたので、少しだけ感想などを書いてみた。
※2024年5月31日 クリムゾンテクノロジー(株)は後継ソフトウエアである「Voidol3R」を発売した。
人間の変身願望なのか?
この「Voidol2」はクリムゾンテクノロジー(株)が発売した「声質変換ソフトウエア」というもの。
簡単に言えば「ソフトウエアボイスチェンジャー」だ。
最近は、あの某公共放送のチコちゃんのようにかなり技術が進歩しているようだ。
しかし、この「ボイスチェンジャー」は、ずいぶん昔からある。
自分の声を変えてみたいという欲求は、人間の根底からあるのかもしれない。
一種の変身願望ともいうものなのだろうか。
その昔、テープレコーダーで自分の声を録音、再生してみると「え?自分の声ってこんなの?」と驚いた人も多いと思う。
大体の人はショックを受けるようで、自分もそうだった。
もし、この声が女声やイケメン声、しぶ声になったとしたら、そりゃぁ面白いだろう。
以前はソフトウエアでリアルタイム変換することは無理だったため、もっぱらハードウエア(電子回路)による処理だった。
秋葉原でも、裏通りを通ると、そういった機材があちこちで売られていたことを覚えている。
おもちゃでも発売されていたこともあって、下記はトミーから発売されていたズバリ「VOICE CHANGER」。
まあ、おもちゃだから、性能はそれなりだが、けっこう面白かった。
コマーシャル動画を見つけたので載せておこう。
今でもダース・ベイダーの声にしたり、チコちゃん声にするおもちゃが売られているようだ。
まあ、吹き替え版のダース・ベイダー卿は故大平透さんなんだけれど・・・
ボイスチェンジャーは、仕事で必要な人もいると思う。
今回のVoidolに実装されている「リアチェンVoice」も、元は某テーマパークのネズミさんの声をアルバイトの人でも出せるようにするために開発されたものだという。
(わしはボイチェン使わずネズミさんのマネするのは得意です。)
技術の進歩は凄い
この「Voidol2」、詳しくいうと「リアルタイム声質変換を備えるソフトウエアボイスチェンジャー」。
音声変換ではなく、声質変換と呼ぶそうである。
ボイスチェンジャーは、近頃YouTubeで話題となっている「VTuber」や「バ美肉」(バーチャル美少女音声)でご用達のアイテムとなる。
技術的にはハードウエアでの変換、ソフトウエアでの変換、それぞれある。
ソフトウエアでの変換はパラメータの柔軟性が確保できるものの、弱点はリアルタイム性に劣るところ。
しゃべっても、変換された声が遅れて出てきてしまう。
あの、「声が遅れて聞こえてくるよ!」になってしまうわけだ。(あれほどはズレないけど。)
だから地声と変換後音声をヘッドホンで聞いていると、まことに気持ちが悪い。
自分でしゃべっていることが混乱してくるのである。
また、ハードウエア式に比べ、変換後出力も高品質とは言い難い。
だから、低遅延や高品質出力が可能なハードウエア機器が要求されるわけだ。
しかしハードウエア機器は高コストとなり、環境を構築するのもけっこう複雑である。
下は代表的なハードウエア変換装置のひとつ
「ROLAND VT-4 Voice Transformer ボイストランスフォーマー」
出典:ローランド株式会社
そんな中で登場した、今回のVoidol2。
遅延時間が40msという、高速な変換時間を達成している。
しゃべっていても、あの違和感、気持ち悪さは無い。ほぼ普通にしゃべれる。
以前販売されていた旧製品の「Voidol1」は100ms程度の遅延が発生していたが、この差は大きい。
くわしくは以下のサイトを見ていただきたい。
クリムゾンテクノロジー株式会社 Voidol2
YouTubeがらみで、ちょっと関係ない話し。(適当にスキップしてね。)
一応、わしは昔、今で言う「ユーチューバー」だった。
それもまだ、YouTubeがGoogleに買収される前の話。
その頃はまだ「ユーチューバー」という言葉もなかった。
SNSに動画を貼るためYouTubeを利用していたのだ。
その後、Googleから、「動画投稿で収益を得ないか?」というお誘いを受けたものの、仕事も忙しかった為、動画配信を続けることもなく、お誘いも無視してしまった。
今は辺境のいちブロガーだが、もし続けていたら、また違う人生になっていたかもしれない(笑)
Voidol2の2つのモード
すっかりヨタ話が長くなってしまったが、Voidol2を触ってみた感想である。
Voidol2には2つのモードがある。
ひとつがAIモード「Voidol AI」。
これはナレーター(元声)をあらかじめサンプリング収録された声優(キャラクター)に変換する「AIリアルタイム声質変換」するモード。
もうひとつがシンセモード「Voidol SYNTH」。
これはナレーターの音声そのものを電子的に変換してしまうモード。
AIモードは、言葉からして凄くて、うまくいきそうなのだが、男 → 女への変換音声はいまひとつだった。
(男 → 男 へはうまく行くようだ。)
しかし声の出し方、話し方などを練習、工夫すれば、うまく行くと思う。
更に、入力をハードウエアやDAWを使用して、イコライズすれば、かなりハイレベルにいけるのではないかと思う。
これも個人によって声質が違うわけなので、いかに変換しやすい声を入力してやるか、男声のノイズをいかに減らすかが鍵なんだろう。
次に、シンセモード。
これは使える。普通にしゃべっても女性のアニメ声になるし、ロボットボイスやビブラートもすばらしい。
話しは古いが、あのYMOのライブのメンバー紹介の世界が作れてしまいそうだ。
更に、「DETAIL」を選択すれば、かなり細かいパラメータをいじることができるので、これは期待が大きい。
とりあえず簡単な感想だが、まだ触ってから日が浅いので、わからないところがいっぱいあるし、もっとうまく行く方法もあると思う。
但し、可能性は高いと思う。買いのソフトウエアではないだろうか。
今後は、動画やブログサイトで使い方のノウハウが紹介されゆくだろう。
試用版を試してみる
このVoidol2は試用版が提供されている。
前述のクリムゾンテクノロジー社 Voidol2のサイトの画面中央付近に「Voidol2試用版ダウンロード」のリンクがある。
Windows、MacOSそれぞれのリンクをクリックすればダウンロードが可能だ。
性能、機能は製品版と同じだが、使用できる時間が制限されていて、2分間しか使用できない。
ソフトウエアを立ち上げてから2分経過すると、変換ができなくなり地声しか出なくなる。
時間制限となった画面
せっかくいい気分でしゃべっていても、いきなり、オヤジ声になり、現実世界へ引き戻される。
(小説やネットのニュースなどを朗読するとよい。発声の練習にもなるしね。)
しかし一旦終了させ、立ち上げれば、また2分使えるようになる。
しばらくはこれで、あれこれ触ってみると良いだろう。
2分というのは、ウルトラマンのカラータイマーより短いが、無料なのだから仕方がない。
ちなみに、試用版をインストールしていても、ライセンスキーを入れればそのまま製品版として使えるようになる。
それなりのハードウエア機材も必要
ソフトウエアの能力を最大に引き出すためには、やはりそれなりの機材も必要になる。
パソコン付属のマイクや、ヘッドホン出力ではその性能は発揮できない。
そもそもコンデンサマイクは周りのノイズを拾ってしまい易いし、ヘッドホン出力は意外とノイズが多い。
音楽をガンガンかけているとわからないが、静音時はプチプチとかシャーシャーとかけっこうノイズが多い。
ここは、専用マイクロホンとデジタルオーディオインターフェースの設備投資がお勧めである。
お勧めなのはUSBオーディオインターフェースである「YAMAHA AG03」。
いろいろな機能が集約されておりコンパクトで使いやすい。
(あちこちのサイトで紹介されているのでググっていただきたい。)
またマイクロホンはコンデンサマイクではなく、単一指向性のダイナミックが良い。
周囲の生活ノイズを拾いにくくなり、より変換精度が上がるからだ。
YAMAHA AG03とダイナミックマイクロホン(ゼンハイザー e835S)
おわりに
この「Voidol2」は2021年10月20日に発売されたが、その後「Voidol3」へアップデートされ、現在は最新版「Voidol3R」が2024年5月31日に発売された。
「Voidol2」を持っているなら有償だが「Voidol3R」へアップデートすることができる。
くわしくはこちら。
高音質変換を実現したリアルタイム声質変換アプリケーション「Voidol3R」と、国民的人気女優・由美かおるボイスモデルを含むRVCモード用ボイスモデルを5月31日に製品発売
また、リアルタイムボイスチェンジャーとして SUPERTONE社から「SHIFT」がOpen Bata ver.2版として公開されている。
こちらも優秀でしかも現在は無償で使用することができる。
くわしくはこちら。 SUPERTONE SHIFT