2020年9月23日水曜日

ボイチェンソフト比較。無料でできる範囲でピッチとフォルマント個別調整も可能なボイチェン

 ボイスチェンジャーで女声になりたい!

という目標から、いろいろフリーソフトを試したりYouTubeで動画を見たりして得た知識をとりあえずまとめます。


まずはとにかく数多く試すことが重要

ここにつきます。

なんというか、「ボイスチェンジャー」という機能がすべて詰まったソフトというのは3つとか4つくらいしかないのですが、

3つとか4つくらいあるボイチェンソフトは、遅延が大きいものもあったり、ピッチシフトの上限が低いものもあったり、ノイズがすごかったりと、なかなか完璧なものは出てきていない状態です。アップデートもあるので読んだ時点、すでにいいものが出ているかもしれませんが。

女声になるために根本的に必要なのはピッチシフトとフォルマントシフトなので、サウンド関連のソフトやプラグインでも同じようなことができます。ここから可能性が広がります。

サウンド関連のプラグインにもピッチシフターという種類のプラグインがあり、これを使ってボイチェンのコア部分にすることができるので、プラグインを使うための箱になるソフトとプラグインの組み合わせをいろいろ変えることによっていい組み合わせを探すというトライアンドエラーを繰り返すことができます。

この記事では私が試してみてよかった構成も紹介しますが、使っているマイクやパソコンによってノイズの大きさや処理の速さなどが違うと思いますし、その状態で満足するか妥協するか、もっと上を目指すかなどで個人個人捉え方が違います。多く試すことで自分にとって満足する構成を見つける可能性が上がりますので、とにかく数多く試すことが重要と書きました。

ボイチェンに必要な要素

●ピッチシフト機能 (ほしいシフト量があること)
●フォルマントシフト機能 (ピッチとは個別に変更できること)
●ノイズが少ないこと
●変換に時間がかからず低遅延、リアルタイムであること
●変換のくせがないこと

上記5つがすべてそろうと最高のボイチェン環境といえると思います。
一つずつ説明します。

ピッチシフト機能

これがないと始まらない、音の高さが変わる機能ですね。
ほしいシフト量と書いていますが、ボイチェンによっては1オクターブぶん、あるいはそれ以上変化させることができるものと、そこまで上がらないものがあります。
自分が出す声が低い声のままボイチェンしたいという人は、1オクターブ程度のシフト量が欲しいと思うはずです。

フォルマントシフト機能

ボイチェンやピッチシフターの中には、機械っぽさが出ない自然な変換を保つためにピッチ変更の設定だけになっていてフォルマントはピッチに合わせて勝手に変化するタイプのものがあります。シフト量が少ない設定であれば影響が少ないのですが、がっつり変換かける設定にするとさすがにフォルマントを個別に設定して声の質を変えたいと思うはずです。

ノイズが少ないこと

同じマイクを入力しているのに、ボイチェンから出てきた声がバリバリになっているものや意外にきれいな音になっているものなどいろいろあります。ソフトごとにも違いがありますし、同じソフトでも設定値によってノイズののり方が変わったりします。普通の環境ノイズなら気にならないのに、ボイチェンを通ると耳障りなノイズになってしまう特性があります。ボイチェンに通す音にノイズがのっていない状態にしたいと思うはずです。

低遅延であること

ソフトウェアのボイスチェンジャーはどうしても遅延が発生します。
変換後の声をループバックして聞きながらしゃべる場合、0.1秒くらい遅れるだけでギリギリ、1秒遅れてくればしゃべるのも難しくなるくらい、遅延は問題です。
遅れてくる声につられてしまってしゃべりにくいんですよね。たとえて言えば、自分がしゃべっているのを遮って他人ががしゃべってくるとき、自分も相手も全くしゃべるのをやめないような状況みたいなものです。かぶったらしゃべりにくくて大抵どちらかが話すのをやめますから。

ノイズフィルタなどを使ってがっつり声をきれいにすれば、録音したボイチェン声はきれいでかわいい声になるかもしれませんが、録音結果を楽しみにしながら自分の生声を聞いてしゃべるしかないのです。なんならボイチェン適正に合う発声をするので生声が普通よりキモイですよね...? つらすぎます。
リアルタイムで聞こうとするなら重いノイズフィルタをはずしたり、バッファを少なくすることで聞きにくい声になってしまい、なかなかいい声を低遅延で聞くことができません。
ハードウェアの機材で低遅延化することで解決しているVTuberが多いです。
きれいで可愛い声を自分の声とほぼ同時にヘッドホンから聞くことができると、「私の声かわいい!」という感覚を得ることができて、しかも出た声をもとに喉を調整して声の出し方もすぐにフィードバックすることができ、声のkawaii化が加速するらしいです。
いやこれはもう同時でなくてもいいから、まずは無料でやれる範囲で、しゃべれる程度の低遅延にはしてみたいと思うはずです。

高い機材をいきなり買っちゃうなんてことはだめっ!(お金に余裕があればいいけどね)

変換のくせがないこと

具体的にどういうことが変換のくせかというと、しゃべっていないときのノイズがひょわひょわ揺れるとか、しゃべりの最後の音程のノイズが残って気になるとか、ノイズが変換されて耳障りになるとかのノイズ関連のくせと、
もう一つは声を出していても特定の音程になるとピロピロ、ガビガビいう感じで変換が安定しない状態などがあります。
前者はノイズ関連、後者は音程関連ですね。

ノイズ関連はノイズを減らすしか解決方法がありません。ノイズフィルタをかけるとかなり音が綺麗になります。

音程関連は、設定いじりで解決するものと、バグのようなものがあります。
あとは自分の声をその音程で出すのを避けるか、その音程のときに声量や声質を変えることで解決するかもしれません。
ピッチシフトの基準を、波形の中でどの音程にすればいいのか、プログラムが迷ってしまい、音程が高速で上がったり下がったりすることで発生する感じです。(記事最後の動画でも話しています。)
どうにもならない場合は、他のソフトでくせがないボイチェンを使うという解決策になります。



5つの中でどれが重要か?というと、全部です。
これが全部そろわないと最強のボイチェン環境にはなりません。
低遅延だけ無視して、録音後のおたのしみにして我慢できるなら、YouTubeの動画をアップすることはできますけど。声のkawaii化加速はできませんよ?


ここからはソフトの紹介

数多く試すため、ソフトのカテゴリごとに紹介していきます。

ボイチェンソフト

恋声
バ美声
Gachikoe! Core

音声ミキサー

Voicemeeter Banana

仮想音声デバイス

Voicemeeter (Bananaに付属)
Syncroom
NETDUETTO

VSTホスト(DAW)

VSTHost
REAPER
Cakewalk

VSTプラグイン

Graillon 2 (ピッチシフト)
Pitchproof (ピッチシフト)
RoVee (ピッチシフト、フォルマントシフト)
MAutoPitch (フォルマントシフト)
MTransformer (ピッチシフト、フォルマントシフト)
ReaPitch (ピッチシフト、フォルマントシフト、Reaperでのみ使える)
Reafir (ノイズフィルタ)
Reaeq (イコライザー)
Reacomp (コンプレッサー)
Bitsonic Sound Recovery (ノイズフィルタ)


ボイチェンソフト、音声ミキサー、仮想音声デバイス、DAWに関しては上記全部試したほうがいいです。
ちなみにボイチェンには直接関係ないですが、Syncroomはデュエットなどで歌えるほど低遅延で他の人と接続できるので、Discordで通話するより話しやすいという意味も含めて入れておいたほうがいいです。
SyncroomはねむさんのこちらのYouTubeライブで使われたそうなので参考にどうぞ。
ねむさんも月山縁さんもかわいい。

VSTプラグインに関しては全部試す必要はないと思いますが、
Graillon 2の速さ、
RoVeeかMAutoPitchのフォルマント個別調整、
Reafirのノイズフィルタ性能、
ReaPitchの音質
あたりは体験しておいたほうがいいと思います。
プラグインの性能がここまであるのか!という参考になります。最高峰のものとは限りませんけどね。

イコライザーとかコンプレッサーあたりは満足する声が出せるようになったあとで味付けくらいでほしくなってくるかなと思います。
私は、遅くなるなら使わないほうがいい派です。



現状の構成

構成を4つ紹介しちゃいます。記事作成時点では③か④がいいなと思ってます。

①VSTHost+Reafir+MAutoPitch+Graillon2+Voicemeeter Banana

VSTHostを長く使っていまして、遅延を気にせず音の良さだけ作るという目的で、
VSTHostにReafirのノイズフィルタ、MAutoPitchでフォルマント-6、Graillon2でピッチ+12&自動でフォルマント上げ
という構成です。ノイズフィルタはFFT Sizeを4096にしているので、合計で250ms(0.25秒)くらいは遅延します。
ループバックを聞かずに録音用にするとか、
VSTHost多重起動で1個は録音用にして、もう一個起動してループバックはノイズフィルタを入れない仕様にするとかで使えそうな構成です。

画像ではマイクから入れてスピーカーに出す設定になっていますが、これだと聞くだけになってPCの音と混ざってしまうのでVoicemeeterを使って分岐させるようにします。
Voicemeeter Insert Virtual ASIOを使ってなるべく低遅延化しています。
もしくはDirect SoundでVoicemeeter AUXに出す感じ。


②REAPER+Reafir+MAutoPitch+Graillon2+Voicemeeter Banana

VSTHostをREAPERに変えるだけで、ReafirのFFT Sizeを4096にしてSubtractの波形を自動で作ったあと、512にするとノイズ減少は軽くなりますが、遅延も少なくなる感じで使えるのでVSTHostは使わないようになりました。


③REAPER+Reafir+ReaPitch+Voicemeeter Banana

②の構成ではGraillon2だけにするとすごく速いですが、フォルマントが調整したいのでMAutoPitchを入れることになってしまっています。②の画像のFXの中にチェックOFFになっているReaPitchでGraillon2とMAutoPitchの代わりにすることができます。
どちらかといえばReaPitch1つにしたほうが音質がいいのでピッチシフター部分をReaPitchに変更。
この画像の右上部分を②の構成でも使ってます。



④Gachikoe! Core+Voicemeeter Banana

ガチコエ! Coreはノイズが上の構成より少し多い印象ですが、声が元気な女の子という感じになりました。
ボイチェンソフトの中では遅延が少ないしピッチ1オクターブ上げられるので変換のくせだけが問題かなと思っていました。Configボタンの設定5つを理解して調整することで変換の飛びのようなものがなくなり、声の感じが一番いいボイチェンです。


①より②のほうが遅延が少なくてノイズも少ないのでVSTHostの①はナシ
②のGraillon2は低い声を出すとあまり好みではない状態になるので微妙。Graillon2単体は速いけど補助が必要になってしまうので結局遅延。
③REAPERで使えるReaPitchはかなりいいピッチシフターで、ノイズも少ないのでほぼ最高ノイズフィルタなしでいける。
④Gachikoe!はノイズこそあるものの、声が元気な感じになるので③と双璧をなす。ボイチェンとして作られただけある

Gachikoe! Coreのノイズに耐えられるならGachikoe! Coreですね。
REAPERのReaPichでノイズ少ない仕様もいいです。

ちなみにGachikoe! CoreとREAPERはどちらもVoicemeeter Insert Virtual ASIOが使えて、しかもINとOUTに別の番号を指定できます。
VSTHostやバ美声ではASIOのときに同じ番号しか指定できないのでボイチェンがエラー停止すると生声が流れてしまうのですが、
INとOUTを別番号にできるGachikoeとREAPERはボイチェンが止まったら無音になってくれるので事故防止になります。
無音はそれ自体事故ですが、まだ良いほうです。生の声が流れてしまうほうは、生声隠してる人にとっては取り返しがつきませんので(笑)

VSTHostとGachikoe! Coreは多重起動することができました。
VSTHostを2つ起動してループバックで聞く用に高速仕様、録音やDiscordに流すノイズフィルタ込みの遅延仕様の両方を使う方法を考えたりしました。
ただ、録音はOBSでズレ補正すればOKですが、Discordで通話するとなると遅い声がネットを通ってさらに遅れて相手に伝わります。ということは会話がしずらい原因になるのでやはりボイチェンに必要な要素5つは全部必要ですね。

そして通話するなら相手に聞き取りやすい低ノイズもやはり必要になってくるのではないかと思いますので、REAPERのReaPitchが現状最強なのではないかと思います。
Gachikoe! Coreではノイズフィルタについては細かく調整できないので、Reafirが追加できるREAPERは自由度と性能ともに上ですね。


YouTubeでGachikoe! Coreの設定について解説した動画を作りましたので貼っておきますね。




REAPERのReaPitchでボイチェンを作る方法も動画作りましたので貼っておきます。