歌声合成新サービス 「Symphoneme(シンフォニーム)」ってなんか…怪しくない?
はじめに
こんにちは、いやお久しぶりです。浜野実です。
2022年8月9日、ある新しいサービスが発表されましたね。
その名は「Symphoneme(シンフォニーム)」。
PRTIMESに出稿されたプレスリリースでは、こう謳っています。
テクノブレイブ株式会社(東京都千代田区、代表取締役:西村 陽一)は、音声合成技術を駆使した
歌声合成AIクラウドサービス『Symphoneme-S』(シンフォーニーム エス)を、
2022年8月17日よりサービス開始することを発表いたします。
これを読む限り、「Symphoneme」というのはメディアミックス企画の総称のようです。
そして、コアとなる歌声合成サービスが「Symphoneme-S」(シンフォーニーム エス)という名前になるようですね。
プレスリリースの続きを読みましょう。
◆歌声合成AIクラウドサービス『Symphoneme-S』(シンフォーニーム エス)について
『Symphoneme-S』はMusicXMLファイルをアップロードし、クラウド上にある複数のAIキャラクターから
好きな声を指定して、MusicXMLファイルの通りに合成する(歌う)ことができます。
合成したものはWAVファイルとして一時保存され、ダウンロードすることができるので、
その後はご自身のDAW 等で歌声WAVファイルとBGMをミックスしてご活用ください。
なお、アップロードするMusicXMLファイルの音階と歌詞については、
必ず著作権侵害していないファイルのみをご利用ください。
とのことです。
これだけを読むと、
「クラウドを利用し、キャラクターデザインが最初から明示されている歌声合成」
のようです。
これですと、イメージとしては
「歌のCoeFont」
とか、
「クラウドのNEUTRINO」
とか、
「Sinsy的なやつ」
という感じでしょうか。これだけ見れば、「新しい勢力が来るなんて景気が良い話じゃん」と思うでしょう。
しかし、きれいに飾られた公式サイトにある規約をよく読むと、
「これは本当に安全かな?」
という項目がポロポロと出てくるのです。今回はこの項目について紹介します。
規約を読んでみると…
1-4.本サービスで合成された音声データを配布、送信、その他の方法で公開する際には、営利、非営利問わず、またその方法や媒体を問わず、一般人をして容易に認識できる箇所に「© Symphoneme」とクレジット表示しなければなりません。
NEUTRINOなどと比べ極端に厳しいルールがすぐ出てきました。営利/非営利を問わずクレジット表示の具体的な強制をさせるというのは珍しいように思います。
クレジット表記はクラウド音声合成(喋り声)サービスで先行するCoeFontでも促される仕様になっていることもあり、「クレジット表記を促す」ということそのものは異常ではないと私も考えています。しかし、「〜しなければならない」という「強制」となると、違和感や圧力を覚えるのです。強制より先に、「紹介したくなる品質」を提供することを重視していただきたいのですが、この文面からその香りはすでにしなくなっています。
1-6.許諾の要否に関する例を以下に示します。
・年商351万円の法人が本サービスの音源を利用した音源をサブスク配信 → 要申請
・年商100億円の法人がイベントのBGMに本サービスの音源を利用 → 要申請
・年商349万円の音楽系個人事業主が本サービスの音源を利用した音源販売 → 無償利用可
・年商400万円の音楽活動を趣味としているIT系会社員が本サービスのM3音源を趣味の一環として販売や宣伝動画に利用 → 無償利用可
・年商351万円の音楽活動を主としない個人事業主による本サービスに関する投稿動画、または配信中の音源利用 → 無償利用可
次に許諾の要否に関する規約ですが、年商が細かく指定されているのも疑問です。なぜ、351万円や349万円などキリの悪い数字を使うのでしょうか。この分け方であれば、素直に350万円を基準にしたほうが自然に思えます。また、この情報では、個人を特定しようと思えばできてしまうのではと思います。
Symphoneme運営は、ユーザに対して年収という重要な個人情報を晒すよう求めてこようとしているわけなのですが、「そこまで要求するけど、本当に貴社に教えて大丈夫なの?」という不安が湧いてきます。
読むにつれ、まだたくさん問題が出てきます。
2-1.著作権が許諾されていないファイルのアップロードまたは音声合成。
「著作権が許諾されていないファイルでの音声合成」という表現は、要するに他者の作品の「カバー」全般を指していると思われます。
確かにカバー抜きの完全オリジナル曲をすぐ用意できるユーザも存在しますが、それを規約で強制されるとなると、やはり他サービスに比べ格段に敷居が高いと言わざるを得ません。
敷居を高くする方針を貫くというのならそれはそれで受け入れる他はありませんが、「作曲や作詞の技術はそこまでないが触ってみたい」層を神経質に振り落としている点に違和感を覚えます。おそらく、初心者がこの規約にきちんと従ってSymphonemeを利用するとするなら、
著作権の切れた童謡や民謡でしか利用できない
ということが起きます。それを
「合成したものはWAVファイルとして一時保存され、ダウンロードすることができるのでその後はご自身のDAW等で歌声WAVファイルとBGMをミックスしてご活用ください」
と言われても、実行するユーザーがどれほどいるのかあまりにも不明瞭なのです。しかしこれをクリアしなければ即規約違反になってしまうと、この項目は示しています。
もちろん著作権は大切にすべき権利であり、他者の作品をカバーした際は然るべき対価を払うべきであると私も考えています。しかし、この、最初から、言わば「完全オリジナルか童謡しか受け付けない」というスタンスでメディアミックスするまでのプロジェクトに持って行けるのか甚だ疑問です。
気持ちは分かりますが、アプローチが違うのではないかというのが私の意見です。せめて、音声合成前の規約の(読まない人がいるかもしれない)文章で済ますのではなく、合成結果をローカルにダウンロードする際に促すのが一応の筋なのではないかと思います。
2-2.当社サーバーに負荷をかけるアクセスまたは利用。不正アクセス。
不正アクセスはともかくとして、何をもって「負荷をかけるアクセス」と見做すのか、その基準について定義がされていません。どれくらいのアクセス数ならば負荷になるのでしょうか。数値で表現できなくとも、「サービスの続行に影響が出るレベル」など、書き方は色々あるはずです。規約と呼ぶにはあまりにも粗い文章です。
2-3.反社会勢力、それに関連する組織、またはその構成員による利用。
2-4.営利目的での無断利用。
2-5.犯罪に関連する目的による利用。
2―6.公序良俗に反する、または社会通念上著しく不適応と判断されうる目的による利用。
このあたりは模範的であり、大きな問題はないように思います。
「規約」としてさらに怪しくなるのはこの後です。
2-7.他社の権利を侵害する、または侵害しうる態様での利用。
なぜ「会社」のみを対象としているのでしょうか。前後の文脈からすると「他者」と書こうとしたものなのではないかと推察できます。要するに、誤字脱字かもしれないということ。規約でチェックミスというのは致命的ではないでしょうか。
2-8.当社サーバーまたは本サービスへの不正アクセス。
どうやって不正アクセスを検知するのかという基準が抜けていて、このままでは効力がありません。また、2-2で「不正アクセス」へ同じ言及をしたばかりです。何故同じことを2回も書く必要があるのでしょう?おそらくこれも「チェックミス」でしょう。
この記載一つで、「利用規約について作るだけして確認を怠っているのではないか?」という疑念が湧きました。このまま運営していき、メディアミックス展開ができたとしても、最初から規約の重複などの初歩的なミスに気付くことができないほど運営が不安定なら、遠からずどこかで破綻してしまうのではないかと思います。
規約以外でも怪しいかもしれない
規約を突っついた時点で不安になるSymphoneme。しかし、ある内情を知る人物によれば、プロジェクトチーム内はさらに混沌を極めていると言います。
簡単にまとめるとこうなります。
- プロジェクト会議にも関わらず開発者が出入り禁止や発言禁止にされていた(※後にその人物は退職)
- 現在の技術構成では、クラウドベースとは呼べない
- 特許申請した内容に未実装の機能が含まれている
- 現バージョンのVer.0.76は開発者がテクノブレイブ社に最初に提出したものそのままである
- 基本的に身内での運営であり、ボイスソース(中の人)も社員や社員の妻で構成
- 商用利用の例として出てくる「年収400万でM3に参加するのが趣味の人」も社員の一人のことそのまま
- 一部のキャラがComming Soon表記になっているのは、中の人が決まらなかったため
- “東北三姉妹”や、他声優事務所とも打ち合わせをしたがどちらも先方に拒否された
- キャラクターのイラストに他作品のイラストからのトレースらしき跡が指摘されつつある(フォトバッシュならともかく)
一体どうしたらこうなってしまうのか。Symphoneme運営、またテクノブレイブ社の体制がどうなっているのか、不安でなりません。
氏によれば、「現在は開発者自身が所属を離れているため、システムの改良自体できるか怪しい」との話でした。もしそれが本当だとして、そんな状況でサービスインしてどのようにしていくつもりなのか、もはや何も分かりません。
せっかくやるなら「推せる」コンテンツとして仕上げてほしい
音声合成の界隈は、動画コンテンツの大量流通によってかつてない活気を見せています。その中に新たな選択肢が増えることは、本来であればとても良い、楽しいことです。しかし、その流行りの上っ面だけをかすめるような、「商売のためにとりあえず流行ってるからやる」というスタンスで始められるなら、それは歓迎できないというのが私の意見です。
最低限、規約を整えたり、先に羅列したような評判が出ないような(これは「そもそも出現してしまわないような」という意味です)環境を構築してからサービスインしていただきたいです。
β版サービスインまであと1日。どうなるか、見守りたいと思います。
きっとすぐ、自然と答えが出るでしょう。