ソースネクストにて買い切り型の使い放題のAI文字起こし「RecText AI」が販売されています。
Vrewなどと同じく、文字起こしをするソフトですが、RecText AIは買い切り型なので、毎月のサブスク料金とか不要です。一昔前のソフトと同じく、一度商品の料金を支払えばずっと使い続けることができます。
Vrewは使いやすかったので、私も一時サブスクしていたのですが、使わない月もサブスク料金を支払うのが嫌になりまして、今は疎遠になっています。
RecText AIは買い切りなので、購入時に一回料金を支払えば、メジャーバージョンアップなどをしない限り、追加料金はかかりません。
つまり、音声認識エンジンはクラウドではなく、自分の今使っているパソコンの中に入るってことですね。
1時代はサブスク全盛なのに、なんで買い切り?
今現在は、ソフトの熟成度を考えるとサブスクの方が有利です。例えばAIなどはほんの数日で莫大な進化があったりしますので、買い切り型よりサブスクの方が進化の速い使えるソフトになるという現実があります。
サブスクは本体が更新されたら、そのままサブスクユーザーもすぐに恩恵に与れるのが普通ですが、買い切り型はバージョンアップ料金が必要だったりします。
文字起こしソフトの場合、どちらがいいか微妙で、音声認識技術は日夜進化しているためサブスクの方が有利なようにも思えます。
「RecText AI」の詳細はこちらローカルインストールなのでダウンロードは1.7GB
クラウドを使わずに文字起こしするわけですから、ローカルに置くべきファイルのサイズは1.7GBもあります。
ネットカフェなどの遅い回線でダウンロードすると、完了まで数時間ほど必要だと出ますが、実際にはそんなにかからないことが多いです。速いと10分強、トロトロYouTube見ながらだと一時間強という感じでしょうか(光回線の場合)。
実際にはこのファイルを解凍すると、もっとサイズは大きくなります。
ダウンロードしてローカルに置いておくだけで、トンネルの中などネットがつながらない環境でも文字起こし作業できるわけですね。
サブスク文字起こしのほうが楽かも?
サブスクの文字起こしはなんだかんだ言っても、一定の性能は出続けるという体感があります。
買い切り版は販売会社がソフトを売ったら、それで終わり、あとは購入者の責任ね、という感じがするのも事実です。また、最近のラップトップのようにストレージ容量が少なすぎるマシンには、サブスクの方が簡単にインストールできる感じですね。
でも、一つ見落としがちな盲点があります。音声認識ソフトのサブスク版は、多くの場合、認識サール音声データをクラウドにアップロードする、そのデータをクラウド(サーバ)で解析して、変換データをユーザーに返すという処理をします。
問題なのは、ユーザーがアップロードしたデータはどう処理されるのかという点です。
例えば、重役会議での議事録を文字起こししたいとします。Vrewを含めサブスクの場合、そのデータ(重役会議での録音データ)を、まずはクラウドで一旦預かります。それを専用サーバー(アプリケーション)で解析します。解析した文字起こしデータをユーザーに戻します。
この際の、解析後の重役会議での録音データはどうなるのかという点が不安なところです。
多くの文字起こしサブスクの場合、解析精度向上のための素材データとして、録音データは保存され続けます。全部のデータが保存されるわけではなく、品質向上に利用できるデータに限って保存するはずですが、何が品質向上に役断つかの判断は難しいので、結果的には一律に保存されます。一定期間を過ぎるとデータは消されますが、本当に消しているかどうかは確認する方法がありません。
アップロードした会議録音データにヤバイことが含まれていたり、プライバシーに関する内容が含まれていると、もしかして悪用されるかもと、怖いと感じる人も多いと思います。
RecText AIの場合は、この心配をする必要がありません。
データを保存するのは自分のPCだけですから、データの流出リスクは激減します。
というより、その心配する必要が無いので、仕事も受けやすくなる、精神的疲労が減ることになります。少なくとも訴訟リスクは減るでしょう。
つまり、RecText AIの買い切りのメリットは実質上使い放題という点だけでなく、データをPC外部に一切出さないため、データがクラウドを通じて流れ出ない、機密保持が強い点も大きいわけです。
機密性の高い会議やセキュリティ上、クラウドサービスを利用できない方は、有力な選択肢になると思います。
サブスクリプションで提供されている文字起こしサービスと同等の、文字起こしの正解率を持つ、買い切りの文字起こしソフトです。
「RecText AI」の詳細はこちら2文字起こしはどうやる?
RecText AIの使い方ですが、シンプルです。
シンプルゆえにできることは限られているという感じがします。
*すでにあるファイルから文字起こし
*録音録画して文字起こし
この二つがRecText AI でできることです。
すでに何らかの記録データ、 .mp4、.wmv、.wav、.mp がある方はそのデータをRecText AIに読み込ませます。
スマホなどで録音した場合は、大体その手のファイルになるので、そのまま読み込ませます。
ファイルから文字起こしの例
元TVキャスターの櫻井よしこ氏が出演している番組の一部を文字起こししてみました。
二時間ほどあるファイルですが、文字起こし完了まで、ほぼ実時間かかった気がします。
録音録画して文字起こしというのは文字通り、PCでマイクやカメラを使って録音録画し、一旦ファイルにしてそれをRecText AIが読み込んでくれるということです。リアルタイム文字起こしができるわけではないので注意してください。
この機能のうち録音して文字起こしは、個人的には便利に感じています。PCのマイクに話しかけて録音して、録音データをテキスト化してくれるというやつですね。
ブログの記事はこの機能を使ってやる方が気軽に書けそうです。でも当然ながら商品名などは間違えまくるので、修正が必要になります。
3RecText AI の精度はどうなのか?
RecText AI は公式には「正解率92.1%の高い文字起こし精度」となっています。精度の測り方にもよるのですが、正解率92.1%だと実際にはかなり微妙な制度です。ゼロから文字起こしするより、幾分楽になるという程度です。
体感的には、ほぼ全ての文字起こし文に微妙な修正を入れる必要があります。
文字起こしの例
ベテランキャスターの桜井氏の発音は文句ありませんので、誤起こしはすべてソフト側の問題だと考えていいと思います。
図では微妙に起こして欲しい文になっていませんが、品質としては十分及第点です。
RecText AI はオートメモの文字起こしエンジンを使っているため、精度はほぼオートメモと同じとされますが、公式にはオートメモの文字起こし正解率は99%です。RecText AIは正解率92.1%ですので、かなり低いと思いますが、オートメモの認識エンジンをシェイプアップしたものを使っているわけですので、正解率が下がるようですね。
公式にはオートメモの方が正解率は高いのですが、流行りの固有名詞、とくに人名などはクラウド型の方が有利なので、それは致し方ないと思います。
普通の閉じた言葉(新語を使わず普段の事象のみを表現する)だけであれば体感でも九割以上の正解率はありそうです。
「RecText AI」の詳細はこちら4最後にRecText AIのマイナスポイント
RecText AIの文字起こし精度が高いことは十分体感できた一方で、文字起こしが完了するまでに時間がかかります。ほぼ、実ファイルの実時間必要です。一時間の音声ファイルを文字起こしするのに、約一時間ほどかかります。
この点は少し気になる一方で、文字起こした成果物の品質は高いです。速度を上げて制度を下げられたら嫌ですので、個人的にはこの測度でも許容範囲です。
「RecText AI」の詳細はこちら5あとがき
当初、私は動画の字幕作成のためにこのソフトをゲットしたのですが、今はPCのマイクに自分の声を入れて文字起こしすることに使っています。
ボイスレコーダーやスマホに録音してPCに転送するかクラウド共有して文字起こしする方法もいいのですが、私の場合はいきなりラップトップに向かって話しかけて文字起こしさせています。
タイプがうっとうしいので、こういうズルが心地よいです。
ただ、話し言葉は幼稚になりがちなので、ブログ記事作成目的ならあとから手入れをする必要も多いのですけどね。
それはソフトの責任ではありません。RecText AI は価格を考えても優秀です。
安く旅すること、デジタルモノを安く手に入れること、そして安くても使いこなすことをモットーにブログを書いています。典型的なデフレ対応型なんだなと自覚しつつ、日夜物欲と対峙し断捨離を心がけるも、うまくいかない毎日であります。