go to news

detail

* ネイバーパパゴに翻訳されました。
papago logo
WON Hoseob
入力 : 
2025-03-25 16:10:19
ゲッティイメージバンク
ゲッティイメージバンク
音声認識技術が日常に深く浸透している。 会議録の作成、講義要約、インタビュー整理など多様な分野で活用され、関連市場も急速に成長している。

世界市場では米国の「オッター(Otter)」が独歩的な位置を占めた中で、アクションパワーの「ダグロー」、ザ·プレイトの「ティロ」、ネイバーの「クローバノート」等、技術力を備えた国内企業も競争に飛び込んだ。 特に、ダグロ、ティロなどのスタートアップは、強力な音声認識技術を基に、活用時に利便性を提供する多様な機能を発売し、顧客の心をとらえている。

各アプリケーションの性能を比較するために簡単な実験を行った。 適当な騒音が発生する会議室にノートパソコンを置き、各アプリを作動させた後、ハングル、英語、方言(ハングル)対話が含まれた5~10分分量のユーチューブ映像を再生する方式だ。 実験には1962年ジョン·F·ケネディ米国大統領の有名な演説「私たちは月に行くことを選択しました」、色々な人が登場して事業モデルを発表し投資可否を決める米国TVシリーズ「シャークタンク」エピソードなど映像を活用した。

4つのアプリいずれも映像の中の言語をテキストに変換する能力は優れていた。 ダグロ、ティロ、オッターはスクリプトを基盤に人工知能(AI)が内容を要約してくれる機能を提供するのに(クローバーノートはハングルのみ支援)正確に同じ結論を出した。 多くの人が登場して話すシャークタンクの映像を聞いた後、どんな事業モデルを説明するのか、投資家の意見が何なのか、投資を受けるのかについて整理した。 映像を1.2倍の速度で再生した時も大きな差はなかった。 ダグロ、ティロは英語スクリプトを韓国語に翻訳し、要点整理まで提供した。

違いを挙げると、オッターは英語に特化しただけに、シャークタンクに登場する話者数(5人)を区分した。 ダグローは、英語映像の話者の区別には違いがあったが、3人以上が登場する韓国映像の話者を正確に区別した。



사진설명
オッター、ダグロー、クローバーノートは音声をそのまま伝えようと努力するのが目立った。 例えば、「(私)」「(だから)」のような「(フィラー)」表現をテキストに切り替えた。

オッター、ダグロー、クローバノートは、音声をファイルとして保存し、スクリプトをクリックすると、該当部分を再び聞かせたが、これは会議や講義を再び探す時に非常に有用だと見られる。

ティロはAIをベースにテキストを精製してくれる。 例えば「LLM」を説明するハングル講義を録音した時、クローバーノート、ダグローはこれを他の言語と認識する場合があったが、ティロはAIが該当映像に登場するLLMや「ラージランゲージモデル」「巨大言語モデル」のような音声を全て「LLM」に統一して整理してくれる。 また、文語体を口語体に転換するのに強みを見せた。

このため、方言を聞かせた時、ティロは認識能力が多少落ちたが、ダグロー、クローバノートは該当音声をテキストに転換し、大体理解できる水準に変える結果を確認することができた。

ダグロ、ティロの強みは完成度の高い音声認識技術を基盤に色々な機能を提供するということにある。 特に、ダグローはユーチューブアドレスだけ入力しても、該当映像の音声をテキストに転換し、整理してくれる機能を提供した。 「量子力学講義」「NVIDIAの歴史」が含まれた15~30分のユーチューブ動画アドレスを入れてみたが、映像内容をテキストで整理し要約まできれいにしてくれる。

ダグロー内の「チャットボット」はユーザーがダグローで変換した書き取り内容を基盤にAIと質問して答えることができる機能も提供する。 このような便宜機能が顧客を魅了し、ダグローは国内音声認識アプリの中で最も多い購読者である150万人を確保した。 アクションパワーのチョ·ホンシク代表は「ダグローは会議、インタビュー、営業ミーティングなど22種類にテンプレートを細分化し書き取り結果を目的に合う形で整理してくれる」と説明した。 ダグロー有料会員はGPT4o、クロード·ソネット、パープル·レクシティーなどそれぞれ月3万ウォン水準の購読料を払わなければ使えない有料チャットサービスを制限なしに活用することもできる。

ティロの強みは音声をテキストに転換する過程をリアルタイムで見せるだけでなく、一つの段落が終われば要約してくれるという点だ。 会議や講義を録音しながらしばらく席を外して帰ってきた時、どんな対話が交わされたのか確認できるわけだ。 外国語を早くハングルに変えてくれるだけに、外国人とのミーティングでも有用に活用できるものと予想される。

ザ·プレイトのイム·ウンソン代表は「T-ROは国内で初めてリアルタイム音声認識サービスをしている」として「対話中にあたかもパープルレクシティのように対話記録に関して質問できるという点も差別化された部分」と話した。 ティロは3月、累積加入者1万500人を越え、購読更新率は90%を越えた。 実験を通じて最近発売された音声認識アプリの技術発展を直接確認することができた。 オッター、クローバーノート、ダグロー、ティロなど主要アプリは全て加入さえすれば300~600分を無料で提供するので、音声認識アプリの使用を悩んでいるならば直接使ってみて自分に合うアプリを選択した方が良い。

[ウォン·ホソプ記者]

アクセスランキング

写真