AI
102k

OpenAI製の高精度音声認識モデル

Whisperは、OpenAIが公開した高精度な音声認識(文字起こし)モデルです。68万時間に及ぶ大規模な多言語データで学習されており、日本語を含む約100言語の音声認識と英語への翻訳に対応します。雑音や訛りに強い頑健性が特徴で、専門用語を含む実環境の音声でも高い精度を発揮します。MITライセンスで公開されているため、商用製品にも自由に組み込めます。サイズ別に複数のモデルが用意され、精度と速度のバランスを選べます。会議の文字起こしや字幕生成、音声データの分析を行いたい開発者・企業に向いており、商用文字起こしSaaSの代替としてローカルで運用できる点が大きな魅力です。音声認識分野の事実上の標準モデルとなっています。

whisperの解説記事

コメント(0

コメントするにはログインしてください。

同じカテゴリのOSS

Let's Build Together

OSS導入、自社だけで悩まない。

ツール選定から構築・運用・AI活用まで、オープンソースラボ運営元のClasslessが伴走します。初回のご相談は無料です。