WhisperX で音声認識と話者分離をしてみよう

Windows 編

Hugging Face トークンの取得

音声認識ができたので，話者分離を行います．これも無料かつローカルで実行できますが，モデル利用時に Hugging Face の認証トークンが必要で，同時に利用規約の同意も必要であることに注意してください．認証トークンが必要であることから，クラウドサービスのようにも感じられますが，音声データがクラウドに送信されることなくローカルで完結します．ここでは Hugging Face のトークンを取得して設定する方法を説明します．

パッケージのインストール（確認）

話者分離に必要なパッケージは huggingface_hub と pyannote-audio です．すでに，whisperx のインストール時にこれらが同時にインストールされているはずです．次のコマンドでイントールされていることを確認してください．

pip list | Select-String huggingface_hub
pip list | Select-String pyannote-audio

もしインストールができていなければ次のコマンドでインストールできます．

pip install huggingface_hub
pip install pyannote-audio

アカウントとトークンの作成

続いて，Hugging Face アカウントを作成します．Hugging Face のトップページ (https://huggingface.co/) から「Sign up」を選び，ユーザ登録を行います．

ユーザ登録後にログインした状態で次の2つのページを開きます．「利用規約」を確認してそれぞれ「Accept」を押します．この作業がなければエラーになります．

次のページから Access Token を作成します．

https://huggingface.co/settings/tokens

「Create new token」から任意の名称でトークンを作成しますが，「Read access to contents of all public gated repos you can access」という設定項目を On にしておく必要があることに注意してください．トークンの作成ができたらトークン (hf_xxx...) をコピーしておきます．

トークンを利用したログイン

作成したトークン (hf_xxx...) を利用して，PowerShell から huggingface_hub にログインします．具体的には，hf auth login コマンドを実行し，トークンを入力（または貼り付け）します．ただし，トークンは画面に表示されないことに注意してください．

(whisperx_cpu) PS C:\Users\...\whisperx> hf auth login ⏎

    _|    _|  _|    _|    _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|
    _|    _|  _|    _|  _|        _|          _|    _|_|    _|  _|
    _|_|_|_|  _|    _|  _|  _|_|  _|  _|_|    _|    _|  _|  _|  _|  _|_|
    _|    _|  _|    _|  _|    _|  _|    _|    _|    _|    _|_|  _|    _|
    _|    _|    _|_|      _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|

    To log in, `huggingface_hub` requires a token generated from https://huggingface.co/settings/tokens .
Enter your token (input will not be visible): (ここにトークンをペーストする) ⏎
Add token as git credential? (Y/n) y

huggingface_hub にログインできたら次は話者分離を実行してみよう．

目次に戻る

« 戻る次へ »