Python入門トップページ


目次


WhisperX で音声認識と話者分離をしてみよう

Windows 編

Hugging Face トークンの取得

音声認識ができたので,話者分離を行います.これも無料かつローカルで実行できますが,モデル利用時に Hugging Face の認証トークンが必要で,同時に利用規約の同意も必要であることに注意してください.認証トークンが必要であることから,クラウドサービスのようにも感じられますが,音声データがクラウドに送信されることなくローカルで完結します.ここでは Hugging Face のトークンを取得して設定する方法を説明します.

パッケージのインストール(確認)

話者分離に必要なパッケージは huggingface_hubpyannote-audio です.すでに,whisperx のインストール時にこれらが同時にインストールされているはずです.次のコマンドでイントールされていることを確認してください.

pip list | Select-String huggingface_hub
pip list | Select-String pyannote-audio

もしインストールができていなければ次のコマンドでインストールできます.

pip install huggingface_hub
pip install pyannote-audio

アカウントとトークンの作成

続いて,Hugging Face アカウントを作成します.Hugging Face のトップページ (https://huggingface.co/) から「Sign up」を選び,ユーザ登録を行います.

ユーザ登録後にログインした状態で次の2つのページを開きます.「利用規約」を確認してそれぞれ「Accept」を押します.この作業がなければエラーになります.

  1. https://huggingface.co/pyannote/speaker-diarization-community-1
  2. https://huggingface.co/pyannote/segmentation

次のページから Access Token を作成します.

  1. https://huggingface.co/settings/tokens

「Create new token」から任意の名称でトークンを作成しますが,「Read access to contents of all public gated repos you can access」という設定項目を On にしておく必要があることに注意してください. トークンの作成ができたらトークン (hf_xxx...) をコピーしておきます.

トークンを利用したログイン

作成したトークン (hf_xxx...) を利用して,PowerShell から huggingface_hub にログインします.具体的には,hf auth login コマンドを実行し,トークンを入力(または貼り付け)します.ただし,トークンは画面に表示されないことに注意してください.

(whisperx_cpu) PS C:\Users\...\whisperx> hf auth login ⏎

    _|    _|  _|    _|    _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|
    _|    _|  _|    _|  _|        _|          _|    _|_|    _|  _|
    _|_|_|_|  _|    _|  _|  _|_|  _|  _|_|    _|    _|  _|  _|  _|  _|_|
    _|    _|  _|    _|  _|    _|  _|    _|    _|    _|    _|_|  _|    _|
    _|    _|    _|_|      _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|

    To log in, `huggingface_hub` requires a token generated from https://huggingface.co/settings/tokens .
Enter your token (input will not be visible): (ここにトークンをペーストする) ⏎
Add token as git credential? (Y/n) y

huggingface_hub にログインできたら次は話者分離を実行してみよう.

目次に戻る