音声認識ができたので,話者分離を行います.これも無料かつローカルで実行できますが,モデル利用時に Hugging Face の認証トークンが必要で,同時に利用規約の同意も必要であることに注意してください.認証トークンが必要であることから,クラウドサービスのようにも感じられますが,音声データがクラウドに送信されることなくローカルで完結します.ここでは Hugging Face のトークンを取得して設定する方法を説明します.
話者分離に必要なパッケージは huggingface_hub と pyannote-audio です.すでに,whisperx のインストール時にこれらが同時にインストールされているはずです.次のコマンドでイントールされていることを確認してください.
pip list | Select-String huggingface_hub pip list | Select-String pyannote-audio
もしインストールができていなければ次のコマンドでインストールできます.
pip install huggingface_hub pip install pyannote-audio
続いて,Hugging Face アカウントを作成します.Hugging Face のトップページ (https://huggingface.co/) から「Sign up」を選び,ユーザ登録を行います.
ユーザ登録後にログインした状態で次の2つのページを開きます.「利用規約」を確認してそれぞれ「Accept」を押します.この作業がなければエラーになります.
次のページから Access Token を作成します.
「Create new token」から任意の名称でトークンを作成しますが,「Read access to contents of all public gated repos you can access」という設定項目を On にしておく必要があることに注意してください.
トークンの作成ができたらトークン (hf_xxx...) をコピーしておきます.
作成したトークン (hf_xxx...) を利用して,PowerShell から huggingface_hub にログインします.具体的には,hf auth login コマンドを実行し,トークンを入力(または貼り付け)します.ただし,トークンは画面に表示されないことに注意してください.
(whisperx_cpu) PS C:\Users\...\whisperx> hf auth login ⏎ _| _| _| _| _|_|_| _|_|_| _|_|_| _| _| _|_|_| _| _| _| _| _| _| _| _|_| _| _| _|_|_|_| _| _| _| _|_| _| _|_| _| _| _| _| _| _|_| _| _| _| _| _| _| _| _| _| _| _|_| _| _| _| _| _|_| _|_|_| _|_|_| _|_|_| _| _| _|_|_| To log in, `huggingface_hub` requires a token generated from https://huggingface.co/settings/tokens . Enter your token (input will not be visible): (ここにトークンをペーストする) ⏎ Add token as git credential? (Y/n) y
huggingface_hub にログインできたら次は話者分離を実行してみよう.