ComfyUI Flux Acceleratorは、ComfyUI用のカスタムノードです。 Flux.1をこのカスタムノードに通すだけで、画像生成を高速化できます。
ComfyUI Flux Acceleratorは以下の方法で画像生成を高速化します:
-
TAEF1の使用
TAEF1はデフォルトと比較してパラメータサイズが小さいAEです。わずかな品質低下と引き換えに、非常に短い時間で画像をエンコード・デコードできます。
-
量子化とコンパイル
torchao
とtorch.compile()
を利用して、AEをfloat8
/int8
に量子化するほか、モデルをコンパイルすることで動作を高速化します。 -
冗長なDiT Blocksのスキップ
ComfyUI Flux Acceleratorは、Flux.1内のTransformer Blockの評価を部分的にスキップするオプションを提供します。これにより、生成速度が直接的に向上します。
当ノードのオプションでスキップするBlockのインデックスを選択できます(デフォルトはMMDiT Blocksの3,12)。
ComfyUI Flux Acceleratorは、デフォルト設定よりも最大で 37.25% 高速に画像を生成できます。
以下にいくつかの例を示します(RTX 4090でテスト):
-
リポジトリをクローンして、ComfyUIの
custom_nodes
フォルダに配置するgit clone https://github.com/discus0434/comfyui-flux-accelerator.git mv comfyui-flux-accelerator custom_nodes/
-
PyTorchとxFormersをインストール
## Copied and modified https://github.com/facebookresearch/xformers/blob/main/README.md # cuda 11.8 version pip3 install -U torch torchvision torchao triton xformers --index-url https://download.pytorch.org/whl/cu118 # cuda 12.1 version pip3 install -U torch torchvision torchao triton xformers --index-url https://download.pytorch.org/whl/cu121 # cuda 12.4 version pip3 install -U torch torchvision torchao triton xformers --index-url https://download.pytorch.org/whl/cu124
-
TAEF1をダウンロード
以下のコマンドを使用してダウンロードします。
cd custom_nodes/comfyui-flux-accelerator chmod +x scripts/download_taef1.sh ./scripts/download_taef1.sh
-
ComfyUIを起動
起動コマンドは環境によって異なる場合があります。
a. H100、L40、またはそれ以上に新しいGPUの場合
python main.py --fast --highvram --disable-cuda-malloc
b. RTX 4090の場合
python main.py --fast --highvram
c. その他
python main.py
-
workflow
フォルダ内のワークフローをロードComfyUIの
Load
ボタンをクリックしてワークフローをロードできます。 -
Enjoy!
ワークフロー内で FluxAccelerator
ノードを使用し、MODEL
とVAE
を接続するだけです。
もしGPUのVRAMが24GB以下の場合、パラメータの変更時頻繁にOut Of Memoryエラーに遭遇するかもしれませんが、単に無視してもう一度実行し直せば動作します。
ComfyUI Flux Acceleratorには以下の制限があります:
-
品質
ComfyUI Flux Acceleratorは、TAEF1の使用や冗長なDiTレイヤーのスキップによって、わずかに 品質を犠牲にします。高品質な画像が必要な場合は、デフォルト設定の使用をお勧めします。
-
コンパイル時間
ComfyUI Flux Acceleratorは、ComfyUIの起動後、または生成解像度等の設定を変更した後の初回の画像生成時にモデルコンパイルを行いますが、その際に 30~60秒 の時間を要します。これは、モデルを最適化するために
torch.compile()
を使用するためです。 -
互換性
ComfyUI Flux Acceleratorは現在 Linux のみで動作します。Windowsの場合はWSL2やDockerを使用してください。 さらに、ControlNetやその他のカスタムノードとの互換性が保証されていません。
ComfyUI Flux AcceleratorはMITライセンスの下でライセンスされています。詳細はLICENSEをご覧ください。