audio-decoder/audio_decoder.py


								import soundfile as sf

								import numpy as np

								from typing import Generator, NamedTuple


								import av


								from towhee.operator.base import Operator

								from torch_vggish import TorchVggish


								# from torch_vggish import TorchVggish


								AudioOutput = NamedTuple("Outputs", [("audio_frame", 'ndarray'), ('sample_rate', 'int'), ("TIMESTAMP", 'int')])


								class AudioDecoder(Operator):

								    """

								    """


								    def __init__(self) -> None:

								        super().__init__()


								    def __call__(self, audio_path: str):

								        in_container = av.open(audio_path)

								        stream = in_container.streams.get(audio=0)[0]

								        for frame in in_container.decode(stream):

								            timestamp = int(frame.time * 1000)

								            sample_rate = frame.sample_rate

								            ndarray = frame.to_ndarray()

								            yield AudioOutput(ndarray, sample_rate, timestamp)