text-loader/loader.py

from towhee.operator import PyOperator
from typing import List, Optional


class TextLoader(PyOperator):
    '''Load data from url or file (paths or file-like objects).'''
    def __init__(self, **kwargs) -> None:
        super().__init__()
        self.unstructured_kwargs = kwargs
    
    def __call__(self, data_src) -> List[str]:
        if data_src.startswith('http'):
            docs= self._from_url(data_src)
        else:
            docs = self._from_file(data_src)
        return docs

    def _from_file(self, file, encoding: Optional[str] = None) -> str:
        '''Load documents from path or file-like object, return a list of unsplit Langchain Documents'''
        if hasattr(file, 'name'):
            file_path = file.name
        else:
            file_path = file
        from langchain.document_loaders import UnstructuredFileLoader
        loader = UnstructuredFileLoader(file_path, mode='single', strategy='fast')
        data = loader.load()
        if len(data) > 0:
            doc = data[0]
            return doc.page_content
        else:
            raise RuntimeError(f'Failed to load data from {file}. Invalid output: {data}')
    
    def _from_url(self, url: str) -> str:
        from langchain.document_loaders import UnstructuredURLLoader

        loader = UnstructuredURLLoader(urls=[url])
        data = loader.load()
        if len(data) > 0:
            doc = data[0]
            return doc.page_content
        else:
            raise RuntimeError(f'Failed to load data from {url}. Invalid output: {data}')
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`from towhee.operator import PyOperator`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`from typing import List, Optional`

Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago
			`class TextLoader(PyOperator):`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`'''Load data from url or file (paths or file-like objects).'''`
Support more file reader Signed-off-by: Jael Gu <mengjia.gu@zilliz.com> 2 years ago			`def __init__(self, **kwargs) -> None:`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`super().__init__()`
Support more file reader Signed-off-by: Jael Gu <mengjia.gu@zilliz.com> 2 years ago			`self.unstructured_kwargs = kwargs`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`def __call__(self, data_src) -> List[str]:`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`if data_src.startswith('http'):`
			`docs= self._from_url(data_src)`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`else:`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`docs = self._from_file(data_src)`
			`return docs`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`def _from_file(self, file, encoding: Optional[str] = None) -> str:`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`'''Load documents from path or file-like object, return a list of unsplit Langchain Documents'''`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`if hasattr(file, 'name'):`
			`file_path = file.name`
			`else:`
			`file_path = file`
Support more file reader Signed-off-by: Jael Gu <mengjia.gu@zilliz.com> 2 years ago			`from langchain.document_loaders import UnstructuredFileLoader`
			`loader = UnstructuredFileLoader(file_path, mode='single', strategy='fast')`
Debug failed loads Signed-off-by: Jael Gu <mengjia.gu@zilliz.com> 2 years ago			`data = loader.load()`
			`if len(data) > 0:`
			`doc = data[0]`
			`return doc.page_content`
			`else:`
			`raise RuntimeError(f'Failed to load data from {file}. Invalid output: {data}')`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`def _from_url(self, url: str) -> str:`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`from langchain.document_loaders import UnstructuredURLLoader`
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago
Update loader Signed-off-by: shiyu22 <shiyu.chen@zilliz.com> 2 years ago			`loader = UnstructuredURLLoader(urls=[url])`
Debug failed loads Signed-off-by: Jael Gu <mengjia.gu@zilliz.com> 2 years ago			`data = loader.load()`
			`if len(data) > 0:`
			`doc = data[0]`
			`return doc.page_content`
			`else:`
			`raise RuntimeError(f'Failed to load data from {url}. Invalid output: {data}')`