NeMo-Curator생성형 AI를 만들기 위해 필요한 초-대용량 데이터 셋을 구축하기 위한 큐레이션 도구이다. 텍스트와 이미지, 동영상 등 여러 형태의 큐레이션을 지원한다. Dask 라이브러리와 RAPIDS를 사용하여 처리 속도를 향상시켰다.Dask병렬/분산 컴퓨팅을 위한 라이브러리이다. from dask.distributed import LocalCluster cluster = LocalCluster( processes=False, ) client = cluster.get_client() # Use Dask locally import dask.dataframe as dd df = dd.read_parquet("/path/to/data.parquet") df.valu..