Exportar a Fabric Lakehouse usando Fabric Notebooks
Descripción general
El uso de Data Factory en Microsoft Fabric con uso compartido de Delta permite una integración y un procesamiento perfectos de tablas Delta compartidas como parte de sus flujos de trabajo de análisis con Procore Analytics 2.0. Delta Sharing es un protocolo abierto para el intercambio seguro de datos, que permite la colaboración entre organizaciones sin duplicar datos.
Esta guía le guiará a través de los pasos para configurar y usar Data Factory en Fabric con Delta Sharing, utilizando Notebooks para procesar y exportar datos a un Lakehouse.
Requisitos previos
- SKU de Procore Analytics 2.0
- Credenciales de uso compartido de Delta:
- Acceso a las credenciales de uso compartido de Delta proporcionadas por un proveedor de datos.
- Un archivo de perfil de uso compartido (config.share) Contiene:
- URL del punto de conexión (URL del servidor de uso compartido delta).
- Token de acceso (token de portador para el acceso seguro a los datos).
- Cree el archivo config.yaml con credenciales específicas.
- Entorno de Microsoft Fabric:
- Una cuenta de inquilino de Microsoft Fabric con una suscripción activa.
- Un espacio de trabajo habilitado para Fabric.
- Paquetes y scripts:
- Descargue el paquete fabric-lakehouse. El directorio debe incluir:
- ds_to_lakehouse.py: Código del cuaderno.
- readme.md: Instrucciones.
- Descargue el paquete fabric-lakehouse. El directorio debe incluir:
Pasos
Configurar la configuración
- Cree el archivo config.yaml y defina la configuración en la siguiente estructura
source_config:
config_path: ruta/a/su/delta-compartir-credenciales-archivo.share
tablas: # Opcional - Dejar vacío para procesar todas las tablas
- table_name1
- table_name2
target_config:
lakehouse_path: ruta/a/tu/tela/lakehouse/Tablas/ # Ruta a la casa del lago de tela
Configura tu Lakehouse
- Abra el área de trabajo de Microsoft Fabric.
- Navegue hasta su Lakehouse y haga clic en Abrir bloc de notas y, a continuación, en Nuevo bloc de notas.
- Si no conoce el valor de config.yaml#lakehouse_path, Puedes copiarlo desde la pantalla.
- Haga clic en los puntos suspensivos en los archivos y seleccione Copiar ruta ABFS:
3. Copie el código de ds_to_lakehouse.py y péguelo en la ventana del cuaderno (Pyspark Python):
El siguiente paso es cargar sus propios config.yaml y config.share en la carpeta Resources de Lakehouse. Puede crear su propio directorio o usar un directorio integrado (ya creado para recursos por Lakehouse):
El siguiente ejemplo muestra un directorio interno estándar para un fichero config.yaml.
Nota: Asegúrese de cargar ambos archivos en el mismo nivel y para la propiedad config_path:
4. Verifique el código del cuaderno, líneas 170-175.
El siguiente ejemplo muestra los cambios de línea necesarios:
config_path = "./env/config.yaml"
Para
config_path = "./builtin/config.yaml"
Dado que los archivos están en una carpeta interna y no en un entorno personalizado, asegúrese de supervisar su propia estructura de archivos. Puede cargarlos en diferentes carpetas, pero en tales casos, actualice el código del bloc de notas para encontrar el archivo config.yaml correctamente.
5. Haga clic en Ejecutar celda:
Validación
- Una vez que se complete el trabajo, verifique que los datos se hayan copiado correctamente en su Lakehouse.
- Compruebe las tablas especificadas y asegúrese de que los datos coincidan con las tablas Delta compartidas.
- Espere hasta que finalice el trabajo, debe copiar todos los datos.