Saltar al contenido principal
Procore

Exportar a Fabric Lakehouse usando Fabric Notebooks

Descripción general

El uso de Data Factory en Microsoft Fabric con uso compartido de Delta permite una integración y un procesamiento perfectos de tablas Delta compartidas como parte de sus flujos de trabajo de análisis con Procore Analytics 2.0. Delta Sharing es un protocolo abierto para el intercambio seguro de datos, que permite la colaboración entre organizaciones sin duplicar datos.

Esta guía le guiará a través de los pasos para configurar y usar Data Factory en Fabric con Delta Sharing, utilizando Notebooks para procesar y exportar datos a un Lakehouse.

Requisitos previos

  • SKU de Procore Analytics 2.0
  • Credenciales de uso compartido de Delta:
    • Acceso a las credenciales de uso compartido de Delta proporcionadas por un proveedor de datos.
    • Un archivo de perfil de uso compartido (config.share) Contiene:
      • URL del punto de conexión (URL del servidor de uso compartido delta).
      • Token de acceso (token de portador para el acceso seguro a los datos).
  • Cree el archivo config.yaml con credenciales específicas.
  • Entorno de Microsoft Fabric:
    • Una cuenta de inquilino de Microsoft Fabric con una suscripción activa.
    • Un espacio de trabajo habilitado para Fabric.
  • Paquetes y scripts:
    • Descargue el paquete fabric-lakehouse. El directorio debe incluir:
      • ds_to_lakehouse.py: Código del cuaderno.
      • readme.md: Instrucciones.

Pasos

Configurar la configuración

  1. Cree el archivo config.yaml y defina la configuración en la siguiente estructura
    source_config:
        config_path: ruta/a/su/delta-compartir-credenciales-archivo.share
    tablas: # Opcional - Dejar vacío para procesar todas las tablas
        - table_name1
        - table_name2
    target_config:
        lakehouse_path: ruta/a/tu/tela/lakehouse/Tablas/ # Ruta a la casa del lago de tela

Configura tu Lakehouse

  1. Abra el área de trabajo de Microsoft Fabric.
  2. Navegue hasta su Lakehouse y haga clic en Abrir bloc de notas y, a continuación, en Nuevo bloc de notas.
  3. Si no conoce el valor de config.yaml#lakehouse_path, Puedes copiarlo desde la pantalla.
  4. Haga clic en los puntos suspensivos en los archivos y seleccione Copiar ruta ABFS:
    clipboard_e5dd266d8c6a622cceb30dd893a9106d7.png
    clipboard_e08827dbe6aeae6ac8f2bec7f5c758325.png
    clipboard_e390331535300f7f89fd0a91c9a3adebe.png

3. Copie el código de ds_to_lakehouse.py y péguelo en la ventana del cuaderno (Pyspark Python):

clipboard_e5b5d27813f9bebdfbe7dae73291cb3ae.png

El siguiente paso es cargar sus propios config.yaml y config.share en la carpeta Resources de Lakehouse. Puede crear su propio directorio o usar un directorio integrado (ya creado para recursos por Lakehouse):


clipboard_eb5765c4bbf3ac93bd7c51ba6373f8049.png
clipboard_e86d913b62d37d237524537676680e4f3.png

El siguiente ejemplo muestra un directorio interno estándar para un fichero config.yaml.
Nota: Asegúrese de cargar ambos archivos en el mismo nivel y para la propiedad config_path:

clipboard_e8ca378a5a0937b4b675d00adc2ec965f.png

4. Verifique el código del cuaderno, líneas 170-175.
El siguiente ejemplo muestra los cambios de línea necesarios:

config_path = "./env/config.yaml"

Para 

config_path = "./builtin/config.yaml"

Dado que los archivos están en una carpeta interna y no en un entorno personalizado, asegúrese de supervisar su propia estructura de archivos. Puede cargarlos en diferentes carpetas, pero en tales casos, actualice el código del bloc de notas para encontrar el archivo config.yaml correctamente.
 

clipboard_e44e5ad3be4a06929aba88716b0fdaa23.png

5. Haga clic en Ejecutar celda:


clipboard_e381c59ce2e4e9471efc0e9e4cc663b6d.png

Validación

  • Una vez que se complete el trabajo, verifique que los datos se hayan copiado correctamente en su Lakehouse.
  • Compruebe las tablas especificadas y asegúrese de que los datos coincidan con las tablas Delta compartidas.
  • Espere hasta que finalice el trabajo, debe copiar todos los datos.