Lucka 6: Hantera data i Notebooks

Notebooks har snabbt blivit ett ovärderligt verktyg för dataanalytiker, dataingenjörer och utvecklare världen över, och Microsoft Fabric tar tekniken till nya höjder. Genom att integrera notebooks i sin plattform erbjuder Fabric en flexibel, användarvänlig och kraftfull miljö för att utforska, transformera och analysera data.

Vad är en notebook?
En notebook är ett interaktivt verktyg som låter dig skriva och exekvera kod i små block, kallade celler. Det gör att du kan arbeta iterativt, testa kod och omedelbart se resultat, vilket är särskilt användbart för datadriven utveckling. I Fabric stöder notebooks flera programmeringsspråk, som Python, Scala, SQL, och R, vilket gör det enkelt att välja det språk som passar bäst för din uppgift.

Hur fungerar notebooks i Microsoft Fabric?
Notebooks i Microsoft Fabric är direkt integrerade i plattformens dataverktyg, vilket innebär att de kan interagera sömlöst med andra komponenter i Fabric-ekosystemet, som Pipelines, lakehouses, warehouses mm.

Här är några viktiga funktioner:

  1. Samarbetsverktyg: Flera användare kan arbeta på samma notebook i realtid, vilket underlättar samarbete i team.
  2. Integrerad exekvering: Notebooks körs i Microsofts Spark-motor, vilket ger tillgång till kraftfull parallellbearbetning för stora datamängder.
  3. Flexibilitet med flera språk: Du kan kombinera språk i samma notebook, t.ex. använda SQL för dataextraktion och Python för visualisering.
  4. Åtkomst till plattformens datalager: Notebooks kan direkt läsa och skriva till Fabric-lagringsytor, som OneLake, vilket eliminerar behovet av separata ETL-processer.
  5. Inbyggda visualiseringar: Skapa snabba visualiseringar för att analysera dina resultat direkt i notebooken.


Vad kan du göra med notebooks i Microsoft Fabric?
Här är några vanliga användningsområden:

  1. Datautforskning och analys
    Du kan ansluta till dina datakällor, undersöka datamönster och skapa visualiseringar för att bättre förstå din data.
  2. Läs data från API
    Notebooks passar mycket bra för att hämta data från komplexa API:r.
  3. Datatransformation
    Förbered och omvandla din data för analys eller maskininlärning genom att utnyttja Spark-motorn.
  4. Bygga maskininlärningsmodeller
    Träna och distribuera maskininlärningsmodeller direkt från din notebook genom att använda populära bibliotek som scikit-learn, TensorFlow eller PyTorch.
  5. Automatiserade pipelines
    Integrera notebooks i dataflöden för att automatisera komplexa dataprocesser.
  6. Dokumentation och presentation
    Använd markdown i notebooks för att dokumentera din kod och resultat, vilket gör det enkelt att dela insikter med kollegor och intressenter.


Kodexempel
Här nedan följer några första kodexempel i Python för att utföra grundläggande operationer.

Läs in data från en parquet till en dataframe och visa antalet rader:

df = spark.read.parquet("Files/customers.parquet")
print(df.count())

Spara en datafram till en parquet file:

df.write.mode("overwrite").parquet("Files/customers.parquet")

Läs in 1000 rader från en tabell och visa resultatet:

df = spark.sql("SELECT * FROM BC_2_Silver.customers LIMIT 1000")
display(df)

Spara en dataframe till en tabell:

df.write.format("delta").mode("overwrite").option("overwriteSchema","true").saveAsTable("customers")

I kommande inlägg ska vi köra en Python-skola riktad mot olika typer av transformeringar som man ofta gör i Microsoft Fabric.

Dela inlägget
LinkedIn