Data Science in Microsoft Fabric

Microsoft Fabric is een platform dat Data Science-ervaringen biedt waarmee gebruikers end-to-end data science-workflows kunnen voltooien voor dataverrijking en bedrijfsinzichten. Het platform ondersteunt een breed scala aan activiteiten binnen het gehele datawetenschapsproces, van dataverkenning, -voorbereiding en -opschoning tot experimenteren, modelleren, modelscoren en het leveren van voorspellende inzichten.

Het typische data science-proces in Microsoft Fabric omvat de volgende stappen:

  • Probleemformulering en ideeënvorming: Data Science-gebruikers in Microsoft Fabric werken op hetzelfde platform als zakelijke gebruikers en analisten, waardoor het delen van gegevens en de samenwerking tussen verschillende rollen naadloos verloopt.
  • Ontdekken en voorbewerken van data: Gebruikers kunnen gegevens in OneLake interacteren met behulp van het Lakehouse-item. Er zijn ook tools beschikbaar voor data ingestion en data orchestration pipelines.
  • Experimenteren en ML-modellering: Microsoft Fabric biedt mogelijkheden om machine learning modellen te trainen met behulp van populaire bibliotheken zoals PySpark (Python), SparklyR (R) en Scikit Learn. Het biedt ook een ingebouwde MLflow-ervaring voor het volgen van experimenten en modellen.
  • Verrijken en operationaliseren: Notebooks kunnen omgaan met machine learning model batch scoring met open-source bibliotheken voor voorspelling, of de Microsoft Fabric schaalbare universele Spark Predict functie.
  • Inzichten verkrijgen: Voorspelde waarden kunnen eenvoudig worden weggeschreven naar OneLake en naadloos worden geconsumeerd vanuit Power BI-rapporten.

Business case

De financiële afdeling van je organisatie maakt al gebruik van Power BI binnen Fabric om hun gegevens te visualiseren. Nu willen ze machine learning gebruiken om een cashflow forecast te genereren. De gegevens staan al in een Lakehouse in OneLake en hoeven dus niet verplaatst of gekopieerd te worden. Ze kunnen direct worden gebruikt in Synapse Data Science om de gegevens voor te bewerken en verkennende gegevensanalyses uit te voeren met behulp van notebooks. Vervolgens kan het experimenteren met modellen beginnen in de notebooks, waarbij belangrijke meetgegevens worden bijgehouden met behulp van de ingebouwde MLflow-mogelijkheden. Nadat er een model is gevonden dat goed presteert, kan er een cashflowprognose worden gegenereerd en teruggeschreven naar het Lakehouse, klaar om gevisualiseerd te worden in Power BI. De notebooks kunnen vervolgens worden ingepland om automatisch een maandelijkse cashflowprognose te genereren.

Synapse Real-Time Analytics in Fabric

Microsoft Fabric kan ook dienen als een krachtig hulpmiddel voor real-time gegevensanalyse, met een geoptimaliseerd platform op maat voor streaming en tijdreeksgegevensanalyse. Het is grondig ontworpen om data-integratie te stroomlijnen en snelle toegang tot waardevolle data-inzichten mogelijk te maken. Dit wordt bereikt door automatische datastreaming, indexering en data partitioning, die allemaal toepasbaar zijn op verschillende databronnen en -formaten. Dit platform is bijzonder geschikt voor organisaties die hun analyseoplossingen naar een grotere schaal willen tillen en tegelijkertijd gegevens toegankelijk willen maken voor een divers spectrum van gebruikers. Deze gebruikers variëren van citizen data scientists tot geavanceerde data-engineers, waardoor een gedemocratiseerde aanpak van datagebruik wordt bevorderd.

De belangrijkste kenmerken van Real-Time Analytics zijn:

  • Vastleggen, transformeren en routeren van real-time gebeurtenissen naar verschillende bestemmingen, waaronder aangepaste apps.
  • Inlezen of laden van data uit elke bron, in elk dataformaat.
  • Voer analytische query’s direct uit op ruwe data zonder complexe datamodellen te hoeven bouwen of scripts te hoeven maken om de data te transformeren.
  • Importeer data met standaard streaming die zorgt voor data-analyse met hoge prestaties, lage latency en hoge versheid.
  • Werken met veelzijdige datastructuren, waaronder query gestructureerde, semi-gestructureerde of vrije tekst.
  • Schaal tot een onbeperkte hoeveelheid gegevens, van gigabytes tot petabytes, met onbeperkte schaal op gelijktijdige queries en gelijktijdige gebruikers.
  • Integreer naadloos met andere ervaringen en items in Microsoft Fabric.

Meer weten over Microsoft Fabric?

Wil je meer weten over Microsoft Fabric as a service? Op 26 oktober organiseren we een Fabric Masterclass die diep ingaat op verschillende Fabric use cases voor Data Science, Data Engineering en Data Visualisatie.

Meer weten over Microsoft Fabric?

Microsoft Fabric

  • Software as a Service (SaaS)
  • OneLake
  • Copilot
Lees meer

Data Engineering in Microsoft Fabric

In Microsoft Fabric speelt data-engineering een centrale rol om gebruikers in staat te stellen infrastructuren te ontwerpen, te bouwen en te onderhouden die een naadloze verzameling, opslag, verwerking en analyse van gegevens voor hun organisaties mogelijk maken.

Lees meer

Data Visualisatie in Microsoft Fabric

Door naadloos te integreren met Power BI zorgt Microsoft Fabric voor een revolutie in de manier waarop u met analyses werkt.

Lees meer
Alle blogs