Onderlinge relaties van bedrijven in kaart brengen

Toen hij besloot om te gaan promoveren op het gebied van economie, wist Jakob Rauch dat zijn achtergrond in data science van pas zou komen om de verhoudingen tussen bedrijven in kaart te brengen. Hij verzamelde die gegevens voor verdere analyse van economische netwerken. Als student aan de Vrije Universiteit (VU) Amsterdam had Jakob al kennis gemaakt met de waarde van Nexis Uni® voor academisch onderzoek. “Van alle beschikbare bronnen in de bibliotheek van de VU Amsterdam leek de Nexis Uni-informatie (internationaal nieuws, nieuwsnetwerken en vakbladen waarin samenwerkingen meestal worden aangekondigd) het meest geschikt voor mijn nieuwe project”, vertelt Jakob.

Toen ontdekte hij het nieuwe Nexis® Data Lab.

De uitdaging

De toegang tot relevante gegevens uitbreiden voor een natuurlijke taalverwerking en machine learning

Jakob wilde de verhoudingen tussen bedrijven in kaart brengen en ontwikkelde een algoritme om tekstanalyse op basis van relevante zoektermen te automatiseren en zo officiële aankondigingen op te sporen, evenals andere zaken die op een samenwerking tussen bedrijven duiden.

Eerst begon Jakob gegevens handmatig te verzamelen. Hij struinde het internet af naar aankondigingen over samenwerkingen, onderzoekssamenwerkingen, fusies en overnames. Hij kocht ook een gerichte, maar dure dataset met dergelijke aankondigingen en netwerken om zijn algoritme te testen en aan te passen. “Het door mij ontwikkelde algoritme voor automatische tekstverwerking maakt gebruik van zoektermen om aankondigingen van bedrijven over samenwerkingen op te sporen. Vervolgens deelt het samenwerkingen in verschillende categorieën in met behulp van een machine learning-model dat speciaal voor dit doel werd ontwikkeld.” Aldus Jakob.

Jakob merkte echter al gauw dat hij een tijd- en kostenefficiëntere bron van omvangrijke gegevens nodig had voor zijn project en een goede training van het algoritme.

De oplossing

Nexis Data Lab

Omdat hij al bekend was met Nexis Uni, wist Jakob dat de brondiversiteit precies was wat hij nodig had. Hij besefte ook dat de onderwerptags en andere metadata die op de gegevens worden toegepast, uitkomst bieden voor zijn eigen zoekbehoeften. LexisNexis® SmartIndexing Technology™ classificeert en labelt namelijk alle content die wordt toegevoegd aan onze gegevens, inclusief tags die te maken hebben met strategische samenwerkingen. Door de downloadlimieten en artikelformaten in Nexis Uni was het echter niet optimaal geschikt voor een big data-project.

De betàtest met Nexis Data Lab was voor Jakob een bevestiging dat hij de juiste keuze had gemaakt. “Nexis Data Lab biedt een unieke ervaring. Naast het verzamelen van nieuwsartikelen en publicaties van een breed scala aan bronnen, maakt Nexis Data Lab het eenvoudig om zoekopdrachten te verfijnen en analyses uit te voeren op basis van de resultaten. Ik ken geen andere plek waar ik toegang heb tot zoveel gegevens”, zegt Jakob.

Het gebruik van bronnen is onmisbaar voor Jakobs data science-project. Hij hanteert de principes van mediageletterdheid bij de interpretatie van verschillende bronnen, het bekijken van de uitgevers, het formaat, het beoogde publiek en het doel. Ook kan hij bepaalde bronnen selecteren of uitsluiten op basis van de relevantie voor zijn project.

Nog belangrijker: Jakob kan eenvoudig zoekopdrachten uitvoeren in 100K batches en de gegevens op zijn Jupyter-notebook zetten voor verdere analyse. Hij past LexisNexis-onderwerptermen toe op de analyse en draait basisvisualisaties om iedere stap in het proces te controleren.

De resultaten

Gemak en vermogen in één voor de beste data-analyse

Jakob beperkt zijn huidige datazoekopdrachten tot content van het afgelopen decennium. “Ik was vooral verbaasd over de grote hoeveelheid beschikbare gegevens. Toen ik investeerde in de database van R&D-samenwerkingen, leverde dat maar liefst 280.000 samenwerkingen op in de afgelopen 10-15 jaar. Een zoekopdracht via Nexis Data Lab leverde bijna 2 miljoen artikelen op, waarvan 90% op het eerste gezicht relevant leek”, vertelt Jakob. Verder merkt hij op dat de API die wordt gebruikt voor het laden van de gegevens “zeer intuïtief” is.

Hij is ook blij met het gemak waarmee hij analyses kan doen op zijn Jupyternotebook door middel van metadata om in resultaten te zoeken naar relevante data-subsets voor verdere analyse. Jakob kon code van een eerder onderzoek eenvoudig kopiëren en plakken naar de notebook en naar eigen inzicht extra wijzigingen aanbrengen. Op dit moment maakt hij nog geen gebruik van geografische tags die via SmartIndexing voor nog meer verrijking zorgen.
Jakob zegt dat hij hiervan gebruik had kunnen maken voor een proof of concept per land voordat hij de wereldwijde resultaten verzamelde.

Reproduceerbaarheid is van cruciaal belang in wetenschappelijke onderzoeken en Nexis Data Lab maakt dit eenvoudig. Jakob kan al zijn code overzichtelijk opslaan op zijn Jupyter-notebook en uiteindelijk zijn resultaten publiceren. Hoewel de publicatie van brongegevens onderhevig is aan auteursrechtrestricties, noteert Jakob de zoekopdrachttermen die hij op de notebook gebruikt, zodat iedereen die toegang heeft tot Nexis Data Lab de analyse kan reproduceren.

Jakob verwacht dat zijn project nog verder zal uitgroeien. Als hij het in kaart brengen van de onderlinge verhoudingen van bedrijven heeft afgerond, zullen anderen deze informatie bijvoorbeeld willen gebruiken om met andere gegevens te integreren om de economische prestaties te voorspellen of om investeringsanalyses op te baseren. Jakob geeft toe: “Er is veel animo voor het gebruik van deze gegevens. Het nieuwsarchief heeft enorm veel potentie voor
het analyseren van bedrijfsverhoudingen en productienetwerken.”

Omdat Nexis Data lab een cloud gebaseerde oplossingen is, was de implementatie ervan eenvoudig en kostenefficiënt. LexisNexis® host alle gegevens. De universiteit hoeft dus geen middelen beschikbaar te stellen voor een ondersteunende infrastructuur.

Klaar om te ontdekken wat Nexis Data Lab te bieden heeft?

Ben je naar aanleiding van dit verhaal benieuwd geworden naar de mogelijkheden van Nexis Data Lab voor het Hoger Onderwijs? Neem dan contact op via het formulier.

Neem contact met ons op
Telefoonnummer: +31 (0) 20 485 3456
Meer weten over LexisNexis?
  • Wilt u persoonlijk advies? Vul dan het contactformulier in!
  • Schrijf u in voor onze nieuwsbrief
  • Volg ons op Facebook, LinkedIn of Twitter
  • Ga naar Kennisbank voor interessante artikelen, whitepapers en blogs