Promovendus aan de Vrije Universiteit Amsterdam gebruikt Nexis® Data Lab voor economische inzichten

De uitdaging

De toegang tot relevante gegevens uitbreiden voor een natuurlijke taalverwerking en machine learning

Jakob wilde de verhoudingen tussen bedrijven in kaart brengen en ontwikkelde een algoritme om tekstanalyse op basis van relevante zoektermen te automatiseren en zo officiële aankondigingen op te sporen, evenals andere zaken die op een samenwerking tussen bedrijven duiden.

Eerst begon Jakob gegevens handmatig te verzamelen. Hij struinde het internet af naar aankondigingen over samenwerkingen, onderzoekssamenwerkingen, fusies en overnames. Hij kocht ook een gerichte, maar dure dataset met dergelijke aankondigingen en netwerken om zijn algoritme te testen en aan te passen. “Het door mij ontwikkelde algoritme voor automatische tekstverwerking maakt gebruik van zoektermen om aankondigingen van bedrijven over samenwerkingen op te sporen. Vervolgens deelt het samenwerkingen in verschillende categorieën in met behulp van een machine learning-model dat speciaal voor dit doel werd ontwikkeld.” Aldus Jakob.

Jakob merkte echter al gauw dat hij een tijd- en kostenefficiëntere bron van omvangrijke gegevens nodig had voor zijn project en een goede training van het algoritme.

De betàtest met Nexis Data Lab was voor Jakob een bevestiging dat hij de juiste keuze had gemaakt. “Nexis Data Lab biedt een unieke ervaring. Naast het verzamelen van nieuwsartikelen en publicaties van een breed scala aan bronnen, maakt Nexis Data Lab het eenvoudig om zoekopdrachten te verfijnen en analyses uit te voeren op basis van de resultaten. Ik ken geen andere plek waar ik toegang heb tot zoveel gegevens”, zegt Jakob.

Het gebruik van bronnen is onmisbaar voor Jakobs data science-project. Hij hanteert de principes van mediageletterdheid bij de interpretatie van verschillende bronnen, het bekijken van de uitgevers, het formaat, het beoogde publiek en het doel. Ook kan hij bepaalde bronnen selecteren of uitsluiten op basis van de relevantie voor zijn project.

Nog belangrijker: Jakob kan eenvoudig zoekopdrachten uitvoeren in 100K batches en de gegevens op zijn Jupyter-notebook zetten voor verdere analyse. Hij past LexisNexis-onderwerptermen toe op de analyse en draait basisvisualisaties om iedere stap in het proces te controleren.

De resultaten

Gemak en vermogen in één voor de beste data-analyse

Jakob beperkt zijn huidige datazoekopdrachten tot content van het afgelopen decennium. “Ik was vooral verbaasd over de grote hoeveelheid beschikbare gegevens. Toen ik investeerde in de database van R&D-samenwerkingen, leverde dat maar liefst 280.000 samenwerkingen op in de afgelopen 10-15 jaar. Een zoekopdracht via Nexis Data Lab leverde bijna 2 miljoen artikelen op, waarvan 90% op het eerste gezicht relevant leek”, vertelt Jakob. Verder merkt hij op dat de API die wordt gebruikt voor het laden van de gegevens “zeer intuïtief” is.

Hij is ook blij met het gemak waarmee hij analyses kan doen op zijn Jupyternotebook door middel van metadata om in resultaten te zoeken naar relevante data-subsets voor verdere analyse. Jakob kon code van een eerder onderzoek eenvoudig kopiëren en plakken naar de notebook en naar eigen inzicht extra wijzigingen aanbrengen. Op dit moment maakt hij nog geen gebruik van geografische tags die via SmartIndexing voor nog meer verrijking zorgen.
Jakob zegt dat hij hiervan gebruik had kunnen maken voor een proof of concept per land voordat hij de wereldwijde resultaten verzamelde.

Reproduceerbaarheid is van cruciaal belang in wetenschappelijke onderzoeken en Nexis Data Lab maakt dit eenvoudig. Jakob kan al zijn code overzichtelijk opslaan op zijn Jupyter-notebook en uiteindelijk zijn resultaten publiceren. Hoewel de publicatie van brongegevens onderhevig is aan auteursrechtrestricties, noteert Jakob de zoekopdrachttermen die hij op de notebook gebruikt, zodat iedereen die toegang heeft tot Nexis Data Lab de analyse kan reproduceren.

Jakob verwacht dat zijn project nog verder zal uitgroeien. Als hij het in kaart brengen van de onderlinge verhoudingen van bedrijven heeft afgerond, zullen anderen deze informatie bijvoorbeeld willen gebruiken om met andere gegevens te integreren om de economische prestaties te voorspellen of om investeringsanalyses op te baseren. Jakob geeft toe: “Er is veel animo voor het gebruik van deze gegevens. Het nieuwsarchief heeft enorm veel potentie voor
het analyseren van bedrijfsverhoudingen en productienetwerken.”

Omdat Nexis Data lab een cloud gebaseerde oplossingen is, was de implementatie ervan eenvoudig en kostenefficiënt. LexisNexis® host alle gegevens. De universiteit hoeft dus geen middelen beschikbaar te stellen voor een ondersteunende infrastructuur.

Klaar om te ontdekken wat Nexis Data Lab te bieden heeft?

Ben je naar aanleiding van dit verhaal benieuwd geworden naar de mogelijkheden van Nexis Data Lab voor het Hoger Onderwijs? Neem dan contact op via het formulier.

Neem contact met ons op

E-mail: support@lexisnexis.eu
Telephone number: +31 (0) 20 485 3456


By submitting this form, you agree to the LexisNexis Terms of Use

LexisNexis, a division of RELX Inc., may contact you in your professional capacity with information about our other products, services and events that we believe may be of interest. You can manage your communication preferences via our Preference Center. You can learn more about how we handle your personal data and your rights by reviewing our Privacy Policy.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.