Sources de données volumineuses en médecine

Une définition simple des mégadonnées en médecine est «la totalité des données relatives aux soins de santé et au bien-être des patients» (Raghupathi, 2014). Mais quels sont exactement ces types de données et d'où viennent-elles?
Vous trouverez ci-dessous un aperçu général des types et des sources de données volumineuses présentant un intérêt pour les prestataires de soins de santé, les chercheurs, les payeurs, les décideurs et l’industrie. Ces catégories ne sont pas mutuellement exclusives, car les mêmes données peuvent provenir de diverses sources..
Cette liste n’est pas non plus exhaustive, car l’application pratique de l’analyse des données volumineuses continuera certainement de s’étendre..

Systèmes d'information clinique

Ce sont des sources traditionnelles de données cliniques que les fournisseurs de soins de santé sont habitués à consulter..

Les dossiers de santé électroniques (DSE) recueillent, stockent et affichent des informations telles que des données démographiques, des antécédents médicaux, des problèmes médicaux actifs, des vaccinations, des allergies, des médicaments, des signes vitaux, des résultats de tests de laboratoire et de radiologie, des rapports de pathologie et des notes de progrès créées par les soins de santé. fournisseurs, documents administratifs et financiers
Les dossiers médicaux électroniques (DME) ne sont pas identiques aux DSE et concernent généralement les données stockées chez un médecin particulier..
Les échanges d'informations sur la santé servent de centres entre des systèmes d'informations cliniques disparates
Les registres de patients, gérés par les organisations de soins de santé sur leurs propres patients, sont souvent liés au DSE. D'autres registres suivent les vaccinations, le cancer, les traumatismes et d'autres problèmes de santé publique sur une plus grande échelle géographique.

Les portails patients permettent aux patients d'accéder aux informations personnelles sur la santé stockées dans le DSE d'un organisme de santé. Certains portails de patients permettent également aux utilisateurs de demander le renouvellement de leurs ordonnances et d'échanger des messages électroniques sécurisés avec l'équipe de soins de santé..
Les entrepôts de données cliniques agrègent les données au niveau du patient provenant de plusieurs systèmes d'information clinique, tels que les DSE et les autres sources énumérées ci-dessus.

Données de réclamations des payeurs

Les payeurs publics (par exemple, Medicare) et les payeurs privés possèdent de vastes répertoires de données de réclamations concernant leurs bénéficiaires. Certaines compagnies d’assurance maladie offrent également des incitations au partage de vos données de santé..

Études de recherche

Les bases de données de recherche contiennent des informations sur les participants à l'étude, les traitements expérimentaux et les résultats cliniques. Les grandes études sont généralement parrainées par des sociétés pharmaceutiques ou des agences gouvernementales. Une application de la médecine personnalisée consiste à apparier des patients individuels avec des traitements efficaces, basés sur les tendances des données des essais cliniques.
Cette approche va au-delà de l’application des principes de médecine factuelle, selon lesquels un prestataire de soins de santé détermine si un patient partage les caractéristiques générales (par exemple, l’âge, le sexe, la race, le statut clinique) avec les participants à l’essai. Grâce à l'analyse Big Data, il est possible de sélectionner un traitement en fonction d'informations beaucoup plus détaillées, telles que le profil génétique du cancer d'un patient (voir ci-dessous)..
Les systèmes d'aide à la décision clinique (CDSS) se sont également développés rapidement et représentent désormais une part importante de l'intelligence artificielle (IA) en médecine. Ils utilisent les données des patients pour aider les cliniciens à prendre leurs décisions et sont souvent associés à des DSE..

Bases de données génétiques

Le référentiel d'informations génétiques humaines continue de s'accumuler à un rythme rapide. Depuis l'achèvement du projet du génome humain en 2003, le coût du séquençage de l'ADN humain a été réduit d'un million de fois. Le projet du génome personnel (PGP), lancé en 2005 par la faculté de médecine de Harvard, vise à séquencer et à faire connaître le génome complet de 100 000 volontaires du monde entier. Le PGP lui-même est un excellent exemple de projet Big Data en raison du volume et de la variété des données. Un génome personnel contient environ 100 gigaoctets de données. En plus du séquençage des génomes, le PGP recueille également des données à partir de DSE, d'enquêtes et de profils de microbiome..
Un certain nombre d'entreprises offrent un séquençage génétique directement au consommateur pour la santé, les traits personnels et la pharmacogénétique sur une base commerciale.
Ces informations personnelles pourraient être soumises à l'analyse de données volumineuses. Par exemple, 23andMe a cessé de proposer des rapports génétiques relatifs à la santé à de nouveaux clients à compter du 22 novembre 2013, afin de se conformer à la US Food and Drug Administration. Cependant, en 2015, la société a commencé à proposer à nouveau certains composants santé de son test de salive génétique, cette fois avec l'approbation de la FDA..

Dossiers Publics

Le gouvernement tient des registres détaillés des événements liés à la santé, tels que l'immigration, le mariage, la naissance et le décès. Le recensement des États-Unis a permis de collecter de grandes quantités d'informations tous les 10 ans depuis 1790. Le site Web des statistiques du recensement comptait 370 milliards de cellules en 2013, avec environ 11 milliards supplémentaires par an.

Recherches Web

Les informations de recherche Web recueillies par Google et d'autres fournisseurs de recherche Web pourraient fournir des informations en temps réel sur la santé d'une population. Cependant, la valeur des mégadonnées issues des modèles de recherche Web pourrait être améliorée en la combinant avec des sources traditionnelles de données de santé..

Des médias sociaux

Facebook, Twitter et d'autres plates-formes de médias sociaux génèrent une grande variété de données 24 heures sur 24, donnant un aperçu des emplacements, des comportements de santé, des émotions et des interactions sociales des utilisateurs. L'application du big data par les médias sociaux à la santé publique a été qualifiée de détection numérique de maladie ou d'épidémiologie numérique. Twitter, par exemple, a été utilisé pour analyser les épidémies de grippe dans la population en général.
Le World Well-Being Project qui a débuté à l'Université de Pennsylvanie est un autre exemple d'étude des médias sociaux pour mieux comprendre l'expérience et la santé des personnes. Le projet réunit des psychologues, des statisticiens et des informaticiens qui analysent le langage utilisé lors des interactions en ligne, par exemple lors de la rédaction de mises à jour de statut sur Facebook et Twitter. Les scientifiques observent comment le langage des utilisateurs est lié à leur santé et à leur bonheur. Les progrès en matière de traitement du langage naturel et d’apprentissage automatique les aident dans leurs efforts. Une récente publication de l'Université de Pennsylvanie s'est penchée sur les moyens de prédire la maladie mentale en analysant les médias sociaux. Il semble que les symptômes de la dépression et d’autres problèmes de santé mentale puissent être détectés en étudiant notre utilisation d’Internet. Les scientifiques espèrent que ces méthodes permettront à l'avenir de mieux identifier et d'aider les personnes à risque.

L'Internet des objets (IoT)

Des gisements massifs d'informations relatives à la santé sont également collectés et stockés sur des appareils mobiles et domestiques.

Smartphones: des milliers d'applications mHealth capturent des informations sur l'activité physique, l'apport nutritionnel, les habitudes de sommeil, les émotions et d'autres paramètres de l'utilisateur. Les applications de téléphone portable natives (GPS, e-mail, SMS, etc.) peuvent également donner des indices sur l'état de santé d'un individu..
Moniteurs et appareils portables: podomètres, accéléromètres, lunettes, montres et puces intégrées sous la peau recueillent également des informations relatives à la santé et peuvent également les envoyer dans le cloud..
Les dispositifs de télémédecine permettent aux fournisseurs de soins de santé de surveiller les paramètres des patients tels que la pression artérielle, la fréquence cardiaque, la fréquence respiratoire, l’oxygénation, la température, les tracés ECG et le poids.

Transactions financières

Les transactions par carte de crédit des patients sont incluses dans les modèles prédictifs utilisés par le système Carolinas HealthCare pour identifier les patients présentant un risque élevé de réadmission à l'hôpital. Le fournisseur de soins de santé basé à Charlotte utilise le Big Data pour répartir les patients en différents groupes, par exemple, en fonction de la maladie et de la localisation géographique..

Implications éthiques et de la vie privée

Il convient de souligner que, dans certains cas, la collecte et l’accès aux données dans le cadre des soins de santé peuvent avoir des incidences importantes sur l’éthique et la vie privée. Les nouvelles sources de données volumineuses peuvent améliorer notre compréhension de ce qui affecte la santé des individus et de la population. Cependant, différents risques doivent être soigneusement pris en compte et surveillés. Il est maintenant également reconnu que les données précédemment considérées comme anonymes peuvent être ré-identifiées. Par exemple, le professeur Latanya Sweeney du Data Privacy Lab de Harvard a examiné 1 130 volontaires participant au projet du génome personnel. Elle et son équipe ont pu nommer correctement 42% des participants en fonction des informations partagées (code postal, date de naissance, sexe). Cette connaissance peut augmenter notre conscience des risques potentiels et nous aider à prendre de meilleures décisions de partage de données.