banner

Новости

Jul 30, 2023

Оценка переносимости вычислимых фенотипов с обработкой естественного языка в сети eMERGE

Научные отчеты, том 13, Номер статьи: 1971 (2023) Цитировать эту статью

1055 доступов

6 Альтметрика

Подробности о метриках

Сеть электронных медицинских записей и геномики (eMERGE) оценила возможность развертывания портативных алгоритмов на основе фенотипических правил с добавлением компонентов обработки естественного языка (NLP) для повышения производительности существующих алгоритмов с использованием электронных медицинских записей (EHR). Основываясь на научных достоинствах и прогнозируемой сложности, eMERGE выбрал шесть существующих фенотипов для улучшения с помощью НЛП. Мы оценивали производительность, портативность и простоту использования. Мы обобщили уроки, извлеченные из: (1) проблем; (2) передовой опыт решения проблем на основе существующих данных и/или опыта eMERGE; и (3) возможности для будущих исследований. Добавление NLP привело к улучшенной или одинаковой точности и/или полноте для всех алгоритмов, кроме одного. Основными темами были портативность, рабочий процесс/процесс фенотипирования и технологии. В НЛП разработка и проверка заняли больше времени. Помимо переносимости технологии НЛП и тиражируемости алгоритмов, факторы, гарантирующие успех, включают защиту конфиденциальности, настройку технической инфраструктуры, соглашение об интеллектуальной собственности и эффективную коммуникацию. Улучшения рабочего процесса могут улучшить взаимодействие и сократить время внедрения. Эффективность НЛП варьировалась в основном из-за неоднородности клинических документов; поэтому мы предлагаем использовать полуструктурированные заметки, полную документацию и возможности настройки. Переносимость NLP возможна благодаря улучшенной производительности алгоритмов фенотипов, но тщательное планирование и архитектура алгоритмов необходимы для поддержки локальной настройки.

Точное извлечение полной и подробной фенотипической информации из крупномасштабных данных электронных медицинских карт (ЭМК) повышает эффективность и точность исследований точной медицины. Однако одних только структурированных данных часто недостаточно для полной идентификации или описания многих условий, особенно когда за атрибут обычно не выставляется счет или требуется тонкая интерпретация1,2,3,4. Обработка естественного языка (НЛП) и машинное обучение (МО) обещают обеспечить глубокое фенотипирование с использованием детальных данных ЭМК5,6,7,8.

Оба сложных конвейера НЛП, такие как MedLEE9, CLAMP10, cTAKES11 и MetaMap12,13; и более простые подходы, основанные на правилах, сочетающие регулярные выражения (RegEx) и логику; все чаще используются для глубокого фенотипирования14. Однако добиться широкой обобщения и переносимости фенотипических алгоритмов сложно, учитывая разрозненные системы ЭМК и разнородные подходы к документации, используемые врачами15. Например, Зон и др. сообщили, как различия в клинической документации, связанной с астмой, между двумя когортами влияют на переносимость системы НЛП16. Кроме того, типы и структуры документов различаются в разных ЭМК, и на некоторых сайтах содержится больше неструктурированных данных, чем на других. Сокращения, терминология и другое использование языка также различаются в зависимости от сайта, врача и времени. Например, Адекканатту и др. сообщили о различиях в производительности системы из-за неоднородности местных текстовых форматов и лексических терминов, используемых для документирования различных концепций, в трех разных учреждениях, оценивающих переносимость специализированной системы извлечения эхокардиографической информации17.

Сообщество биомедицинского НЛП разработало ряд подходов для решения этих проблем, включая измерение семантического сходства текста, развертывание ансамблевых систем НЛП, использование комплексных словарей терминов и преобразование текста в стандарты данных, такие как Fast Health Interoperability Resources (FHIR) и Общая модель данных (CDM) Партнерства по наблюдению за медицинскими результатами (OMOP)18. В частности, Лю и др.19 продемонстрировали, что ансамбли систем НЛП могут улучшить переносимость как за счет распознавания общих фенотипических концепций, так и за счет идентификации фенотипических концепций, специфичных для пациента, по сравнению с отдельными системами. Более того, Цзян и др. использовали стандарт FHIR для разработки масштабируемого конвейера нормализации данных, который объединяет как структурированные, так и неструктурированные клинические данные для фенотипирования20. Наконец, Шарма и др. разработал портативную систему НЛП, извлекая концепции фенотипов, нормализуя их с помощью Единой системы медицинского языка (UMLS) и сопоставляя их с OMOP CDM21.

 2 h to run", in response to which the site extracted the Python code and deployed directly to the server with augmented memory and disk space. Filtering of notes was a prevalent performance related theme. Some NLP algorithms as deployed would process all clinical notes, which at some sites was not feasible because of the very large numbers of notes at those sites, which at least at 1 site, were over 1 million notes, even after filtering. To address this, sites applied filters either by pre-selecting patients for whom to process notes or narrowing down to the appropriate clinical note types to process. Pre-selection/filtering of patients was very broad, such as selecting all patients whom had any diagnosis code for, or related to, the given phenotype./p>

ДЕЛИТЬСЯ