Thúc Đẩy Lợi Ích Sử Dụng Của Machine Learning trong Chăm Sóc Sức Khỏe Và Y Tế: Hướng Tới Sự Hiểu Biết Cộng Đồng
29/01/2019
Nhờ vào sự phong phú của dữ liệu sức khỏe và sức mạnh tính toán ngày càng tăng, Machine learning đang hấp dẫn các nhà nghiên cứu sức khỏe trong quá trình khám phá xung quanh sự phát triển các thuật toán điều khiển dữ liệu để đưa ra các dự đoán đáng tin cậy về mặt lâm sàng.
Machine learning (ML) có khả năng cung cấp các công cụ hiệu quả để cải thiện kết quả và giảm chi phí chăm sóc sức khỏe, và cộng đồng lâm sàng nên tham gia vào việc phát triển, cũng như đánh giá những khám phá này. Tuy nhiên, nếu các ứng dụng sai lầm được hủy bỏ, hiểu biết về phương pháp sẽ cần thiết để phát triển, giải thích và thực hiện ML trong y học [1,2].
Khi chuẩn bị vấn đề đặc biệt (Special Issue - SI) của PLOS Medicine về ML trong sức khỏe và y sinh, các biên tập viên khách mời Atul Butte, Suchi Saria, Aziz Sheikh, và các biên tập viên của PLOS Medicine, đã xác định 2 nguyên tắc trong thiết kế và báo cáo nghiên cứu mà chúng ta tin rằng nên hướng dẫn các nhà nghiên cứu trong việc thúc đẩy lợi ích sử dụng ML trong chăm sóc sức khỏe và y tế. Các nguyên tắc cũng thông báo các ưu tiên biên tập của PLOS Medicine cho việc nộp bản thảo trong lĩnh vực này, yêu cầu đầu tiên, các mô hình xuất phát từ ML rất phù hợp với mục đích lâm sàng họ đã đề ra, và thứ hai, các nhà nghiên cứu thực hiện và báo cáo những cố gắng phù hợp để xác nhận các mô hình này trong các bộ dữ liệu bên ngoài.
Hiệu suất phù hợp cho mục đích
Một mô hình ML không cần sẵn sàng để bắt đầu, thực hiện thay đổi thực hành để đóng góp có giá trị, nhưng phải đạt được mục đích rõ ràng. Vấn đề quan trọng hiện tại bao gồm các báo cáo về các phương pháp ML đã trải qua xác nhận hồi cứu và hiện đã sẵn sàng để thử nghiệm trong tương lai, ML ở giai đoạn sớm của việc xác nhận và so sánh trực tiếp giữa dịch tễ học chuẩn và các tiếp cận ML gợi ý những hướng đi trong tương lai không thiết lập lợi ích lâm sàng. Các bài viết rất khác nhau trong ứng dụng dự kiến hoặc “các trường hợp sử dụng” các mô hình. Trong một nghiên cứu của Soo-Jin Kang và cộng sự, việc triển khai ML trong dữ liệu hình ảnh từ chụp động mạch vành nội mạch được sử dụng để chẩn đoán thiếu máu mạch vành không cần phương pháp xâm lấn khác – dự trữ dòng chảy phân đoạn – hiện là tiêu chuẩn để chẩn đoán [3]. Các tác giả không cố gắng để thử thách việc chăm sóc tiêu chuẩn, mà là để cải thiện chẩn đoán khi thiết bị hạn chế hoặc có chỉ định lâm sàng làm cho kỹ thuật dự trữ dòng chảy phân đoạn không thể áp dụng hoặc không phù hợp. Đối với các ứng dụng dự kiến cung cấp các lựa chọn thực dụng cho các tình huống không lý tưởng, hiệu suất mô hình có thể làm chuẩn để chống lại thực hành hiện nay thay vì thực hành được đề nghị, miễn là những hạn chế của sự tiến bộ là rõ ràng cho người đọc.
Kế hoạch nghiên cứu sớm nên cân nhắc các đặc điểm hiệu suất được chấp nhận trên lâm sàng cho ứng dụng mục tiêu, mô tả rõ ràng mục đích sử dụng và việc sử dụng có thể không phù hợp là rất cần thiết. Trong một nghiên cứu khác về vấn đề đặc biệt quan trọng này, Andrew Taylor và các cộng sự đã phát triển một mạng lưới thần kinh tích chập (convolutional neural network - CNN) để phát hiện tràn khí màng phổi trên phim X-quang ngực. Mô hình được huấn luyện có độ nhạy (trong phạm vi 0.8) thấp hơn độ đặc hiệu (trong phạm vi 0.9) cho việc phát hiện tràn khí màng phổi lượng trung bình và nhiều [4], gợi ý rằng hệ thống sức khỏe dựa trên mô hình này thay thế cho đánh giá của bác sĩ chẩn đoán hình ảnh bị thất bại trong chẩn đoán với một tỉ lệ không thể chấp nhận trong các trường hợp khẩn cấp. Tuy nhiên, nghiên cứu được thiết kế để phát triển một hệ thống cảnh báo phụ sẽ được thực hiện khi thu nhận hình ảnh, đặc biệt trong thiết lập nơi đánh giá của các bác sĩ chẩn đoán hình ảnh xảy ra vài giờ hoặc thậm chí vài ngày sau. Với hệ thống này, các nhà nghiên cứu hướng đến xác định tràn khí màng phổi lượng vừa và nhiều cần được chú ý ngay lập tức, trong khi giữ độ đặc hiệu cao để tránh “alert fatigue” (sai sót) giữa các bác sĩ chẩn đoán hình ảnh. Trường hợp sử dụng dự kiến này được kiểm chứng bởi Taylor và các cộng sự, kế hoạch được đóng dấu ngày cho dự án, được cung cấp thông tin hỗ trợ cho bài viết. Để giảm thiểu giải thích sai cho các phân tích thăm dò, PLOS Medicine yêu cầu các tác giả cung cấp kế hoạch phân tích tương lai, nếu một ứng dụng được sử dụng, cho các nghiên cứu quan sát [5]. Trong ML- nơi các so sánh thăm dò được đưa ra – các nhà nghiên cứu nên phát triển các kỳ vọng dựa trên bằng chứng cho hiệu suất được chấp nhận trên lâm sàng, và điểm ngưỡng cho giá trị bên ngoài, trước khi đánh giá kết quả của mô hình. Sự phát triển của một kế hoạch phân tích ML được quy định trước (chưa được thấy trong các bài báo của tạp chí này) thể hiện một tiêu chuẩn tiềm năng cho các nhà nghiên cứu ML, những người đang có kế hoạch nghiên cứu với ứng dụng lâm sàng.
Sự xác nhận từ bên ngoài
Một kịch bản lý tưởng cho sự phát triển và xác nhận của các mô hình tiên đoán, phù hợp nhất với các nghiên cứu đa trung tâm, là một trong số đó, đầu tiên, dữ liệu từ mẫu phát triển được phân vùng không ngẫu nhiên – ví dụ, về một mặt, khoa phòng, địa lý hoặc thời gian – và mỗi tập hợp con được tổ chức lần lượt để kiểm tra hiệu suất của các mô hình được phát triển trên dữ liệu gộp từ các tập hợp con còn lại [6]. Nếu các mô hình này làm việc tốt, mô hình cuối cùng có thể được phát triển sau đó sử dụng tất cả dữ liệu phù hợp. Vì sự phân vùng là không ngẫu nhiên, cách tiếp cận này được cân nhắc là một sự xác nhận bên ngoài và tăng lòng tin về tính tổng quát của mô hình. Mô hình có thể được kiểm tra sau đó trong bộ dữ liệu hoàn toàn riêng biệt vì chúng có sẵn, sự xác nhận trong bộ dữ liệu với các đặc điểm tương tự cung cấp bằng chứng cho khả năng tái tạo của hiệu suất mô hình, và sự xác nhận trong các bộ dữ liệu khác nhau – sự khác nhau lý tưởng về các đặc điểm của người tham gia, các sai số tiềm năng, các yếu tố gây nhiễu, và các kiểu mẫu thực hành – đánh giá tiềm năng vận chuyển mô hình.
Khi bộ dữ liệu đầy đủ có sẵn, cách tiếp cận nghiêm ngặt và có quy tắc này nên mang lại các mô hình dự đoán mạnh mẽ với khuynh hướng nhỏ để phản ánh nhiễu hoặc sai số. ML không cung cấp ngoại lệ cho nhu cầu xác nhận – thật vậy, khả năng của ML để xác định các liên kết phi tuyến tính, có thể giải thích các cách tiếp cận ML đặc biệt dễ bị phù hợp quá mức. Trong một nghiên cứu sâu hơn từ vấn đề đặc biệt (SI) sử dụng ML để phát hiện viêm phổi trên phim x-quang ngực, Eric Oermann và các cộng sự đã tìm ra một mô hình mạng lưới thần kinh tích chập - CNN được huấn luyện trong dữ liệu gộp từ hai hệ thống bệnh viện lớn từ Mỹ có thể không thể sao chép hiệu suất của nó khi được kiểm tra trên dữ liệu từ hệ thống bệnh viện thứ ba [7]. Trong các phân tích sâu hơn, các nhà nghiên cứu đã tìm thấy bằng chứng rằng mô hình này khai thác các đặc điểm hình ảnh không thể chấp nhận (với con người) liên quan với hệ thống bệnh viện và khoa phòng, đến một đánh giá lớn hơn các đặc điểm hình ảnh của viêm phổi, và hệ thống bệnh viện, khoa phòng là những người dự đoán viên phổi trong bộ dữ liệu được đào tạo gộp. Vì vậy, khi được thử nghiệm trong một hệ thống bệnh viện độc lập, mô hình có thể đã bị tước đi các yếu tố dự đoán là chìa khóa để có sự phù hợp ban đầu nhưng không liên quan đến chẩn đoán bệnh nhân.
Biểu hiện của khả năng gây nhiễu này đã làm tăng sự chú ý của chúng ta về tính nghiêm ngặt của việc xác nhận, đã là ưu tiên biên tập cho các báo cáo về các xét nghiệm chẩn đoán dành cho lâm sàng. Sự xác nhận, giống như hiệu suất, phải phù hợp với mục đích, với việc áp dụng các tiêu chuẩn cao nhất khi các quyết định lâm sàng được liên kết với nhau. Trong một nghiên cứu SI (Special Issue), Yizhi Liu và các cộng sự đã sử dụng dữ liệu từ hồ sơ y tế điện tử (electronic medical record - EMR) để phát triển và xác nhận mô hình Random Forest để ước tính nguy cơ cận thị cao trong tương lai giữa các bé trong độ tuổi đi học tại Trung Quốc [8]. Mô hình được đào tạo (với sự xác nhận chéo trong nội bộ) sử dụng dữ liệu từ một trong tâm nhãn khoa lớn ở Trung Quốc, và sau đó được xác nhận bên ngoài trong một bộ dữ liệu được gộp từ 7 trung tâm bổ sung. Các nhà nghiên cứu đã kiểm chứng sâu hơn hiệu suất mô hình của họ trong dữ liệu từ 2 nghiên cứu đoàn hệ theo thời gian, để hiểu rõ hơn một cách tổng quát trên các bộ dữ liệu khác nhau. Sự xác nhận triệt để và nhiều phương pháp của mô hình này nên được các tạp chí y khoa tìm kiếm để công bố các tiến bộ trong ML.
Các nghiên cứu dựa trên hồ sơ y tế điện tử và các bộ dữ liệu đăng ký thường được chấp nhận để xác nhận hiệu suất bằng cách sử dụng các tập hợp con bệnh nhân khác biệt tạm thời hoặc khác biệt theo địa lý. Trong một nghiên cứu đơn trung tâm sử dụng ML để ước tính nguy cơ biến chứng phẫu thuật, Corey và các cộng sự, với ý định xác nhận một công cụ quản lý dữ liệu bên trong trung tâm riêng của họ, sử dụng dữ liệu 5 tháng gần nhất từ kho lưu trữ cho việc xác nhận vì các dữ liệu này thể hiện tốt nhất các đặc điểm hiện tại của bệnh nhân và các quy trình thực hành y tế tại trung tâm của họ [9]. Trong một nghiên cứu SI khác, Fatemeh Rahimian và các cộng sự đã ước tính các các lần nhập viện khẩn cấp ở mức độ dân số bằng cách sử dụng ML với dữ liệu từ UK Clinical Practice Research Datalink (Liên Kết Dữ Liệu Nghiên Cứu Thực Hành Lâm Sàng tại Mỹ), với dữ liệu từ 2 quận phía bắc nước Anh được tổ chức để xác nhận mô hình [10]. Việc sử dụng phân vùng địa lý làm tăng lòng tin rằng các tiên đoán ML không dựa vào các đặc điểm cụ thể của quận. Một kế hoạch phân tích được quy định trước đặt ra sơ đồ phân vùng có thể tránh sự xuất hiện của việc lựa chọn sau đó trong dữ liệu phân vùng bằng cách thiết lập các lựa chọn dựa trên mục đích dự kiến của mô hình, trước khi độ nhạy và độ đặc hiệu từ việc xác nhận nội bộ được biết tới.
Trong việc đánh giá nghiên cứu cho vấn đề đặc biệt - Special Issue, các biên tập viên của PLOS Medicine đã đạt được sự tin tưởng ngày càng tăng trong tiềm năng của ML đến chăm sóc nâng cao, những cũng xác định cần có tiêu chuẩn rõ ràng hơn cho thiết kế nghiên cứu ML và việc báo cáo trong nghiên cứu y khoa. Chúng tôi hy vọng các bài báo được đăng tải này sẽ cung cấp nguồn tài liệu hỗ trợ các nhà nghiên cứu ML trong việc tìm kiếm con đường ngắn nhất cải thiện sức khỏe con người trên phạm vi rộng, và chúng tôi mong chờ để đăng tải nghiên cứu trong tương lai về lĩnh vực năng động này.
Tài liệu tham khảo
1.Schulam P, Saria S. Reliable decision support using counterfactual models. In: Guyon I, Luxburg UV, Bengio S, Wallach H, Fergus R, Vishwanathan S, Garnett R, editors. Advances in Neural Information Processing Systems 30; 2017. p. 1697–1708.View Article
Google Scholar
2.Subbaswamy A, Saria S. Counterfactual Normalization: Proactively Addressing Dataset Shift Using Causal Mechanisms. Uncertainty in Artificial Intelligence; 2018. p. 947–957. Available from: https://arxiv.org/abs/1808.03253View Article
Google Scholar
3.Hae H, Kang S-J, Kim W-J, Choi S-Y, Lee J-G, Bae Y, et al. Machine learning assessment of myocardial ischemia using angiography: Development and retrospective validation. PLoS Med. 2018;15(11):e1002693. https://doi.org/10.1371/journal.pmed.1002693View Article
Google Scholar
4.Taylor AG, Mielke C, Mongan J. Automated detection of moderate and large pneumothorax on frontal chest X-rays using deep convolutional neural networks: A retrospective study. PLoS Med. 2015;15(11):e1002697. https://doi.org/10.1371/journal.pmed.1002697View Article
Google Scholar
5.The PLOS Medicine Editors. Observational Studies: Getting Clear about Transparency. PLoS Med. 2014;11(8):e1001711. https://doi.org/10.1371/journal.pmed.1001711pmid:25158064View Article
PubMed/NCBI
Google Scholar
6.Steyerberg EW, Harrell FE Jr. Prediction models need appropriate internal, internal–external, and external validation. J Clin Epidemiol. 2016;69:245–7. https://doi.org/10.1016/j.jclinepi.2015.04.005 pmid:25981519View Article
PubMed/NCBI
Google Scholar
7.Zech JR, Badgeley MA, Liu M, Costa AB, Titano JJ, Oermann EK. Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: A cross-sectional study. PLoS Med. 2018;15(11):e1002683. https://doi.org/10.1371/journal.pmed.1002683View Article
Google Scholar
8.Lin H, Long E, Ding X, Diao H, Chen Z, Liu R, et al. Prediction of myopia development among Chinese school-aged children using refraction data from electronic medical records: A retrospective, multicentre machine learning study. PLoS Med. 2018;15(11):e1002674. https://doi.org/10.1371/journal.pmed.1002674View Article
Google Scholar
9.Corey KM, Kashyap S, Lorenzi E, Lagoo-Deenadayalan SA, Heller K, Whalen K, et al. Development and validation of machine learning models to identify high-risk surgical patients using automatically curated electronic health record data (Pythia): A retrospective, single-site study. PLoS Med. 2018;15(11):e1002701. https://doi.org/10.1371/journal.pmed.1002701View Article
Google Scholar
10.Rahimian F, Salimi-Khorshidi G, Payberah AH, Tran J, Ayala Solares R, Raimondi F, et al. Predicting the risk of emergency admission with machine learning: Development and validation using linked electronic health records. PLoS Med. 2018;15(11):e1002695. https://doi.org/10.1371/journal.pmed.1002695View Article
Google Scholar