جلد 28، شماره 2 - ( 6-1404 )                   جلد 28 شماره 2 صفحات 69-53 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Esmaeili M, Lotfnezhad Afshar H, Rahimi B, Khademvatani K, Samadzad Qushchi S, Hoseinpour V. Predicting the length of hospital stay in patients with congestive heart failure using data mining techniques. jha 2025; 28 (2) :53-69
URL: http://jha.iums.ac.ir/article-1-4586-fa.html
اسماعیلی مژگان، لطف نژاد افشار هادی، رحیمی بهلول، خادم وطنی کمال، صمدزاد قوشچی شیرین، حسین پور وحید. پیش‌بینی طول مدت بستری بیماران مبتلا به نارسایی قلبی با داده‌کاوی. فصلنامه مدیریت سلامت. 1404; 28 (2) :53-69

URL: http://jha.iums.ac.ir/article-1-4586-fa.html


1- گروه انفورماتیک پزشکی، دانشکده پیراپزشکی، دانشگاه علوم پزشکی ارومیه، ارومیه، ایران.
2- گروه فناوری اطلاعات سلامت، دانشکده پیراپزشکی، دانشگاه علوم پزشکی ارومیه، ارومیه، ایران. & مرکز تحقیقات انفورماتیک سلامت و زیست پزشکی، دانشگاه علوم پزشکی ارومیه، ارومیه، ایران ، hadi.afshar@gmail.com
3- گروه انفورماتیک پزشکی، دانشکده پیراپزشکی، دانشگاه علوم پزشکی ارومیه، ارومیه، ایران. و مرکز تحقیقات انفورماتیک سلامت و زیست پزشکی، دانشگاه علوم پزشکی ارومیه، ارومیه، ایران.
4- گروه قلب و عروق، دانشکده پزشکی، دانشگاه علوم پزشکی ارومیه، ارومیه، ایران.
5- مرکز تحقیقات انفورماتیک سلامت و زیست پزشکی، دانشگاه علوم پزشکی ارومیه، ارومیه، ایران.
6- گروه طب اورژانس، دانشکده پزشکی، دانشگاه علوم پزشکی ارومیه، ارومیه، ایران.
متن کامل [PDF 1233 kb]   (330 دریافت)     |   چکیده (HTML)  (656 مشاهده)
متن کامل:   (246 مشاهده)
 مقدمه
نارسایی احتقانی قلب (Congestive Heart Failure/CHF) یکی از شایع‌ترین و شدیدترین بیماری‌های مزمن در سراسر جهان است که نقش عمده‌ای در افزایش نرخ مرگ و کاهش کیفیت زندگی ایفا می‌کند [1-3]. این بیماری به دلیل نیاز به بستری‌های مکرر و طولانی‌مدت، فشار قابل‌توجهی بر سیستم‌های بیمارستانی (شامل تخت‌های بستری، نیروی انسانی و تجهیزات پزشکی) وارد می‌کند و چالش‌های زیادی را به همراه دارد. برآوردهای جهانی نشان می‌دهد که CHF حدود ۳/۶۴ میلیون نفر را تحت تأثیر قرار داده و شیوع آن در کشورهای توسعه‌یافته بین ۱ تا ۲ درصد در میان بزرگ‌سالان و بیش از ۲۵ میلیون نفر در سطح جهانی است [4-6]. در ایالات‌متحده، پیش‌بینی می‌شود که هزینه‌های بهداشتی مرتبط با CHF از ۳۹ میلیارد دلار به بیش از ۱/۵۳ میلیارد دلار تا سال ۲۰۳۰ افزایش یابد [7،8]. شیوع این بیماری به‌ویژه در کشورهای درحال‌توسعه مانند ایران با افزایش جمعیت سالمند در حال افزایش است[9،10].
پیش‌بینی دقیق طول مدت بستری (Length of Stay/LOS) در بیمارستان به ارائه‌دهندگان خدمات بهداشتی این امکان را می‌دهد که نرخ اشغال تخت را بهتر تخمین بزنند و عملیات بیمارستانی را بهینه کنند. برای بیماران CHF، پیش‌بینی LOS به برنامه‌ریزی مؤثرتر ترخیص کمک می‌کند که برای مدیریت نتایج بیمار و کاهش خطر بستری مجدد حیاتی است [11].
داده‌کاویروش‌های جدیدی برای تحلیل داده‌های بهداشتی در مقیاس بزرگ ارائه می‌دهد و می‌تواند برای توسعه مدل‌های پیش‌بینی LOS استفاده شود [12-17]. یادگیری ماشین و داده‌کاوی در پیش‌بینی‌های بهداشتی مؤثر بوده‌اند، به‌ویژه از طریق مدل‌هایی مانند ماشین‌های بردار پشتیبان و جنگل تصادفی. به‌عنوان نمونه، هاچه سو و همکاران [18] در مطالعه‌ای بر روی بیماران قلبی از الگوریتم‌های یادگیری ماشین مانند ماشین بردار پشتیبان، درخت تصمیم و شبکه عصبی با هدف پیش‌بینی طول مدت اقامت بیماران در بیمارستان استفاده کردند و دقت ۴/۹۶ درصدی را به دست آوردند. به همین ترتیب، تورگمان و همکاران [17] از مدل‌های یادگیری ماشین برای پیش‌بینی LOS استفاده کردند و با روش‌هایی مانند درخت‌های رگرسیون Cubist و ماشین‌های بردار پشتیبان دقت 84 درصدی به دست آوردند. بااین‌حال، این مطالعات اغلب فاقد اعتبارسنجی خارجی هستند و تمرکز آنها عمدتاً به‌جای بیماران خاص CHF بر بیماران قلبی است. علاوه‌بر‌این، پژوهش‌های گذشته به‌ندرت از روش‌های استخراج قوانین همبستگی مانند اپریوری (Apriori) برای شناسایی عوامل خاص مؤثر بر طولانی‌تر شدن LOS استفاده کرده‌اند. اپریوری امکان استخراج بینش‌های بالینی قابل‌اجرا را با نشان دادن ارتباطات بین ویژگی‌های بیمار و الگوهای LOS فراهم می‌کند [19،20].
درزمینه پیش‌بینی LOS در مورد CHF، هنوز فاصله‌ تحقیقاتی در استفاده از داده‌کاوی ب وجود دارد. مطالعات لو و همکاران [21] و داغیستانی و همکاران [22] توان الگوریتم‌هایی مانند جنگل تصادفی را برای پیش‌بینی LOS نشان داده‌اند. بااین‌حال، مطالعات کمی به‌طور خاص بر بیماران CHF تمرکز داشته‌اند و از روش‌های پیش‌بینی و استخراج قوانین همبستگی به‌صورت ترکیبی کمتر استفاده شده است.
در این مطالعه با هدف پر کردن شکاف‌های موجود در پیش‌بینی LOS، از الگوریتم‌های مختلف یادگیری ماشین (مانند جنگل تصادفی، درخت تصمیم، شبکه عصبی و سیستم استنتاج عصبی-فازی تطبیقی) برای پیش‌بینی مدت بستری و الگوریتم اپریوری برای شناسایی همبستگی‌های پنهان در داده‌های بیماران CHF استفاده شده است.

روش ها
جمع‌آوری داده‌ها: مطالعه حاضر از نوع مقطعی، تحلیلی و کاربردی بود. داده‌های ۳۴۲۱ بیمار مبتلا CHF بستری شده بین سال‌های ۱۳۹۷ تا ۱۳۹۹ در بیمارستان‌های سیدالشهدا و آیت‌الله طالقانی در ارومیه، ایران جمع‌آوری شد. 1690 مورد از این داده‌ها مربوط به بیمارستان سیدالشهدا (مجموعه داده 1) و داده اصلی مطالعه بود. 1719 مورد مربوط به بیمارستان طالقانی (مجموعه داده 2) برای اعتبارسنجی خارجی استفاده شد. این مجموعه داده شامل ۲۷ متغیر است که داده‌های دموگرافیک (مانند سن، جنسیت) و ویژگی‌های بالینی (مانند سابقه فشارخون، طول مدت اقامت، سابقه فامیلی، سابقه بیماری دیابت، دیس لیپیدمی، سابقه تعویض دریچه قلب، سابقه پیوند عروق کرونر، سابقه آنژیوپلاستی، باز کردن دریچه میترال با بالون، سابقه بیماری مزمن ریوی، سابقه آسم، سابقه سکته مغزی، فیبریلاسیون دهلیزی، سابقه سکته قلبی، ازدحام مایع پریکارد، بیماری همراه، مصرف سیگار، اعتیاد به مواد مخدر، اعتیاد به الکل، علت زمینه‌ای، کراتنین بالا، هموگلوبین پایین، تعداد دفعات بستری بیمار به علت نارسایی احتقانی قلب، تعداد دفعات بستری به علت بیماری قلبی) را در برمی‌گیرد. تنها موارد دارای کد ICD-10 برایCHF (I50.0) در این مطالعه لحاظ شدند.
پاک‌سازی داده‌ها: مجموعه داده‌ها تحت یک فرآیند پاک‌سازی دقیق قرار گرفتند. متغیرهایی مانند BMI (Body Mass Index) به دلیل داشتن بیش از ۷۰٪ مقدار مفقوده (۱۱۸۳ مورد) به‌طور کامل از تحلیل حذف شد. در مقابل، برای متغیرهایی با مقدار مفقوده کمتر از ۱٪ مانند «کراتینین بالا» (۴ مورد مفقوده) و «هموگلوبین پایین» (۱۷ مورد مفقوده)، از روش جایگذاری با مقدار مُد (mode) استفاده شد. این راه‌کارها برای حفظ دقت مدل و خطا  ناشی از داده‌های ناقص به‌کار گرفته شد.
انتخاب ویژگی‌ها: با مشاوره پزشکان متخصص و بررسی منابع علمی، ویژگی‌های بالینی مرتبط با طول مدت بستری در بیماران CHF انتخاب شدند. از ۳۵ متغیر موجود، ۲۷ متغیر انتخاب شد که با استانداردهای پزشکی کنونی (استفاده از راهنماهای پزشکی معتبر مانند ESC 2021 برای نارسایی قلبی و تائید تیم متخصص) اعتبارسنجی شدند [23-25]. این ویژگی‌ها با ارجاع به مطالعات پیشین مرتبط [21، 26]، حذف داده‌های مفقوده با بررسی پرونده‌های الکترونیک بیماران در بیمارستان و همچنین مشاوره با متخصصان انتخاب شدند. تیم متخصص شامل چهار نفر از متخصصان قلب و عروق با میانگین سنی 52 سال و میانگین سابقه خدمت 19 سال (سه مرد و یک زن) بود.
خوشه‌بندی: برای تعیین ساختار بهینه‌ طول مدت بستری، از الگوریتم خوشه‌بندی K-means همراه با معیارهای ارزیابی سیلهوئت (65/0) و روش البو استفاده شد [27]. این خوشه‌بندی طبقه‌بندی باینری طول مدت بستری را تسهیل کرد و تمایز بین اقامت‌های کوتاه‌مدت و بلندمدت را آسان‌تر کرد. تحلیل خوشه‌بندی (به‌عنوان یک روش بدون نظارت) صرفاً برای شناسایی ساختار طبیعی داده‌ها انجام شد و تمام مراحل خوشه‌بندی بر روی داده‌های با توزیع واقعی اجرا شد. نتایج هر دو روش سیلهوئت و البو نشان داد که بهینه‌ترین تعداد خوشه برابر 2 است. این یافته با مطالعات پیشین در خصوص حد آستانه هفت روز برای تفکیک دوره‌های بستری همسو بود [28]. بر این اساس، LOS به دو گروه کوتاه‌مدت (۰-۷ روز) و بلندمدت (بیش از ۷ روز) تقسیم شد. خوشه‌بندی K-means در این مطالعه پس از انجام پیش‌پردازش اولیه (شامل حذف موارد نادرست و جایگزینی مقادیر مفقوده) ولی قبل از متعادل‌سازی داده‌ها به دلیل حفظ ساختار طبیعی داده‌ها و شناسایی الگوهای واقعی موجود در بیماران انجام شد.
متعادل‌سازی: برای متعادل‌سازی متغیر LOS پس از پیش‌پردازش داده‌ها از روش‌های بیش‌نمونه‌گیری، و SMOTE استفاده شد تا روشی با بهترین پیش‌بینی انتخاب شود. بر اساس یافته‌ها،  SMOTE به علت ایجاد داده‌های متنوع و غیرتکراری و تولید نتایج قابل‌تعمیم‌تر و همچنین کسب نتایج بهتر انتخاب شد. متعادل‌سازی نمونه‌ها تنها در مرحله آموزش مدل‌های طبقه‌بندی نظارت‌شده اعمال شد و الگوریتم‌های دسته‌بندی نیز بر روی داده‌های متعادل‌سازی شده اعمال شدند.
استخراج قوانین همبستگی: الگوریتم اپریوری برای شناسایی همبستگی‌ها بین متغیرها استفاده شد تا قوانین مربوط به روابط بین عواملی مانند جنسیت، فشارخون و طول مدت بستری شناسایی شود. این الگوریتم مستقیماً بر روی داده‌های اصلی با برچسب‌های دو کلاسه (کوتاه‌مدت / بلندمدت) به‌دست آمده از خوشه‌بندی اعمال شد. این کار به‌منظور جلوگیری از تأثیر خطاهای طبقه‌بندی الگوریتم‌های یادگیری ماشین بر قوانین استخراج‌شده بود.
آموزش مدل طبقه‌بند: مجموعه داده اولیه شامل ۱۶۹۰ مورد بود. پس از پیش‌پردازش و حذف داده‌های ناقص، داده‌های ۱۲۴۸ بیمار باقی ماند. سپس، مجموعه داده به نسبت ۸۰ درصد برای آموزش (۱۰۰۰ بیمار) و ۲۰ درصد برای آزمون (۲۴۸ بیمار) تقسیم شد. از نرم‌افزار SPSS Clemntine 12 و زبان برنامه‌نویسی R برای مدل‌سازی استفاده شد. چندین الگوریتم یادگیری ماشین ازجمله درخت تصمیم، شبکه عصبی مصنوعی و سیستم استنتاج عصبی-فازی تطبیقی (ANFIS) ارزیابی شدند. جنگل تصادفی به دلیل عملکرد برتر انتخاب شد و از طریق تنظیمات ابرپارامترها بهبود یافت. تنظیم ابرپارامترها با استفاده از جستجوی شبکه‌ای همراه با اعتبارسنجی متقابل 10تایی انجام شد. مقادیر نهایی ابرپارامترهای تنظیم‌شده شامل: تعداد درخت‌ها (100)، تعداد ویژگی‌ها در هر تقسیم (5)، حداکثر عمق درخت‌ها (30)، معیار تقسیم (Gini) و حداقل نمونه برای انشعاب (2) بودند. این فرآیند برای سایر الگوریتم‌ها نیز اجرا شد ولینتایج نشان داد که بهبود عملکرد سایر الگوریتم‌ها پس از تنظیم ابرپارامترها ناچیز بود و جنگل تصادفی مقاومت بیشتری در برابر بیش‌برازش داشت.
اعتبارسنجی خارجی: برای ارزیابی تعمیم‌پذیری، مدل با یک مجموعه داده مستقل از بیمارستان آیت‌الله طالقانی (شامل ۱۷۱۹ بیمار) اعتبارسنجی شد. عملیات پیش‌پردازش اولیه بر روی داده‌ها انجام شد. متغیر BMI از مجموعه داده‌های بیمارستان طالقانی حذف شد. از این داده‌ها، تعداد 1133 نفر (9/65%) اقامت کمتر یا مساوی هفت روز و 586 نفر (1/34%) اقامت بالای هفت روز در بیمارستان داشته‌اند.ارزیابی: ارزیابی مدل‌ها با استفاده از معیارهایی مانند صحت، حساسیت، ویژگی، شاخص کاپا، سطح زیرمنحنی (AUCF1-score بر اساس روش‌های مرسوم اندازه‌گیری شد [29-33].

یافته ها
مجموعه داده اول (بیمارستان سیدالشهدا): از ۱۶۹۰ داد ، پس از تقسیم داده‌ها و حذف موارد ناقص ۲۴۸ داده به‌عنوان داده آزمون استفاده شد. جدول 1 ویژگی‌های این داده را نشان می‌دهد. از بین ۲۷ متغیر بررسی‌شده، فقط متغیرهای ذکر شده در جدول 1 تفاوت آماری معنی‌دار بین دو گروه کوتاه‌مدت و بلندمدت داشتند. سایر متغیرها فاقد اختلاف آماری معنی‌دار بودند و در جدول ذکر نشدند ولی در تحلیل‌ها لحاظ شده‌اند. بررسی ویژگی‌های پایه نشان داد بیماران با LOS بلندمدت به‌طور معناداری مسن‌تر بوده و شیوع بالاتری از بیماری‌های همراه (دیابت، فشارخون) و اختلالات آزمایشگاهی (کراتینین بالا، هموگلوبین پایین) داشتند.

جدول 1. ویژگی‌های بالینی و دموگرافیک بین دو گروه (داده اول)

نتایج اجرای الگوریتم‌ها در مجموعه داده1(بیمارستان سیدالشهدا) نشان داد که الگوریتم جنگل تصادفی عملکرد برتری نسبت به مدل‌های درخت تصمیم، شبکه عصبی و ANFIS داشت. همان‌طور که در جدول 2 نشان داده‌ شده است، جنگل تصادفی به‌ صحت 14/87 %، حساسیت 56/97 %، ویژگی 24/23، AUC معادل ۴۰/5۵ % و مقدار F  13/71 % دست‌یافت. پس از به دست آمدن این مقادیر، هر سه روش متعادل‌سازی روی داده‌ها انجام و مشخص شد که SMOTE بهترین عملکرد را دارد (جدول 3، شکل 1 و 2). مدل جنگل تصادفی با مساحت زیر منحنی معادل 854/0 بهترین عملکرد را در تفکیک بیماران با مدت اقامت کوتاه‌مدت و بلندمدت نشان داد. بهبود زیادی در صحت بعد از متعادل‌سازی رخ نداد ولی حساسیت و F1-score نسبت به حالت نامتعادل   بهبود یافت.  بر اساس مدل جنگل تصادفی نهایی، مهمترین عوامل مؤثر بر پیش‌بینی مدت اقامت بیماران شناسایی شدند (جدول 4).
جدول 2. عملکرد مدل در مجموعه داده 1(بیمارستان سیدالشهدا)

جدول 3. عملکرد مدل‌ها بر روی داده آزمون (بیمارستان سیدالشهدا) پس از متعادل‌سازی با روش SMOTE

              
         شکل 1. منحنی ROC در مجموعه داده اول                                      شکل 2. ماتریس درهم‌ریختگی در مجموعه داده آزمون اول

جدول 4. عوامل مؤثر در پیش‌بینی مدت اقامت بیماران
متغیر نقش در پیش‌بینی عوامل مؤثر در پیش‌بینی مدت اقامت بیماران
سابقه CABG مثبت بیماران دارای سابقه جراحی بای‌پس، بیشتر از ۷ روز بستری بودند.
دیابت مثبت بیماران دیابتی بیشتر در گروه اقامت بلندمدت قرار داشتند.
دیس لیپیدمی مثبت دیس لیپیدمی با اقامت بیشتر از ۷ روز ارتباط دارد.
جنسیت مرد مثبت نسبت مردان در گروه اقامت >۷ روز بیشتر بود.
فشارخون بالا منفی فشارخون بالا بیشتر در بیماران با اقامت کمتر از ۷ روز دیده شد.
سابقه PCI مثبت بیماران باسابقه آنژیوپلاستی اقامت طولانی‌تری داشتند.
کراتینین بالا منفی کراتینین بالا همراه با فشارخون بالا با اقامت کوتاه‌تر ارتباط داشت.
با استفاده از الگوریتم اپریوری، قوانینی استخراج شدند که عوامل کلیدی مؤثر بر طول مدت بستری را نشان می‌دهند. مقادیر پشتیبانی و سطح اعتماد به‌صورت تجربی و بر اساس مقادیر مرسوم در مقالات علمی انتخاب شدند. ابتدا چندین بار الگوریتم با مقادیر مختلف اجرا شد. سپس، تیم متخصصان قوانین استخراج‌شده را بررسی کردند. مقادیر (0/1 و 0/85) انتخاب شد. به دلیل تمرکز بر قوانین با بالاترین مقادیر پشتیبانی و سطح اعتماد که ازنظر بالینی معنادار و مورد تائید متخصصین قلب بودند، دو قانون زیر استخراج شد:
قانون ۱: بیمارانی که مرد هستند، سابقه فشارخون بالا دارند، سابقه تعویض دریچه قلب ندارند و کراتینین بالا دارند، با طول مدت بستری کوتاه‌تر مرتبط هستند. مقدار پشتیبانی این قانون 0/107 و سطح اعتماد آن 0/923 است. مقدار پشتیبانی  نشان می‌دهد که 10/7 درصد از بیماران در مجموعه داده این ترکیب خاص از عوامل را نشان می‌دهند. مقدار اعتماد احتمال 92/3 درصد را نشان می‌دهد که بیماران با این شرایط طول مدت بستری کوتاه‌تری خواهند داشت.
قانون ۲: بیمارانی که سابقه فیبریلاسیون دهلیزی و کراتینین بالا دارند، ولی سابقه آنژیوپلاستی، سکته یا اعتیاد ندارند، بیشتر احتمال دارد که طول مدت بستری طولانی‌تری داشته باشند. این قانون دارای مقدار پشتیبانی 0/104 و سطح اعتماد 0/846 است. در این حالت، مقدار پشتیبانی  نشان‌دهنده این است که 10/4 درصد از بیماران این الگو را نشان می‌دهند، درحالی‌که مقدار اعتماد  احتمال 86/4 درصد را نشان می‌دهد که بیماران با این شرایط طول مدت بستری طولانی‌تری خواهند داشت.
مجموعه داده دوم  (بیمارستان طالقانی): داده‌های این مجموعه شامل ۱۷۱۹ بیمار بود که به دو گروه اقامت کوتاه‌مدت (۱۱۳۳ بیمار، 65/9 درصد) و بلندمدت(۵۸۶ بیمار، 34/1 درصد) تقسیم شدند. این داده‌ها در آموزش مدل نقشی نداشتند و صرفاً جهت ارزیابی استفاده شدند. جدول 5، شکل 3 و 4 عملکرد الگوریتم‌ها را نشان می‌دهند.  عملکرد مدل‌ها در مجموعه داده‌های اعتبارسنجی دقت مدل جنگل تصادفی را تأیید کرد، به‌طوری‌که این مدل با صحت 77/40 درصد و AUC معادل 84/82 درصد عملکرد بهتری داشت.

جدول 5. عملکرد مدل در مجموعه داده 2(بیمارستان طالقانی)

                                    
شکل 3. سطح زیر منحنی مدل‌ها در مجموعه داده دوم                                    شکل 4. ماتریس درهم‌ریختگی در مجموعه داده آزمون دوم
بحث
مدل پیشنهادی در این مطالعه توانست با استفاده از الگوریتم جنگل تصادفی طول مدت اقامت بیماران مبتلا به نارسایی احتقانی قلب را با دقت بالا طبقه‌بندی کند. عملکرد این مدل در هر دو مجموعه داده آموزش و اعتبارسنجی خارجی قابل‌ قبول بود و نتایج نشان داد که رویکردهای مبتنی بر یادگیری ماشین می‌توانند ابزار مؤثری برای پیش‌بینی مدت اقامت در بیماران CHF باشند. این یافته‌ها با نتایج مطالعه داغیستانی و همکاران [22] هم‌راستا است که از الگوریتم‌های داده‌محور برای تحلیل پرونده‌های بیماران قلبی استفاده کردند. هرچند در آن مطالعه گزارشی از مدیریت داده‌های مفقوده ارائه نشده ولی در مطالعه حاضر، پیش‌پردازش دقیق و رفع داده‌های ناقص نقش مهمی در ارتقاء دقت مدل ایفا کرده است.
استفاده از الگوریتم k-means برای خوشه‌بندی طول مدت اقامت نیز امکان تفکیک دقیق‌تر گروه‌های بیمار را فراهم کرده و به ایجاد طبقه‌بندی قابل‌اتکا کمک کرده است. این روش در کنار الگوریتم‌های پیشرفته مانند جنگل تصادفی عملکرد برتری نسبت به مدل‌های ساده‌تر مانند درخت تصمیم یا ANN از خود نشان داده است. در مقایسه با پژوهش آقاجانی و همکاران  [34] بر روی عوامل مؤثر بر LOS در بخش جراحی عمومی در سال 2016 در تهران انجام‌گرفته و با استفاده از درخت تصمیم دقت 84/69٪ را گزارش کردند، مدل جنگل تصادفی در مطالعه حاضر عملکرد بهتری دارد. همچنین اگرچه مهارلو و همکاران  [35] عملکرد بالای ANFIS را برای پیش‌بینی LOS بیماران ICU پس از جراحی قلب گزارش کردند ولی در مطالعه حاضر، این الگوریتم در مقایسه با جنگل تصادفی و C5.0 عملکرد ضعیف‌تری داشت. این تفاوت‌ها ممکن است ناشی از تفاوت در جمعیت بیماران، ویژگی‌های داده‌ها یا مرحله پیش‌پردازش باشد.
در مطالعه‌ای، قلی پور و همکاران [36] از الگوریتم شبکه عصبی مصنوعی برای پیش‌بینی بقای بیماران تروما و مدت اقامت در بخش و ICU استفاده کردند. مدل آنها توانست پیامد بالینی بیماران را با دقت مناسبی (93/33٪) پیش‌بینی کند ولی پیش‌بینی مدت اقامت با خطای نسبی همراه بود. در مطالعه حاضر، مدل جنگل تصادفی توانست با دقت بالا و AUC مناسب، بیماران را در دو گروه اقامت کوتاه‌مدت و بلندمدت طبقه‌بندی کند. نکته قابل‌توجه دیگر، استفاده از SMOTE برای متعادل‌سازی داده‌ها در مطالعه حاضر است که برخلاف برخی مطالعات که از روش‌های ساده‌تر مانند کم‌نمونه‌گیری استفاده کرده‌اند، به بهبود دقت مدل کمک کرده است. به‌طورکلی، استفاده از الگوریتم‌های پیشرفته یادگیری ماشین همراه با پیش‌پردازش مناسب داده‌ها و متعادل‌سازی کلاس‌ها، می‌تواند نقش مؤثری در بهبود پیش‌بینی طول مدت اقامت بیماران ایفا کند.
با استفاده از مدل پیشنهادی در این مطالعه مشخص شد که متغیرهایی مانند جنسیت، فشارخون بالا، بیماری‌های زمینه‌ای و سطح کراتینین از مهمترین پیش‌بینی کننده‌های مدت اقامت بیماران CHF در بیمارستان بودند. به‌طور خاص، سطح بالاتر کراتینین و وجود بیماری‌های زمینه‌ای با افزایش احتمال اقامت طولانی‌تر در بیمارستان همراه بودند، درحالی‌که بیماران مرد با فشارخون بالا ولی بدون سابقه تعویض دریچه قلب بیشتر در گروه اقامت کوتاه‌مدت قرار گرفتند. این یافته‌ها با مطالعات مشابهی که نقش بیماری‌های زمینه‌ای و وضعیت کلی عملکرد کلیه را در افزایش مدت بستری تأیید کرده‌اند، هم‌راستا است. برای نمونه، در پژوهشی از داغیستانی و همکاران  [22] نیز بیماری‌های مزمن ازجمله دیابت و فشارخون بالا به‌عنوان عواملی مرتبط با افزایش LOS معرفی شدند. به‌علاوه، مطالعات قبلی نشان داده‌اند که اختلال در عملکرد کلیه به دلیل تأثیر بر توازن مایعات و الکترولیت‌ها ممکن است روند بهبودی بیماران CHF را کند کرده و مدت اقامت را افزایش دهد [37]. بنابراین، توجه به این متغیرها در هنگام پذیرش بیمار می‌تواند در پیش‌بینی مدت اقامت و مدیریت بهتر منابع بیمارستانی نقش کلیدی ایفا کند. فشارخون بالا نیز به‌عنوان یک پیش‌بینی کننده قابل‌توجه بود. مطالعاتی نشان‌ داده‌اند  ‌که فشارخون CHF را تشدید می‌کند و به دلیل ارتباط با بیماری‌های همراه منجر به بستری طولانی‌تر می‌شود[26،38]. فشارخون بالا، به‌ویژه در کنار سایر بیماری‌های مزمن، می‌تواند روند کنترل وضعیت بیمار را پیچیده‌تر کند و به تأخیر در ترخیص منجر شود. این یافته با مطالعه‌ای گاتلیب و همکاران [39] هم‌راستا است که نشان داد بیماران مبتلا به CHF با فشارخون بالا، به دلیل نیاز به مدیریت دقیق‌تر و خطر بالاتر عوارض، اغلب مدت‌زمان بیشتری در بیمارستان می‌مانند. همچنین، سطح کراتینین نیز به‌عنوان پیش‌بینی‌کننده قوی برای LOS شناسایی شد. افزایش سطح کراتینین نشان‌دهنده اختلال عملکرد کلیه است که می‌تواند فرآیند درمان CHF  را پیچیده‌تر کند. عملکرد کلیوی ضعیف به افزایش مدت بستری منجر می‌شود زیرا این بیماران اغلب نیازمند نظارت بیشتر، دارودرمانی دقیق‌تر و مدیریت پیچیده‌تری هستند [39]. فیبریلاسیون دهلیزی نیز با افزایش طول مدت اقامت مرتبط شناخته شد. این اختلال ریتم قلبی معمولاً با نارسایی قلبی هم‌زمان رخ می‌دهد و به دلیل نیاز به پایش، دارودرمانی چندوجهی و احتمال عوارض بیشتر، باعث افزایش مصرف منابع و تأخیر در ترخیص می‌شود [40]. درمجموع، این نتایج اهمیت شناسایی بیماران پرخطر در ابتدای پذیرش را برجسته می‌سازد تا با پیش‌بینی دقیق LOS، مدیریت بهینه‌تری در تخصیص منابع بیمارستانی انجام گیرد.
استفاده از الگوریتم جنگل تصادفی برای پیش‌بینی طول مدت اقامت و اپریوری برای استخراج قوانین همبستگی منجر به ارایه مدلی جامع برای تحلیل LOS در بیماران CHF شد. ه مطالعات گذشته مانند هاچه‌سو و همکاران [18] و تورگمان و همکاران [17] بیشتر بر پیش‌بینی دقیق LOS با تکیه‌بر یادگیری ماشین متمرکز بودند ولی مطالعه حاضر با افزودن تحلیل قوانین همبستگی توانست بینش‌های تفسیری بیشتری نسبت به الگوهای مرتبط با اقامت کوتاه‌مدت و بلندمدت ارائه دهد. الگوریتم اپریوری بر روی داده‌های دوکلاسهاجرا شد و ترکیب‌های مشخصی از ویژگی‌های بیمار مانند "جنسیت مرد، فشارخون بالا و بدون تعویض دریچه قلب" را شناسایی کرد که بیشتر با اقامت کوتاه‌مدت همراه بودند. این قوانین می‌توانند مکمل خوبی برای نتایج پیش‌بینی جنگل تصادفی باشند و از آنها می‌توان در تبیین نتایج پیش‌بینی و طراحی برنامه‌های مداخه‌ای بهره گرفت.
کاربردهای عملی این یافته‌ها برای برنامه‌ریزی مراقبت و تخصیص منابع در مدیریت CHF قابل‌توجه است. پزشکان می‌توانند با استفاده از نتایج این دو رویکرد، بیماران با احتمال اقامت طولانی‌تر را زودتر شناسایی و برای مراقبت هدفمند آنها برنامه‌ریزی کنند. برای نمونه، ترکیب ویژگی‌هایی مانند فیبریلاسیون دهلیزی و سطح بالای کراتینین که با LOS طولانی‌تر مرتبط بودند، می‌تواند در طراحی مسیرهای درمانی شخصی‌سازی‌شده مؤثر باشد. همچنین، انجام اعتبارسنجی خارجی با استفاده از یک مجموعه داده مستقل، استحکام و قابلیت تعمیم‌پذیری مدل را افزایش داد و نشان می‌دهد که این مدل می‌تواند در محیط‌هایی خارج از مرکز مطالعه نیز به‌کار گرفته شود.

محدودیت‌ها
باوجود نقاط قوت، این مطالعه دارای محدودیت‌هایی است. داده‌ها از دو بیمارستان در ایران جمع‌آوری ‌شده‌اند که ممکن است تعمیم‌پذیری به سایر جمعیت‌ها را محدود کند. علاوه‌براین، مجموعه داده شامل متغیرهایی مانند داده‌های دقیق اکوکاردیوگرافی یا سوابق دارویی نمی‌شد که می‌توانند تصویر جامع‌تری از شرایط بیمار ارائه داده و دقت پیش‌بینی را بهبود بخشند.
در تحقیقات آینده، داده‌های بالینی اضافی، به‌ویژه داده‌های مرتبط با تصویربرداری و استفاده از داروها باید برای بهبود عملکرد مدل در نظر گرفته شوند. درنهایت، بررسی روش‌های پیشرفته یادگیری ماشین، مانند یادگیری تجمعی یا یادگیری عمیق، می‌تواند بینش‌های بیشتری در مورد تعاملات پیچیده در داده‌های بیمار ارائه دهد و پیش‌بینی LOS را در CHF و شرایط مشابه بهبود بخشد.

نتیجه‌گیری
این مطالعه کارایی داده‌کاوی را در پیش‌بینی طول مدت بستری برای بیماران مبتلا به نارسایی احتقانی قلب نشان داد.  پیش‌بینی دقیق LOS امکان برنامه‌ریزی بهتر و تخصیص منابع را فراهم کرده و کارایی ارائه خدمات بهداشتی برای بیماران CHF را افزایش می‌دهد. یافته‌های حاصل از این مدل می‌تواند پزشکان را در شناسایی بیماران پرخطر که
 ممکن است به مراقبت‌های طولانی‌تری نیاز داشته باشند، راهنمایی کرده و مداخلات به‌موقع را تسهیل کند.

اعلان‌ها
ملاحظات اخلاقی: این پژوهش با کد اخلاق IR.UMSU.REC.1398.012 اخذشده از کمیته اخلاق در پژوهش‌های زیست پزشکی دانشگاه علوم پزشکی ارومیه انجام ‌شده است. حمایت مالی: این مطالعه بخشی از پایان‌نامه کارشناسی ارشد بود که با حمایت معاونت تحقیقات و فناوری دانشگاه علوم پزشکی ارومیه انجام‌گرفته است. حامی مالی نقشی در گردآوری و تحلیل داده و نگارش مقاله نداشته است.
تضاد منافع: هیچ تضاد منافع مرتبط با این مقاله گزارش نشده است.
مشارکت نویسندگان: مژگان اسماعیلی: مفهوم‌سازی، طراحی مطالعه، گردآوری داده، روش‌شناسی، نرم‌افزار، اعتبارسنجی، تحلیل داده، مدیریت داده، نگارش-پیش نویس، نگارش- بررسی و ویرایش؛ هادی لطف نژادافشار: مفهوم‌سازی، طراحی مطالعه، گردآوری داده، روش‌شناسی، نرم‌افزار، اعتبارسنجی، تحلیل داده، مدیریت داده، نگارش-پیش نویس، نگارش- بررسی و ویرایش، سرپرستی مطالعه، تامین مالی؛ بهلول رحیمی: روش‌شناسی، نرم‌افزار، اعتبارسنجی، تحلیل داده؛ کمال خادم وطنی: گردآوری داده، روش‌شناسی، اعتبارسنجی، تحلیل داده؛ شیرین صمدزادقوشچی: نرم‌افزار، نگارش-پیش نویس، نگارش- بررسی و ویرایش، بصری سازی؛ وحید حسین پور: روش‌شناسی، اعتبارسنجی،  تامین مالی. تمام نویسندگان متن نهایی مقاله را مطالعه و تایید کرده‌اند.
رضایت برای انتشار: موردی وجود ندارد.
دسترسی به داده‌ها: داده‌ها و کدهای استفاده‌شده در این مطالعه از طریق ایمیل نویسنده مسئول هادی لطف نژادافشار در دسترس است.
استفاده از هوش مصنوعی: جهت ویرایش بخش انگلیسی این مقاله از نرم‌افزار InstaText استفاده ‌شده است. تمام محتوای ویرایش شده با این نرم‌افزار توسط نویسندگان بررسی و تائید شده است.
تشکر و قدردانی: نویسندگان از تمامی ارائه‌دهندگان خدمات بهداشتی که از این مطالعه در بیمارستان‌های سیدالشهدا و آیت‌الله طالقانی ارومیه حمایت کردند، سپاسگزارند. این مقاله حاصل بخشی از پایان‌نامه با عنوان «پیش‌بینی طول مدت اقامت بیماران نارسایی احتقانی قلب با استفاده از تکنیک‌های داده‌کاوی در بیمارستان‌های آموزشی سیدالشهدا و آیت‌الله طالقانی شهر ارومیه»، در مقطع کارشناسی ارشد مصوب دانشگاه علوم پزشکی در سال ۱۳۹۹ با کد طرح 2509 و کد رهگیری ۳۱۴۴ است

 
نوع مقاله: پژوهشي | موضوع مقاله: فن آوری اطلاعات سلامت
دریافت: 1403/11/21 | پذیرش: 1404/6/12 | انتشار: 1404/7/6

فهرست منابع
1. Alemzadeh-Ansari MJ, Ansari-Ramandi MM, Naderi N. Chronic pain in chronic heart failure: a review article. The Journal of Tehran University Heart Center. 2017;12(2):49-56. Available from: /https://pmc.ncbi.nlm.nih.gov/articles/PMC5558055
2. Keyhani D, Razavi Z, Shafiee A, Bahadoram S. Autonomic function change following a supervised exercise program in patients with congestive heart failure. ARYA Atherosclerosis. 2013;9(2):150-156. PMCID: PMC3653242. Available from: https://pmc.ncbi.nlm.nih.gov/articles/PMC3653242
3. Writing Group Members, Rosamond W, Flegal K, et al. Heart disease and stroke statistics-2009 update: a report from the American heart association statistics committee and stroke statistics subcommittee. Circulation. 2009;119(3):e21-e181 [DOI:10.1161/CIRCULATIONAHA.108.191261]
4. Ahmadi A, Soori H, Mobasheri M, Etemad K, Khaledifar A. Heart failure: the outcomes, predictive and related factors in Iran. Journal of Mazandaran University of Medical Sciences. 2014;24(118):180-188. [In Persian]. Available from: http://jmums.mazums.ac.ir/article-1-4636-en.html
5. Liu LC, Voors AA, van Veldhuisen DJ, van der Meer P. Heart failure highlights in 2012-2013. European Journal of Heart Failure. 2014;16(2):122-32. [DOI:10.1002/ejhf.43]
6. Bowen RES, Graetz TJ, Emmert DA, Avidan MS. Statistics of heart failure and mechanical circulatory support in 2020. Annals of Translational Medicine. 2020;8(13):827. [DOI:10.21037/atm-20-1127]
7. Nomali M, Mohammadrezaei R, Keshtkar AA, Roshandel G, Ghiyasvandian S, Alipasandi K, et al. Self-monitoring by traffic light color coding versus usual care on outcomes of patients with heart failure reduced ejection fraction: protocol for a randomized controlled trial. JMIR Research Protocols. 2018;7(11):e9209. [DOI:10.2196/resprot.9209]
8. Ziaeian B, Fonarow GC. Epidemiology and aetiology of heart failure. Nature Reviews Cardiology. 2016;13(6):368-78. [DOI:10.1038/nrcardio.2016.25]
9. Mirdamadi A, Shafiee A, Ansari-Ramandi M, Garakyaraghi M, Pourmoghaddas A, Bahmani A, Mahmoudi H, Gharipour M. Beneficial effects of testosterone therapy on functional capacity, cardiovascular parameters, and quality of life in patients with congestive heart failure. BioMed Research International. 2014;2014:392432. [DOI:10.1155/2014/392432]
10. Mori J, Krantz MJ, Tanner J, Horwich TB, Yancy C, Albert NM, Hernandez AF, Dai D, Fonarow GC. Influence of hospital length of stay for heart failure on quality of care. The American Journal of Cardiology. 2008;102(12):1693-1697. [DOI:10.1016/j.amjcard.2008.08.015]
11. Azari A, Janeja VP, Mohseni A. Predicting hospital length of stay (PHLOS): a multi tiered data mining approach. In: 2012 IEEE 12th International Conference on Data Mining Workshops (ICDMW). 2012. p. 17-24. [DOI:10.1109/ICDMW.2012.69]
12. Mehdipour Y, Ebrahimi S, Karimi A, Alipour J, Khammarnia M, Siasar F. Presentation a model for prediction of cerebrovascular accident using data mining algorithm. Sadra Medical Journal. 2016;4(4):255-266. Available from: https://smsj.sums.ac.ir/article_43946_en.html
13. Ristevski B, Chen M. Big data analytics in medicine and healthcare. Journal of Integrative Bioinformatics. 2018;15(3):20170030. [DOI:10.1515/jib-2017-0030]
14. Pasupathi C, Kalavakonda V. Evidence based healthcare system using big data for disease diagnosis. In: 2016 2nd International Conference on Advances in Electrical, Electronics, Information, Communication and BioInformatics (AEEICB). 2016. p. 370-4. [DOI:10.1109/AEEICB.2016.7538393]
15. Sarafi Nejad A, Saeid A, Mohammed Rose I, Rowhanimanesh A. Modeling a data mining decision tree and propose a new model for the diagnosis of skin cancer by immunohistochemical staining methods. Journal of Health and Biomedical Informatics. 2014;1(1):54-62. Available from: http://jhbmi.ir/article-1-62-en.html
16. Tekieh MH, Raahemi B. Importance of data mining in healthcare: a survey. In: Proceedings of the 2015 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. 2015. p. 1057-62. [DOI:10.1145/2808797.2809367]
17. Turgeman L, May JH, Sciulli R. Insights from a machine learning model for predicting the hospital length of stay at the time of admission. Expert Systems with Applications. 2017;78:376-85. [DOI:10.1016/j.eswa.2017.02.023]
18. Hachesu PR, Ahmadi M, Alizadeh S, Sadoughi F. Use of data mining techniques to determine and predict length of stay of cardiac patients. Healthcare Informatics Research. 2013;19(2):121-9. [DOI:10.4258/hir.2013.19.2.121]
19. Thuraisingham B. A primer for understanding and applying data mining. IT Professional. 2002;2(1):28-31. [DOI:10.1109/6294.819936]
20. Zhao J, Feng X, Pang Q, Fowler M, Lian Y, Ouyang M, et al. Battery safety: machine learning-based prognostics. Progress in Energy and Combustion Science. 2024;102:101142. [DOI:10.1016/j.pecs.2023.101142]
21. Luo L, Lain S, Feng C, Huang D, Zhang W. Data mining-based detection of rapid growth in length of stay on COPD patients. In: 2017 IEEE 2nd International Conference on Big Data Analysis (ICBDA). 2017. p. 319-23. [DOI:10.1109/ICBDA.2017.8078819]
22. Daghistani TA, Elshawi R, Sakr S, Ahmad A, Al-Thwayee A, Al-Mallah. Predictors of in hospital length of stay among cardiac patients: a machine learning approach. International Journal of Cardiology. 2019; 288:140-7. [DOI:10.1016/j.ijcard.2019.01.046]
23. Neri L, Oberdier MT, van Abeelen KCJ, Menghini L, Tumarkin E, Tripathi H, et al. Electrocardiogram monitoring wearable devices and artificial-intelligence-enabled diagnostic capabilities: a review. Sensors. 2023;23(10):4805. [DOI:10.3390/s23104805]
24. Dai W, Brisimi TS, Adams WG, Mela T, Saligrama V, Paschalidis IC. Prediction of hospitalization due to heart diseases by supervised learning methods. International Journal of Medical Informatics. 2015;84(3):189-197. [DOI:10.1016/j.ijmedinf.2014.10.002]
25. Natale J. A strategy for reducing congestive heart failure readmissions through the use of interventions targeted by machine learning [Doctoral dissertation]. University of Akron; 2015. OhioLINK Electronic Theses and Dissertations Center. Available from: http://rave.ohiolink.edu/etdc/view?acc_num=akron1428233380
26. Messerli FH, Rimoldi SF, Bangalore S. The transition from hypertension to heart failure: contemporary update. JACC: Heart Failure. 2017;5(8):543-51. [DOI:10.1016/j.jchf.2017.04.012]
27. Berkhin P, Becher JD. Learning simple relations: theory and applications. In: Proceedings of the 2002 SIAM International Conference on Data Mining. 2002. p. 420-36. [DOI:10.1137/1.9781611972726.25]
28. Zebin T, Rezvy S, Chaussalet TJ. A deep learning approach for length of stay prediction in clinical settings from medical records. In: 2019 IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB). 2019. p. 1-6. [DOI:10.1109/CIBCB.2019.8791477]
29. Flach P, Blockeel H, Ferri C, Orallo JH, Struyf J. Decision support for data mining: an introduction to ROC analysis and its applications. In: Data Mining and Decision Support: Integration and Collaboration. Springer; 2003. p. 81-90. [DOI:10.1007/978-1-4615-0286-9_7]
30. Galdi P, Tagliaferri R. Data mining: accuracy and error measures for classification and prediction. Encyclopedia of Bioinformatics and Computational Biology. 2018;1:431-6. [DOI:10.1016/B978-0-12-809633-8.20474-3]
31. Ben-David A. About the relationship between ROC curves and Cohen's kappa. Engineering Applications of Artificial Intelligence. 2008;21(6):874-81. [DOI:10.1016/j.engappai.2007.09.009]
32. Preda S, Oprea SV, Bâra A, Belciu (Velicanu) A. PV forecasting using support vector machine learning in a big data analytics context. Symmetry. 2018;10(12):748. [DOI:10.3390/sym10120748]
33. Huang J, Ling CX. Using AUC and accuracy in evaluating learning algorithms. IEEE Transactions on Knowledge and Data Engineering. 2005;17(3):299-310. [DOI:10.1109/TKDE.2005.50]
34. Levy D, Larson MG, Vasan RS, Kannel WB, Ho KK. The progression from hypertension to congestive heart failure. JAMA. 1996;275(20):1557-62. [DOI:10.1001/jama.1996.03530440037034]
35. Maharlou H, Niakan Kalhori S.R, Shahbazi S, Ravangard R. Predicting length of stay in intensive care units after cardiac surgery: comparison of artificial neural networks and adaptive neuro fuzzy system. Healthcare Informatics Research. 2018;24(2):109-17. [DOI:10.4258/hir.2018.24.2.109]
36. Gholipour C, Rahim F, Fakhree A, Ziapour B. Using an artificial neural networks (ANNs) model for prediction of intensive care unit (ICU) outcome and length of stay at hospital in traumatic patients. Journal of Clinical and Diagnostic Research. 2015;9(4):OC19-23. [DOI:10.7860/JCDR/2015/9467.5828]
37. Bleumink GS, Knetsch AM, Sturkenboom MC, Straus SM, Hofman A, Deckers JW, et al. Quantifying the heart failure epidemic: prevalence, incidence rate, lifetime risk and prognosis of heart failure: the Rotterdam Study. European Heart Journal. 2004;25(18):1614-9. [DOI:10.1016/j.ehj.2004.06.038]
38. Sud M, Yu B, Wijeysundera HC, Austin PC, Ko DT, Braga J, et al. Associations between short or long length of stay and 30 day readmission and mortality in hospitalized patients with heart failure. JACC: Heart Failure. 2017;5(8):578-88. [DOI:10.1016/j.jchf.2017.03.012]
39. Gottlieb SS, Abraham W, Butler J, Forman DE, Loh E, Massie BM, et al. The prognostic importance of different definitions of worsening renal function in congestive heart failure. Journal of Cardiac Failure. 2002;8(3):136-41. [DOI:10.1054/jcaf.2002.125289]
40. Heist EK, Ruskin JN. Atrial fibrillation and congestive heart failure: risk factors, mechanisms, and treatment. Progress in Cardiovascular Diseases. 2006;48(4):256-69. [DOI:10.1016/j.pcad.2005.09.001]

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این وب سایت متعلق به مدیریت سلامت می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

© 2026 CC BY-NC 4.0 | Journal of Health Administration

Designed & Developed by : Yektaweb