رگرسیون لجستیک
در رگرسیون لجستیک متغیر وابسته، متغیری دو حالته (Binary or Dichotomous) می باشد.مثلا مرگ (وقوع مرگ درمقابل زندگی) و یا ابتلا به بیماری (سلامت در مقابل ابتلا به یک بیماری خاص).متغیر های مستقل نیز می توانند کمی و یا کیفی باشند.
چگونه یک معادله ی رگرسیون لجستیک نوشته می شود:
Y=a‑‑‑‑1x1+a2x2+…akxk+b
که در آن x1 تا xk متغیر های مستقل، y متغیر وابسته، a1 تاak ضریب رگرسیون(نشاندهنده ی اهمیت نسبی متغیر مستقل) می باشد در معادله رگرسیون خطی از آنجا که متغیر وابسته کمی است مشکلی درطرف معادله وجود ندارد اما در رگرسیون لجستیک سمت چپ معادله یعنی متغیر وابسته کیفی است و تنها دو حالت برای آن تعریف شده است که با سمت راست معادله که محدوده ی وسیعی را پوشش می دهد مطابقت ندارد و در نتیجه از نظر ریاضی صحیح نمی باشد.
راه حل:
باید طرف چپ معادله را نیز به یک متغیر کمی با محدوده ی وسیع تبدیل کرد که این کار در سه مرحله انجام می گیرد:
1- جایگزینی متغیر دو حالته ی y با احتمالِ(P (وقوع این متغیر(که بین 0 تا 1 تغیر می کند)
2- جایگزینی احتمال y با مقدار odds( متغیر Y
همانطور که می دانیم شانس (odds) وقوع یک پیامد برابر است با نسبت احتمال وقوع یک پیامد به احتمال عدم وقوع آن پیامد. برای مثال اگر احتمال وقوع یک پیامد برابر با باشد، آنگاه شانس و قوع آن پیامد برابر با نسبت به می باشد; یعنی .
حال نسبت شانس وقوع یک پیامد در یک گروه به شانس وقوع همان پیامد در گروه دیگر به عنواننسبت شانس تعریف می شود یعنی همان:Odds Ratio (OR)
P=0->odds=0
P=0.5->odds=1
P=1->odds=+
با توجه به مثال فوق، واضح است که میزان شانس (Odds) زمانی به میزان احتمال نزدیک است که مقدار احتمال مربوطه کم باشد در نتیجه زمانی می توان OR را تقریبا نزدیک به RR (Relative Risk) دانست که احتمال وقوع پیامد کم باشد و یا مثلا بیماری نادر باشد و این معمولا زمانی است که مطالعات مورد –شاهدی استفاده می کنیم.
تعیین اعتبار آماری OR نیز با آزمودن این فرضیه صورت می گیرد که آیا بین OR و عدد یک اختلاف معناداری وجود دارد؟چرا که اگر OR برابر با یک شود آنگاه شانس بیماری در دو گروه یکی خواهد بود و اکسپوژر مورد نظر دیگر به عنوان risk factor یا Protective Factor تعریف نخوهد شد. همچنین می توان دامنه اطمینان نسبت شانس را نیز مورد بررسی قرار داد که اگر یک را در بر بگیرد آنگاه می توان گفت در حالتی OR برابر با یک خواهد شد پس نسبت شانس معنی دارنمی شود.
تا اینجا متغیر y را از دو حالته بودن به یک متغیر با محدوده ی صفر تا بی نهایت تبدیل کرده ایم
3-در این مرحله از متغیر تغییر شکل یافته ی Y لگاریتم طبیعی می گیریم:
Ln(odds): Ln (0)=-
Ln(1)=0
Ln (+)=
پس با قرار دادن لگاریتم طبیعی مقدار odds متغیر دو حالته Y، توانستیم این متغیر را به یک متغیر با محدوده ی تا - تبدیل کنیم و هم اکنون معادله ی ما مشابه معادله رگرسون خطی شده است و می تواتیم از آن برای بیان تاثیر متغیر های مستقل بر لگاریتم طبیعی odds یکی از حالات متغیر وابسته بپردازیم:
Log(odds)=logit(p)=Ln( )=a1x1+a2x2+…+akxk+b
از هر معادله رگرسیون لجستیک دو نکته قابل دستیابی است:
1-بررسی شدت ارتباط متغیر وابسته و مستقل و مقایسه ی متغیر های مستقل از نظر میزان اثر نسبی بر متغیر وابسته که این امر با بررسی ضرائب متغیر ها ( ) امکان پذیر می باشد که با کمک این عدد می توان، OR(Odds Ratio) مربوط به متغیر مستقل مربوطه را به دست آورد.برای مثال فرض کنید به دنبال ارتباط بین وقع مرگ ناشی از بیماری قلبی و جنسیت بیماران(sex=1=male, sex=2=female (هستیم .فرمول کلی به این صورت خواهد بود log(odds)=a.sex+b
شانس مرگ ناشی از بیماری قلبی در مردان=log(odds in male)=a+b
=شانس مرگ ناشی از بیماری قلبی درزنانlog(odds in female)=2a+b
ازآنجا که تفاضل دو مقدار در مقیاس لگاریتمی برابر با تقسیم آن دو عدد در مقیاس عددی است:
Log(odds in female)-Log(odds in male)=log =Log OR = (2a+b)-(a+b)=a
2-پیش گویی کردن متغیر وابسته بر حسب تغییرات متغیرهای مستقل