안녕하세요,
R 배우고 있는 학생입니다..
다름이 아니고
로지스틱 회귀분석을 돌렸는데
아래와 같이 변수명이 아닌, 변수값들이 우르르 떠서...
혹시 원인을 알 수 있을까요...??
확인 부탁 드립니다..ㅠ.ㅠ
+ 추가로 y 값들은 반드시 0 이상 1 이하이어야 합니다 >> 이 부분은 어떻게 해결하면 좋을까요..?
>> 코드값
data <- read.csv(file = file.choose())
str(data)
table(is.na(data))
colnames(data)
data <- data[, -c(1,2,6,10,17,18)]
colnames(data)
table(is.na(data))
table(is.na(data$YM))
table(is.na(data$GENDER))
table(is.na(data$SCTR_CD))
table(is.na(data$LN_CD_1))
table(is.na(data$LN_CD_2))
table(is.na(data$LN_AMT))
table(is.na(data$LAST_LOAN_CNT))
table(is.na(data$LAST_LOAN_AMT))
table(is.na(data$LAST_LOAN_CNT_2ND))
table(is.na(data$LAST_LOAN_AMT_2ND))
table(is.na(data$MM_CARD))
table(is.na(data$BAD_YN))
colnames(data)
data <- data[, -c(11)]
colnames(data)
table(is.na(data)) #결측치 없음 확인
table(data$BAD_YN)
install.packages("sampling")
library(sampling)
stratified_sampling <- strata(data, stratanames = c("BAD_YN"), size =c(286,286),
method="srswor")
st_data <- getdata(data, stratified_sampling)
table(st_data$BAD_YN)
library(caret)
train <- createDataPartition(st_data$ID, p=0.7, list=FALSE)
td <- st_data[train,]
vd <- st_data[-train,]
colnames(td)
td <- td[, -c(12,13,14)]
vd <- vd[, -c(12,13,14)]
colnames(td)
str(td)
td$GENDER <- as.factor(td$GENDER)
td$SCTR_CD <- as.factor(td$SCTR_CD)
td$LN_CD_1 <- as.factor(td$LN_CD_1)
td$LN_CD_2 <- as.factor(td$LN_CD_2)
td$BAD_YN <- as.numeric(td$BAD_YN)
td$BAD_YN[td$BAD_YN == 'Y'] <- 1
td$BAD_YN[td$BAD_YN == 'N'] <- 0
vd$GENDER <- as.factor(vd$GENDER)
vd$SCTR_CD <- as.factor(vd$SCTR_CD)
vd$LN_CD_1 <- as.factor(vd$LN_CD_1)
vd$LN_CD_2 <- as.factor(vd$LN_CD_2)
vd$BAD_YN <- as.factor(vd$BAD_YN)
vd$BAD_YN <- as.numeric(vd$BAD_YN)
vd$BAD_YN[vd$BAD_YN == 'Y'] <- 1
vd$BAD_YN[vd$BAD_YN == 'N'] <- 0
str(td)
# 로지스틱 회귀분석
model <- glm(BAD_YN ~., data=td, family=binomial)
summary(model)
Comment 1
-
cardiomoon
2021.08.11 09:01
질문을 이해하지 못하겠습니다. 출력결과는 정상적으로 보입니다.