logistic regression

2563

收藏 2021-12-24

逻辑回归是分类当中极为常用的手段，它属于概率型非线性回归，分为二分类和多分类的回归模型。对于二分类的logistic回归，因变量y只有“是”和“否”两个取值，记为1和0。假设在自变量x1,x2,……,xp，作用下，y取“是”的概率是p，则取“否”的概率是1-p。下面将对最为常用的二分类logistic回归模型的原理以及应用进行介绍。

import numpy
import math
import matplotlib.pyplot as plt

def sigmoid(x):
a = []
for item in x:
a.append(1.0/(1.0 + math.exp(-item)))
return a

x = numpy.arange(-10, 10, 0.1)
y = sigmoid(x)
plt.plot(x,y)
plt.yticks([0.0, 0.5, 1.0])
plt.axhline(y=0.5, ls='dotted', color='k')
plt.show()

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

lonestone

2021-12-25 08:31:23

终身学习ing 发表于 2021-12-24 16:24
逻辑回归是分类当中极为常用的手段，它属于概率型非线性回归，分为二分类和多分类的回归模型。对于二分类 ...

谢谢老板的分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

九跳66

2021-12-25 23:34:40

终身学习ing 发表于 2021-12-24 16:27
# 在这边为方便，我们将训练集拷贝一份作为预测集（不包括 admin 列）
import copy
test_data = copy.de ...

感谢分享，很有用！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

redflame

2021-12-26 08:54:28

感谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

escaflowne1985

2021-12-26 15:39:10

感谢分享~~~~~~么么哒

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

数据洞见

2022-1-20 16:37:23

import pandas as pd
import statsmodels.api as sm
import pylab as pl
import numpy as np

df = pd.read_csv("binary.csv")

# 浏览数据集
print (df.head())
# admit  gre gpa  rank
#0    0  380  3.61    3
#1    1  660  3.67    3
#2    1  800  4.00    1
#3    1  640  3.19    4
#4    0  520  2.93    4

# 重命名'rank'列，因为dataframe中有个方法名也为'rank'
df.columns = ["admit", "gre", "gpa", "prestige"]

#数据统计情况
print (df.describe())
#          admit       gre       gpa prestige
#count  400.000000  400.000000  400.000000  400.00000
#mean    0.317500  587.700000 3.389900 2.48500
#std    0.466087  115.516536 0.380567 0.94446
#min    0.000000  220.000000 2.260000 1.00000
#25%    0.000000  520.000000 3.130000 2.00000
#50%    0.000000  580.000000 3.395000 2.00000
#75%    1.000000  660.000000 3.670000 3.00000
#max    1.000000  800.000000 4.000000 4.00000

# 频率表，表示prestige与admin的值相应的数量关系
print (pd.crosstab(df['admit'], df['prestige'], rownames=['admit']))
#prestige 1 2 3 4
#admit
#0       28  97  93  55
#1       33  54  28  12

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

数据洞见

2022-1-20 16:38:32

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

数据洞见

2022-1-20 16:41:01

# 将prestige设为虚拟变量
dummy_ranks = pd.get_dummies(df['prestige'], prefix='prestige')
print (dummy_ranks.head())
# prestige_1  prestige_2  prestige_3  prestige_4
#0          0          0          1          0
#1          0          0          1          0
#2          1          0          0          0
#3          0          0          0          1
#4          0          0          0          1

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

数据洞见

2022-1-20 16:41:54

# 除admit、gre、gpa外，加入了上面常见的虚拟变量（注意，引入的虚拟变量列数应为虚拟变量总列数减1，减去的1列作为基准）
cols_to_keep = ['admit', 'gre', 'gpa']
data = df[cols_to_keep].join(dummy_ranks.ix[:, 'prestige_2':])
print (data.head())
#  admit  gre gpa  prestige_2  prestige_3  prestige_4
#0    0  380  3.61          0          1          0
#1    1  660  3.67          0          1          0
#2    1  800  4.00          0          0          0
#3    1  640  3.19          0          0          1
#4    0  520  2.93          0          0          1

# 需要自行添加逻辑回归所需的intercept变量
data['intercept'] = 1.0

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

数据洞见

2022-1-20 16:42:16

# 指定作为训练变量的列，不含目标列`admit`
train_cols = data[data.columns[1:]]

# sigmoid函数
def sigmoid(inX):  #sigmoid函数
return 1.0/(1+np.exp(-inX))
#梯度上升求最优参数
def gradAscent(dataMat, labelMat):
dataMatrix=np.mat(dataMat) #将读取的数据转换为矩阵
classLabels=np.mat(labelMat).transpose() #将读取的数据转换为矩阵
m,n = np.shape(dataMatrix)
alpha = 0.00001  #设置梯度的阀值，该值越大梯度上升幅度越大
maxCycles = 300 #设置迭代的次数，一般看实际数据进行设定，有些可能200次就够了
weights = np.ones((n,1)) #设置初始的参数，并都赋默认值为1。注意这里权重以矩阵形式表示三个参数。
for k in range(maxCycles):
   h = sigmoid(dataMatrix*weights)
   error = (classLabels - h)    #求导后差值
   weights = weights + alpha * dataMatrix.transpose()* error #迭代更新权重
return weights

#得到权重
weights=gradAscent(train_cols, data['admit']).getA()
#print (weights)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

数据洞见

2022-1-20 16:44:04

# 在这边为方便，我们将训练集拷贝一份作为预测集（不包括 admin 列）
import copy
test_data = copy.deepcopy(data)

# 预测集也要添加intercept变量
test_data['intercept'] = 1.0

# 数据中的列要跟预测时用到的列一致
predict_cols = test_data[test_data.columns[1:]]

# 进行预测，并将预测评分存入 predict 列中
predict=[]
test=np.mat(predict_cols)
for i in test:
sum=sigmoid(i*np.mat(weights))
print (sum)
if sum <= 0.5:
      predict.append('0')
else:
      predict.append('1')
test_data['predict']=predict

#计算预测准确率
predict_right=0
for i in range(0,400):
if int(test_data.loc[i,'admit'])==int(test_data.loc[i,'predict']):
      predict_right=1+predict_right
else:
      predict_right=predict_right
print ("预测准确率:")
print ("%.5f" %(predict_right/400))
#预测准确率:
#0.68250

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群