数据分析与机器学习项目流程
2024-12-04 22:01 2
0
0
免费使用
画布
|
大纲
为你推荐
《病者生存》: 探索疾病如何塑造人类进化与生存的惊人真相。
《异星危机》: 人类在遥远星球上遭遇未知生物的生存挑战。
《儿童时间管理训练手册》: 培养孩子高效时间管理能力的实用指南。
《你是你吃出来的(套装共2册)》: 通过饮食改变健康,探索食物与身体的奥秘。
《精校评注古文观止》:一部集中国古代散文之大成,经过精心校对和详尽注释的文学宝库。
《美人》: 一部探索人性、爱情与背叛的深刻小说。
《松弛感:把能量从敏感焦虑中释放出来》:一本教你如何在快节奏生活中找到平衡,释放内心压力,享受真正自由与幸福的指南书。
《豹:一个意大利家族的时代挽歌》:一部描绘意大利贵族家族在社会变革中衰落与新生的史诗巨作。
《刘禹锡集》:唐代诗人刘禹锡的诗歌、散文、赋等作品集,展现了其卓越的文学才华和深邃的思想内涵。
《少年白马醉春风(全3册)》:一部以少年成长为主线,融合武侠、奇幻元素的热血冒险故事。
《风景与权力》: 探讨风景如何成为权力的象征和工具,揭示自然景观与社会政治之间的深层联系。
《顺水推舟》: 一句话介绍书籍内容
# 数据分析与机器学习项目流程
## 数据加载
### �载训练集 (train_df) 和测试集 (test_df)
## �步探索
### 查看数据头部 (head())
### �查数据类型和非空计数 (info())
### �认缺失值情况 (isnull().any(), count_null())
## 数据清洗
### �理缺失值
#### 使用中位数填充年龄 (Age) 的缺失值
#### 使用最常见的登船港口 (Embarked) �充缺失值
### �码分类变量
#### �别 (Sex):男 → 0, � → 1
#### 登船港口 (Embarked):S → 0, C → 1, Q → 2
### �理异常值
#### 对票价 (Fare) �行上限编码 (encode_Fare)
## �征工程
### 创建新特征
#### �龄分段 (Age2):少年 < 18, 中年 18-48, �年 > 48
#### �一化/标准化数值特征(如年龄)
## 数据预处理
### �建最终训练集 (train_df2) 和测试集 (test_df2)
### 删除不必要的列(如 PassengerId, Name, Ticket, Cabin)
### �除含有缺失值的行 (dropna())
## �型训练与评估
### 分离特征 (X_train) 和标签 (Y_train)
### �练多个模型:
#### 逻辑回归 (LogisticRegression)
#### �策树 (DecisionTreeClassifier)
#### K近邻 (KNeighborsClassifier)
### 输出模型在训练集上的准确率 (score())
## �测
### 使用训练好的模型对测试集进行预测 (predict())
### 获取预测概率 (predict_proba())
## 结果比较
### �较不同模型之间的预测结果 (knn_outputs == logreg_outputs)
作者其他创作