
书: https://pan.baidu.com/s/1o53U8DJYBlzPKes4X47C8Q?pwd=ymj8
笔记如下:
- “数据分析的核心流程:数据采集→清洗→探索→建模→可视化,Python是贯穿全流程的瑞士军刀。”
- “Pandas的
DataFrame是二维表的终极解决方案,df.describe()三秒掌握数据分布。” - “数据清洗四板斧:
dropna()去空值、fillna()填充、drop_duplicates()去重、astype()类型转换。” - “Matplotlib可视化黄金口诀:
plt.figure()创建画布→plt.plot()绘图→plt.xlabel()加标签→plt.show()展示。” - “Scikit-learn的
fit()和predict()是机器学习通用接口,记住‘先训练,后预测’。” - “特征工程决定模型上限:归一化(
MinMaxScaler)、标准化(StandardScaler)、独热编码(OneHotEncoder)。” - “分类问题评估看混淆矩阵(
confusion_matrix),回归问题看均方误差(mean_squared_error)。” - “K折交叉验证(
KFold)防止模型过拟合,cross_val_score一键评估泛化能力。” - “决策树的可视化:
export_graphviz生成树图,max_depth控制深度防过拟合。” - “随机森林(
RandomForestClassifier)是‘群体智慧’,通过n_estimators调节树的数量。” - “K均值聚类(
KMeans)的肘部法则:inertia_下降拐点即最佳K值。” - “PCA降维:
n_components=2将高维数据压缩到二维,便于可视化。” - “神经网络的入门代码:
Sequential()堆叠层,Dense()全连接,relu激活函数。” - “Numpy的广播机制(Broadcasting)实现数组高效运算,避免低效循环。”
- “
seaborn.heatmap()一键绘制相关性矩阵,pairplot()展示特征间关系。” - “时间序列分析:
pd.to_datetime()转换时间列,rolling(7).mean()计算7天滑动平均。” - “XGBoost的三大参数:
learning_rate(学习率)、max_depth(深度)、n_estimators(树数量)。” - “模型部署:用
pickle保存训练好的模型,joblib加速大模型序列化。” - “机器学习黄金定律:‘数据和特征决定了模型上限,算法和调参只是逼近这个上限’。”
- “避免掉坑:先跑通基线模型(如逻辑回归),再尝试复杂模型(如深度学习)。”