以下是一些常见的机器学习术语,学习和使用机器学习肯定会用到的内容包括(微信公众号:百齐鸣):
- 监督学习(Supervised Learning): 使用带有标签的训练数据来训练模型,以便模型能够预测新数据的标签。
- 无监督学习(Unsupervised Learning): 使用没有标签的训练数据,目标是发现数据的结构或模式,如聚类或降维。
- 半监督学习(Semi-supervised Learning): 使用同时包含标签和无标签数据的混合数据集进行训练。
- 强化学习(Reinforcement Learning): 通过试错来学习,代理根据环境的反馈采取行动,以最大化某种奖励信号。
- 特征工程(Feature Engineering): 对原始数据进行转换或创建新特征,以提高机器学习模型的性能。
- 模型评估(Model Evaluation): 使用不同的指标来评估模型性能,如准确率、精确度、召回率等。
- 过拟合(Overfitting): 模型在训练数据上表现良好,但在新数据上表现差,因为它过度适应了训练数据的噪声。
- 欠拟合(Underfitting): 模型无法在训练数据上获得足够好的拟合,因为它不能捕捉数据中的趋势。
- 交叉验证(Cross-Validation): 将数据分成多个子集,轮流将其中一个子集作为验证集,其余作为训练集,以便更全面地评估模型性能。
- 梯度下降(Gradient Descent): 优化算法,通过沿着损失函数梯度的反方向更新模型参数,以最小化损失。
- 超参数(Hyperparameter): 在模型训练之前设置的参数,不由模型学习,通常需要手动调整。
- 深度学习(Deep Learning): 使用多层神经网络进行学习的机器学习子领域。
- 卷积神经网络(CNN): 一种专用于处理网格化数据(如图像)的深度学习网络。
- 循环神经网络(RNN): 具有循环结构的神经网络,适用于处理序列数据,如时间序列。
- 支持向量机(SVM): 一种用于分类和回归的监督学习算法。
- 决策树(Decision Tree): 通过一系列决策规则对数据进行分割的树状模型。
- 集成学习(Ensemble Learning): 将多个模型的预测结合起来,以提高整体性能。
- 正则化(Regularization): 通过添加额外的惩罚项或约束来防止过拟合。
- 自监督学习(Self-Supervised Learning): 一种无监督学习的形式,其中模型使用数据本身生成标签。
- 生成对抗网络(GAN): 包括生成器和判别器的模型,通过对抗训练生成逼真的数据。
- 奇异值分解(Singular Value Decomposition,SVD): 一种矩阵分解技术,常用于降维和特征提取。
- 主成分分析(Principal Component Analysis,PCA): 一种常用的降维技术,通过线性变换将数据映射到低维空间。
- 词嵌入(Word Embedding): 将单词映射到实数向量的技术,常用于自然语言处理任务。
- 迁移学习(Transfer Learning): 将在一个任务上训练的知识迁移到另一个相关任务上的方法。
- 标签传播(Label Propagation): 一种半监督学习方法,通过在图上传播标签来进行分类。
- K均值聚类(K-Means Clustering): 一种常用的无监督学习聚类算法。
- Bagging: 通过在不同的训练子集上训练多个模型,然后将它们的预测进行平均或投票,以提高性能的集成学习方法。
- Boosting: 通过迭代训练一系列弱模型,每个模型都试图纠正前一个模型的错误,以提高性能的集成学习方法。
- 蓝牙不相干(Bayesian Inference): 基于贝叶斯定理的统计推断方法,用于更新概率分布。
- 自动编码器(Autoencoder): 一种神经网络结构,用于学习输入数据的紧凑表示。
- 标签噪声(Label Noise): 训练数据中存在错误标签的情况,可能会影响模型性能。
- 迭代法(Iterative Method): 通过多次重复过程来逐步逼近问题解的方法,例如梯度下降。
- 核方法(Kernel Methods): 使用核函数来扩展算法以处理非线性关系的方法,如支持向量机。
- 回归分析(Regression Analysis): 用于建立变量之间关系的统计分析方法,用于预测数值型输出。
- 深度强化学习(Deep Reinforcement Learning): 结合深度学习和强化学习的方法,通常用于处理复杂的决策问题。
- 回溯搜索(Backtracking Search): 一种搜索算法,常用于优化问题的解空间。
- 非监督特征学习(Unsupervised Feature Learning): 从无标签数据中学习有用特征的方法。
- 置信区间(Confidence Interval): 给定样本数据的区间,用于估计未知参数的范围。
- 数据清洗(Data Cleaning): 处理数据中缺失值、异常值等问题,以提高模型性能。
- 神经网络正则化(Neural Network Regularization): 通过添加额外的约束或惩罚来防止神经网络过拟合的方法,如丢弃法(Dropout)。
- 马尔可夫链蒙特卡洛法(Markov Chain Monte Carlo,MCMC): 一种采样技术,用于从复杂分布中抽取样本。
- 元学习(Meta-Learning): 一种学习算法如何学习的框架,通过在多个任务上学习来提高模型的泛化能力。
- 迷雾计算(Federated Learning): 在分散的设备上进行模型训练,而无需将原始数据传输到中央服务器。
- 生成模型(Generative Model): 能够生成新样本,类似于训练数据的模型,如生成对抗网络(GAN)。
- 注意力机制(Attention Mechanism): 在神经网络中,对不同部分输入的分配不同权重的机制,用于处理序列和集合数据。
- 深度强化学习(Deep Reinforcement Learning): 结合深度学习和强化学习的方法,通常用于处理复杂的决策问题。
- 迁移学习(Transfer Learning): 将在一个任务上学到的知识应用到另一个相关任务的方法。
- 正交化(Orthogonalization): 将复杂问题分解成更简单、相对独立的子问题的过程。
- 对抗训练(Adversarial Training): 通过在训练过程中引入对抗性样本,提高模型的鲁棒性。
- 深度强化学习(Deep Reinforcement Learning): 结合深度学习和强化学习的方法,通常用于处理复杂的决策问题。
- 解释性机器学习(Explainable AI,XAI): 使机器学习模型的决策过程更易于理解和解释的方法。
- 批量归一化(Batch Normalization): 在神经网络中一种用于加速收敛和减轻梯度消失问题的技术。
- 贝叶斯优化(Bayesian Optimization): 一种优化技术,适用于黑盒函数,通过在搜索中维护概率模型来选择下一个样本点。
- 深度学习框架(Deep Learning Framework): 提供了构建、训练和部署深度学习模型的工具和接口的软件库,如TensorFlow、PyTorch等。
- 梯度爆炸(Exploding Gradient): 在训练神经网络中,梯度变得非常大,导致参数更新过大的现象。
- 元学习(Meta-Learning): 一种学习算法如何学习的框架,通过在多个任务上学习来提高模型的泛化能力。
- 多标签学习(Multi-Label Learning): 一种任务涉及多个标签的学习问题,每个样本可以属于多个类别。
- 深度学习加速器(Deep Learning Accelerator): 专门设计用于执行深度学习任务的硬件或芯片。
- 超分辨率(Super-Resolution): 通过增加图像像素的方法提高图像的分辨率。
- 监督学习中的损失函数(Loss Function): 用于衡量模型预测与实际标签之间差异的函数,如均方误差、交叉熵等。
- 模型选择(Model Selection): 在多个模型中选择最适合解决特定问题的模型的过程。
- 归一化(Normalization): 调整数据的幅度,使其在一定范围内,例如将数据缩放到0和1之间。
- 核函数(Kernel Function): 在支持向量机等算法中用于将输入映射到高维空间的函数。
- 伯努利分布(Bernoulli Distribution): 一种离散概率分布,通常用于描述二项试验的结果。
- 采样(Sampling): 从数据集或分布中选择样本的过程,用于估计统计性质或训练模型。
- 稀疏矩阵(Sparse Matrix): 大多数元素为零的矩阵,用于表示高维数据中的稀疏性。
- 预处理(Preprocessing): 在模型训练之前对数据进行清理、变换或缩放的过程。
- 机器学习流水线(Machine Learning Pipeline): 将数据处理、特征工程、模型训练和评估等步骤组合在一起的工作流程。
- 投影(Projection): 将高维数据映射到低维空间的过程,常见于降维方法中。
- 拟合(Fitting): 通过调整模型参数使其与训练数据匹配的过程,即训练模型。
- 随机森林(Random Forest): 一种集成学习方法,由多个决策树组成,通过投票或平均提高预测性能。
- 数据挖掘(Data Mining): 从大规模数据集中发现模式、关联和知识的过程。
- 图神经网络(Graph Neural Network,GNN): 专门用于处理图结构数据的神经网络。
- 扩展性(Scalability): 系统或算法在处理大规模数据时的能力。
- 标签平滑(Label Smoothing): 在训练过程中将真实标签调整为介于0和1之间的概率,以提高模型的泛化性能。
- 时间序列分析(Time Series Analysis): 研究时间序列数据中趋势、周期性和其他模式的方法。
- K近邻(K-Nearest Neighbors,KNN): 一种基于实例的学习算法,通过与最近邻的样本进行比较来进行预测。
- 深度强化学习(Deep Reinforcement Learning): 结合深度学习和强化学习的方法,通常用于处理复杂的决策问题。
- 粒子滤波(Particle Filtering): 一种用于状态估计的贝叶斯滤波方法,常用于跟踪问题。
- 信息熵(Entropy): 用于衡量数据集或随机变量不确定性的度量,常用于决策树的分割准则。
- 均方误差(Mean Squared Error,MSE): 回归问题中常用的损失函数,计算预测值与实际值之间的平方差的均值。
- 平均绝对误差(Mean Absolute Error,MAE): 回归问题中的另一种损失函数,计算预测值与实际值之间的绝对差的均值。
- R平方(R-squared): 衡量回归模型对因变量变化的解释程度,取值范围在0到1之间。
- 准确率(Accuracy): 分类问题中常用的指标,表示正确预测的样本数占总样本数的比例。
- 精确度(Precision): 衡量模型在预测为正类别的样本中实际为正类别的比例。
- 召回率(Recall): 衡量模型在所有实际正类别样本中成功预测为正类别的比例。
- F1分数(F1 Score): 精确度和召回率的调和平均,综合考虑了模型的准确性和完整性。
- ROC曲线(Receiver Operating Characteristic Curve): 衡量二分类模型性能的图形化工具,以真正例率和假正例率为坐标。
- AUC(Area Under the Curve): ROC曲线下的面积,用于综合评估分类模型的性能。
- 对数损失(Logarithmic Loss,Log Loss): 用于衡量分类模型在概率上的准确性,常用于评估概率性预测。
- 混淆矩阵(Confusion Matrix): 表示分类模型预测结果的矩阵,包括真正例、真负例、假正例和假负例。
- 特异性(Specificity): 衡量模型在负类别中成功预测为负类别的比例。
- 灵敏度(Sensitivity): 又称为召回率,衡量模型在正类别中成功预测为正类别的比例。
- 平均精确度均值(Mean Average Precision,mAP): 衡量在信息检索任务中模型的性能,是精确度-召回率曲线下的平均精确度。
- Jaccard相似度系数(Jaccard Similarity Coefficient): 衡量两个集合的相似度,用于评估分类模型的性能。
- Matthews相关系数(Matthews Correlation Coefficient,MCC): 衡量分类模型性能的指标,考虑了真正例、真负例、假正例和假负例。
- 区分度指数(Discriminant Power,DP): 衡量特征对于区分不同类别的贡献程度。
- 信息增益(Information Gain): 用于决策树中的指标,表示通过某个特征对数据进行划分而获得的纯度提升。
- 平均相对误差(Mean Relative Error,MRE): 回归问题中的指标,衡量预测值与实际值之间相对误差的平均值。
- KL散度(Kullback-Leibler Divergence,KL Divergence): 衡量两个概率分布之间的相似性,常用于评估生成模型的性能。
- 余弦相似度(Cosine Similarity): 衡量两个向量之间的夹角余弦值,通常用于计算文本相似性。
- Huber损失(Huber Loss): 回归问题中的损失函数,对异常值具有一定的鲁棒性,介于均方误差和平均绝对误差之间。
- 平均汉明损失(Average Hamming Loss): 用于多标签分类问题的指标,衡量模型对每个标签的预测准确性。
- 偏差-方差权衡(Bias-Variance Tradeoff): 在模型中平衡偏差(模型对训练数据的拟合能力)和方差(模型对数据变化的敏感性)的过程。
- 加权交叉熵损失(Weighted Cross-Entropy Loss): 分类问题中的损失函数,允许为不同类别分配不同的权重。
- 平均池化(Average Pooling): 在卷积神经网络中常用的池化操作,取池化窗口中所有值的平均值。
- Spearman相关系数(Spearman Rank Correlation Coefficient): 衡量两个变量之间的非线性关系的统计指标,不受数据分布影响。
- 交互信息增益(Mutual Information Gain): 衡量两个变量之间的信息关联性,用于特征选择。
- 平均池化(Average Pooling): 在卷积神经网络中常用的池化操作,取池化窗口中所有值的平均值。
- 杰卡德指数(Jaccard Index): 衡量两个集合的相似性,是交集与并集之比。
- KL散度(Kullback-Leibler Divergence,KL Divergence): 衡量两个概率分布之间的差异。
- 帕累托最优解(Pareto Optimal): 在多目标优化中,表示无法进一步改进一个目标而不损害其他目标。
- 交叉熵(Cross-Entropy): 用于衡量两个概率分布之间的差异,常用于分类问题的损失函数。
- 信息检索(Information Retrieval): 通过检索系统从大量数据中找到相关信息的过程。
- 特征选择(Feature Selection): 从原始特征中选择最具代表性的一部分特征的过程。
- 感知器(Perceptron): 一种简单的人工神经元模型,是神经网络的基础。
- Cohen’s Kappa系数(Cohen’s Kappa Coefficient): 衡量分类模型在考虑随机预测的情况下的准确性。
- 稀疏编码(Sparse Coding): 表示数据的一种方式,其中只有少数几个系数是非零的。
- 二值化(Binarization): 将连续特征转换为二进制形式的过程,常用于文本分类等任务。
- 贝叶斯错误率(Bayes Error Rate): 在理想情况下,模型能够达到的最低错误率,表示分类问题的不可避免的错误。