简介:分类是指利用数据的特性将其分成若干类型的过程。
监督学习分类器就是用带标记的训练数据建立一个模型,然后对未知数据进行分类。
2025年09月12日
简介:分类是指利用数据的特性将其分成若干类型的过程。
监督学习分类器就是用带标记的训练数据建立一个模型,然后对未知数据进行分类。
2025年09月12日
大数据文摘受权转载自法纳斯特
Seaborn是一个基于Python语言的数据可视化库,它能够创建高度吸引人的可视化图表。
在Matplotlib库的基础上,提供了更为简便的API和更为丰富的可视化函数,使得数据分析与可视化变得更加容易。
Seaborn的设计哲学是以美学为中心,致力于创建最佳的数据可视化。
同时也保持着与Python生态系统的高度兼容性,可以轻松集成到Python数据分析以及机器学习的工作流程中。
2025年09月12日
随机森林属于集成学习Bagging的典型算法,其弱学习器为决策树算法。如下图所示。
随机森林会在原始数据集中随机抽样,构成n个不同的样本数据集,然后根据这些数据集搭建n个不同的决策树模型。最后,根据这些决策树模型的平均值(针对回归模型)或者投票情况(针对分类模型)来获取最终结果。
随机森林的“随机”是指数据随机采样以及特征随机采样,“森林”则是指利用多棵自由生长的决策树组成一片“森林”。 “随机”使它具有抗过拟合能力,“森林”使它更加精准。
2025年09月12日
你是否曾面对枯燥的数据表格却无从下手?只需几行代码,让你的数据“活”起来!
在数据时代,仅有冷冰冰的数字远远不够。如何让数据开口说话,揭示背后的规律与价值?Python的Matplotlib和Seaborn库正是你的不二之选!
2025年09月12日
我想大家都听说过人工智能agent,觉得是如此高大上,但如果你亲身体验过 Jupyter Agent 之后,你绝对会被他不容小觑的能力所折服!接下来云朵君将和大家一起探索一番!
Jupyter Agent是HuggingFace空间中的一个人工智能代理。它只需一个提示就能创建整个 python 笔记本,并能自主处理错误、输出和读取上传的文件。虽然它被称为 Jupyter Agent,但其工作方式与谷歌 Colab 相同,有些人可能对谷歌 Colab 创建 python 笔记本更为熟悉。
2025年09月12日
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。这里先不讲解原理,通过两个实例介绍一下SVM在机器学习中的作用和使用方法。
SVM也是一种有监督学习算法,从与标记的训练数据集中建立学习函数,仅需少量训练样本,其函数可以是分类函数(输出是二元的),解决了区分两类由n维向量表示的成员的一般性学习问题;通过引入可选的,经过修改的,包含距离度量的损失函数,SVM也可以被用于回归问题。
2025年09月12日
做数据分析时,一堆冷冰冰的数字总让人头大?其实只要把数据变成直观的图表,规律和结论分分钟浮出水面。今天就给大家安利一个Python绘图神器——Seaborn,哪怕是编程新手,也能画出专业级的统计图表!
很多人学Python绘图先接触Matplotlib,但用起来总觉得麻烦:调颜色、改字体、调整坐标轴,一行行代码写下来,半天才能画出一张能看的图。
2025年09月12日
今天来更新一个超超超级经典的数据集的数据分析实验吧!
在今天这个实验室中,我们将使用著名流行的数据集——【鸢尾花数据集-Iris Dataset】(来自Ronald Fisher)。
2025年09月12日
由Fisher在1936年整理的Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。其数据集变量包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度))这四个变量预测鸢尾花的分类,其特征值都为正浮点数,单位为厘米。预测变量目标值为鸢尾花的分类为三类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),Iris Virginica(维吉尼亚鸢尾)。