来源:DeepHub IMBA
2025年08月02日
什么是生存?生存的意义很广泛,可以指人或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常工作(相对于失效或故障),甚至可以是客户的流失与否,等等。在生存分析中,研究的主要对象是寿命超过某一时间的概率。还可以描述其他一些事情发生的概率,例如产品的失效、出狱犯人第一次犯罪、失业人员第一次找到工作等。在某些领域的分析中,经常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效、手术后的存活时间、某件机器的使用寿命等。
2025年08月02日
上一节我们讲到了决策树这个算法,但是一棵决策树可能会存在过拟合的现象,而且对数据微小的变化也比较敏感,为了解决这些问题,我们可以通过多棵树的方式,也就是今天要介绍的随机森林。
随机森林算法也就是Random Forest,它是一种集成学习算法,所谓集成学习,就是通过多个能力比较弱的机器学习模型的预测结果来得到一个更好的预测结果。随机森林的这一种方式叫做Bagging,它是Bootstrap Aggregate的简写,就是通过自助采样(bootstrap sampling)生成多个训练子集,分别训练后把结果聚合起来。
2025年08月02日
摘要:本文以通俗易懂的方式介绍了如何利用Python和人工智能技术,实现对病患病历的智能筛选。文章详细讲解了从数据准备、预处理、模型选择与训练,到模型评估和新病例预测的完整流程。通过实际的病历数据表和Python代码示例,使读者可以快速掌握如何用决策树算法自动判断病人是否生病。该方法不仅能大幅提升医疗筛查的效率和准确率,还为医生提供了有力的辅助决策工具。
2025年08月02日
决策树是一种树形结构,树结构中的每个节点都可以理解为是一个规则,通过对规则处理的结果进行分类,最终完成对整体数据的分类,当然也可以用于回归。下面我们就来拿一个是否去爬山的案例来说明,比如通过判断明天是否下雨、是否降温来决定是否去爬山,可以构造出如下的决策树:
要实现一个决策树,最核心的就是要确定每个节点要通过哪个特征来分类,比如在我们上面举的例子中,到底是先判断是否下雨这个特征,还是先判断是否降温这个特征。通常有两种方式可以选择:
2025年08月02日
机器学习模型常常需要大量数据,但它们如何与实时新数据协同工作也同样关键。交叉验证是一种通过将数据集分成若干部分、在部分数据上训练模型、在其余数据上测试模型的方法,用来检验模型的表现。这有助于发现过拟合或欠拟合的问题,并预测模型在真实场景中的效果。