网易首页 > 网易号 > 正文 申请入驻

Scikit-Learn 新版重磅升级!

0
分享至

来源:数据STUDIO

本次scikit-learn 1.3更新增加了许多错误修复和改进,并引入了一些重要的新功能(增功能:标签编码、决策树缺失值处理 等众多新特性)。

要查看所有更改的详尽列表,请参阅发布说明。


https://scikit-learn.org/stable/whats_new/v1.3.html#changes-1-3

使用pip安装最新版本:

pip install --upgrade scikit-learn

或者使用conda:

conda install -c conda-forge scikit-learn
特性1:元数据路由

https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_metadata_routing.html

新的元数据路由方式如sample_weight,该方式会影响到像pipeline.Pipelinemodel_selection.GridSearchCV这样的元估计器如何路由元数据。

尽管此功能的基础设施已经包含在此版本中,但相关工作仍在进行中,并非所有的元估计器都支持此新功能。您可以在元数据路由用户指南中了解更多关于此功能的信息。

特性2:HDBSCAN: hierarchical density-based clustering

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.HDBSCAN.html

HDBSCAN通过同时在多个epsilon值上执行修改版本的cluster.DBSCANcluster.HDBSCAN可以找到具有不同密度的聚类,使其比cluster.DBSCAN更具鲁棒性,对于参数选择更加稳健。

import numpy as np
from sklearn.cluster import HDBSCAN
from sklearn.datasets import load_digits
from sklearn.metrics import v_measure_score

X, true_labels = load_digits(return_X_y=True)
print(f"数字的数量:{len(np.unique(true_labels))}")

hdbscan = HDBSCAN(min_cluster_size=15).fit(X)
非噪声标签 = hdbscan.labels_[hdbscan.labels_ != -1]
print(f"找到的聚类数:{len(np.unique(非噪声标签))}")

print(v_measure_score(true_labels[hdbscan.labels_ != -1], 非噪声标签))
特性3:TargetEncoder

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html

preprocessing.TargetEncoder非常适用于具有高基数的分类特征。它根据属于该类别的观测的平均目标值的缩小估计来对类别进行编码。

import numpy as np
from sklearn.preprocessing import TargetEncoder

X = np.array([["cat"] * 30 + ["dog"] * 20 + ["snake"] * 38], dtype=object).T
y = [90.3] * 30 + [20.4] * 20 + [21.2] * 38

enc = TargetEncoder(random_state=0)
X_trans = enc.fit_transform(X, y)

enc.encodings_
特性4:决策树支持缺失值

现在tree.DecisionTreeClassifiertree.DecisionTreeRegressor类支持缺失值。对于非缺失数据的每个可能阈值,划分器将评估将所有缺失值分配给左节点或右节点的划分。

import numpy as np
from sklearn.tree import DecisionTreeClassifier

X = np.array([0, 1, 6, np.nan]).reshape(-1, 1)
y = [0, 0, 1, 1]

tree = DecisionTreeClassifier(random_state=0).fit(X, y)
tree.predict(X)
特性5:Validation Curve

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.ValidationCurveDisplay.html

现在可以使用from_estimator来创建一个ValidationCurveDisplay实例来可视化验证曲线。

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import ValidationCurveDisplay

X, y = make_classification(1000, 10, random_state=0)

_ = ValidationCurveDisplay.from_estimator(
LogisticRegression(),
X,
y,
param_name="C",
param_range=np.geomspace(1e-5, 1e3, num=9),
score_type="both",
score_name="Accuracy",
)
特性6:Gamma loss

通过loss="gamma"参数,ensemble.HistGradientBoostingRegressor类支持使用Gamma偏差损失函数。该损失函数适用于具有右偏分布的严格正值目标建模。

import numpy as np
from sklearn.model_selection import cross_val_score
from sklearn.datasets import make_low_rank_matrix
from sklearn.ensemble import HistGradientBoostingRegressor

n_samples, n_features = 500, 10
rng = np.random.RandomState(0)
X = make_low_rank_matrix(n_samples, n_features, random_state=rng)
coef = rng.uniform(low=-10, high=20, size=n_features)
y = rng.gamma(shape=2, scale=np.exp(X @ coef) / 2)
gbdt = HistGradientBoostingRegressor(loss="gamma")
cross_val_score(gbdt, X, y).mean()
特性7:长尾类别聚合

preprocessing.OrdinalEncoder现在与preprocessing.OneHotEncoder类似,支持将不常见的类别聚合为每个特征的单个输出。启用聚合不常见类别的参数包括min_frequencymax_categories

from sklearn.preprocessing import OrdinalEncoder
import numpy as np

X = np.array(
[["dog"] * 5 + ["cat"] * 20 + ["rabbit"] * 10 + ["snake"] * 3], dtype=object
).T
enc = OrdinalEncoder(min_frequency=6).fit(X)
enc.infrequent_categories_

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5月16日,多家上市公司发布重大利好利空消息

5月16日,多家上市公司发布重大利好利空消息

A股数据表
2026-05-16 06:00:24
必须奖励!深圳小伙觉得飞机不太对劲拍照反馈,排查发现真有故障

必须奖励!深圳小伙觉得飞机不太对劲拍照反馈,排查发现真有故障

观世记
2026-05-16 15:06:12
黄仁勋赶飞机与中美“共建天坛”叙事:中美关系的张力与隐喻

黄仁勋赶飞机与中美“共建天坛”叙事:中美关系的张力与隐喻

澎湃新闻
2026-05-16 07:20:27
为什么每次完事了都是进口农产品?

为什么每次完事了都是进口农产品?

多村来信
2026-05-15 19:02:51
香港回归前,英国同美国欲用48枚原子弹铲平中国,老一辈决策太牛

香港回归前,英国同美国欲用48枚原子弹铲平中国,老一辈决策太牛

云霄纪史观
2026-05-15 01:53:01
爆冷!亚运会名单公布,孙颖莎领衔,世界第四意外落选

爆冷!亚运会名单公布,孙颖莎领衔,世界第四意外落选

酷侃体坛
2026-05-16 16:08:02
云南疾控:我国西南地区男男性行为人群中发现新型HIV-1重组毒株

云南疾控:我国西南地区男男性行为人群中发现新型HIV-1重组毒株

生命科学前沿
2026-05-15 11:23:19
18年了!汶川地震丢下学生逃跑的“范跑跑”,如今竟过成了这样?

18年了!汶川地震丢下学生逃跑的“范跑跑”,如今竟过成了这样?

一盅情怀
2026-05-14 09:05:26
全面加速,第四艘中国航母即将官宣!命名大概率为"江苏号"

全面加速,第四艘中国航母即将官宣!命名大概率为"江苏号"

清欢百味
2026-05-16 04:31:22
民进党创党元老突然反水?预言:统一后,“台独”分子都跑不掉!

民进党创党元老突然反水?预言:统一后,“台独”分子都跑不掉!

菁菁子衿
2026-05-16 16:55:06
西决对阵出炉:马刺深入狼窝大胜而归,活塞与骑士连续两轮抢七

西决对阵出炉:马刺深入狼窝大胜而归,活塞与骑士连续两轮抢七

烧体坛
2026-05-16 12:16:37
今年首场明显降雨要来了!预计持续时间——

今年首场明显降雨要来了!预计持续时间——

BRTV新闻
2026-05-16 18:11:38
山西一载有学生的研学车侧翻,已致2人死亡,当地交通部门:涉事车辆载有12名学生和5名成人,另有1名司机

山西一载有学生的研学车侧翻,已致2人死亡,当地交通部门:涉事车辆载有12名学生和5名成人,另有1名司机

海峡网
2026-05-16 18:44:54
日本签证新政落地,在日华人中计了,拒签潮一出,大批老板走人

日本签证新政落地,在日华人中计了,拒签潮一出,大批老板走人

小莜读史
2026-05-16 17:06:17
编外人员“清退”开始,城管协管、辅警、护士教师都在其中

编外人员“清退”开始,城管协管、辅警、护士教师都在其中

巢客HOME
2026-05-14 05:55:06
美联储任命鲍威尔担任临时主席

美联储任命鲍威尔担任临时主席

新华社
2026-05-16 12:40:04
特朗普前脚刚走,三大噩耗突袭,2万亿大单悬了,石油储备见底!

特朗普前脚刚走,三大噩耗突袭,2万亿大单悬了,石油储备见底!

凉羽亭
2026-05-16 13:35:53
又毁了一个:林志玲踏上“文化台独”不归路

又毁了一个:林志玲踏上“文化台独”不归路

虎侃世界
2026-05-15 15:25:39
2比4出局!合同到期!39岁即将退役

2比4出局!合同到期!39岁即将退役

篮球教学论坛
2026-05-16 17:41:03
一战成名!16岁“加强版王钰栋”2场造5球:帮国少大胜韩国

一战成名!16岁“加强版王钰栋”2场造5球:帮国少大胜韩国

邱泽云
2026-05-16 17:19:35
2026-05-16 20:19:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3408文章数 11153关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

7人蒙面当街抢走幼童主谋竟是孩子生父 母亲奔波寻子

头条要闻

7人蒙面当街抢走幼童主谋竟是孩子生父 母亲奔波寻子

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

亲子
手机
数码
本地
公开课

亲子要闻

一个姐姐半个妈,姐姐贴心守护弟弟,懂事得让人心疼

手机要闻

小米卢伟冰回应为什么没有出iPhone Air形态的产品

数码要闻

“暴力熊”推出开盖版英特尔酷睿Ultra 7 270K Plus处理器

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版