首页
学习
活动
专区
工具
TVP
发布

数据STUDIO

专栏作者
334
文章
585771
阅读量
29
订阅数
使用PyTorch实现L1, L2和Elastic Net正则化
L1 正则化的特点是它可以产生稀疏模型,即许多模型参数会被设置为零。这种特性使得L1正则化不仅可以防止过拟合,还可以进行特征选择。
数据STUDIO
2024-05-20
180
使用 Python 库 tracc 解析城市交通可达性
tracc是一个开源的Python库,专注于城市交通可达性分析。它提供了一套功能强大的工具,能够帮助用户加载、处理和分析交通数据,从而评估不同地区的交通可达性情况。
数据STUDIO
2024-05-20
230
用于时间序列概率预测的蒙特卡罗模拟
蒙特卡罗模拟这个名称源自于摩纳哥王国的蒙特卡罗城市,这里曾经是世界著名的赌博天堂。在20世纪40年代,著名科学家乌拉姆和冯·诺依曼参与了曼哈顿计划,他们需要解决与核反应堆中子行为相关的复杂数学问题。他们受到了赌场中掷骰子的启发,设想用随机数来模拟中子在反应堆中的扩散过程,并将这种基于随机抽样的计算方法命名为"蒙特卡罗模拟"(Monte Carlo simulation)。
数据STUDIO
2024-05-20
300
Kaggle Solo第一!
第一名方案主要由4个XGBoost模型(2个不同的标签)以及2个GRU模型(2个不同模型)组成。
数据STUDIO
2024-05-20
120
为什么我们公司还在用 Python 开发项目?
一直很想了解那些仍在坚持使用 Python,且支撑业务量有一定规模的公司是如何使用 Python 技术栈做开发的、会遇到哪些困难/教训、有什么样的优秀经验?
数据STUDIO
2024-05-11
1090
用于时间序列概率预测的共形分位数回归
QR 估算的是目标变量的条件量值,如中位数或第 90 个百分位数,而不是条件均值。通过分别估计不同水平预测变量的条件量值,可以很好地处理异方差。虽然大多数情况下量化值可以提供准确的预测区间,但当模型假设被违反时,量化值预测可能会不准确。
数据STUDIO
2024-05-10
1060
时间序列概率预测的共形预测
现实世界中的应用和规划往往需要概率预测,而不是简单的点估计值。概率预测也称为预测区间或预测不确定性,能够提供决策者对未来的不确定性状况有更好的认知。传统的机器学习模型如线性回归、随机森林或梯度提升机等,旨在产生单一的平均估计值,而无法直接给出可能结果的数值范围。如何从点估计扩展到预测区间,正是现代时间序列建模技术所关注的重点。
数据STUDIO
2024-05-10
1650
时间序列数据处理,不再使用pandas
Pandas DataFrame通常用于处理时间序列数据。对于单变量时间序列,可以使用带有时间索引的 Pandas 序列。而对于多变量时间序列,则可以使用带有多列的二维 Pandas DataFrame。然而,对于带有概率预测的时间序列,在每个周期都有多个值的情况下,情况又如何呢?图(1)展示了销售额和温度变量的多变量情况。每个时段的销售额预测都有低、中、高三种可能值。尽管 Pandas 仍能存储此数据集,但有专门的数据格式可以处理具有多个协变量、多个周期以及每个周期具有多个样本的复杂情况。
数据STUDIO
2024-05-10
810
用于时间序列概率预测的分位数回归
以往的回归模型实际上是研究被解释变量的条件期望。??们也关?解释变量与被解释变量分布的 中位数,分位数呈何种关系。它最早由Koenker和Bassett(1978)提出。
数据STUDIO
2024-05-10
1230
强大的 Scikit-learn 可视化让模型说话
使用 utils.discovery.all_displays 查找可用的 API。
数据STUDIO
2024-05-10
870
Python 离群点检测算法 -- LOF
离群点很容易感知,但用数学定义却不容易。相距甚远的数据点就是离群点。一次我在海滩岩石上看日落,一群海鸥站在我旁边的岩石上,有一只灰色的海鸥独自站在另一块岩石上。从我坐的地方看,那只灰色的海鸥是个异类。虽然海滩很长,海滩上还有很多其他的单身海鸥。从海滩的近处向远处看,那只灰色海鸥并不像离群的。
数据STUDIO
2024-04-30
1180
Python 离群值检测算法 -- XGBOD
表征学习是机器学习中的一门学科,研究在没有人工干预的情况下发现原始数据表征的系统方法。其目的是利用机器学习算法学习数据中的正常和模糊模式,并用新的特征表示原始数据。无监督学习中的离群值可以作为有监督学习模型的输入特征,BORE方法提出了这一观点。利用离群值分数进行监督学习可以提供更好的预测结果。
数据STUDIO
2024-04-30
1080
Python 离群点检测算法 -- OCSVM
支持向量机(SVM)是一种监督学习算法,可处理分类和回归问题,由Vladimir Vapnik及其同事在1992-1995年在AT&T贝尔实验室开发。现已广泛应用于分类问题。
数据STUDIO
2024-04-30
1230
?Python 离群点检测算法 -- GMM
GMM 是由杜达和哈特在 1973 年的论文中提出的无监督学习算法。如今,GMM 已被广泛应用于异常检测、信号处理、语言识别以及音频片段分类等领域。在接下来的章节中,我会首先解释 GMM 及其与 K-均值法的关系,并介绍 GMM 如何定义异常值。然后,我会演示如何使用 GMM 进行建模。
数据STUDIO
2024-04-30
1290
这个被忽略的细节,是编写优秀 Python 代码的必经之路
Python是一种动态类型编程语言,变量的类型是在运行时分配的,无需在赋值之前定义特定类型。
数据STUDIO
2024-04-26
1250
Python离群值检测算法 -- Isolate Forest
许多离群点检测方法通常先分析正常数据点,然后找出不符合正常数据模式的观测值。然而,Liu、Ting和Zhou(2008)提出的Isolate Forest(IForest)与这些方法不同。相反,IForest直接识别异常点,而不是通过分析正常数据点来发现异常值。它使用树形结构来隔离每个观测点,异常点往往是最先被挑出来的数据点,而正常点则隐藏在树的深处。他们将每棵树称为Isolate Tree(iTree),构建了一个iTrees树群。异常点是指iTrees上平均路径长度较短的观测点。
数据STUDIO
2024-04-26
1280
五一抢票难,Python抢票脚本,火了!
py12306 项目其实就是一个抢票工具,可能因为临近出行购票热潮,这类项目又重新受到关注。
数据STUDIO
2024-04-26
2450
30 秒掌握 Python map/filter/reduce
map 函数接收 1)一个函数和 2)一个可迭代元素。函数的目的是对可迭代的每个元素(想想列表)进行某种转换。然后,它将函数应用到可迭代表中的每个元素,并返回一个新的可迭代表。
数据STUDIO
2024-04-26
1000
Python 离群点检测算法 -- PCA
高维数据集是指包含大量变量的数据集,也称为 "维度诅咒",通常给计算带来挑战。尽管大功率计算在某种程度上可以处理高维数据,但在许多应用中,仍有必要降低原始数据的维度。PCA 能够降低由大量相关变量组成的数据集的维度,并尽可能地保留方差。它找到新的变量,而原始变量只是它们的线性组合,这些被称为主成分(PC)。主成分是正交的,即彼此垂直。
数据STUDIO
2024-04-26
940
Python 离群点检测算法 -- KNN
无监督 KNN 方法使用欧氏距离计算观测值和其他观测值之间的距离,无需调整参数即可提高性能。其步骤包括计算每个数据点与其他数据点的距离,根据距离从小到大对数据点进行排序,然后选取前 K 个条目。常用的距离计算方法之一是欧氏距离。
数据STUDIO
2024-04-26
730
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com