当前位置：主页 > 查看内容

如果不能用Python执行机器学习，那该用什么呢？

发布时间：2021-10-21 00:00| 有位朋友查看

简介：本文转载自公众号读芯术(ID：AI_Discovery) 长期学习数据科学的人一定知道如何用Python、R和Julia这些语言执行机器学习任务。然而，如果速度很关键，但硬件很有限，或者所在公司仅使用SQL进行预测分析，又该怎么办呢?答案就是数据库内的机器学习。本文使用……

本文转载自公众号“读芯术”(ID：AI_Discovery)

长期学习数据科学的人一定知道如何用Python、R和Julia这些语言执行机器学习任务。然而，如果速度很关键，但硬件很有限，或者所在公司仅使用SQL进行预测分析，又该怎么办呢?答案就是——数据库内的机器学习。

本文使用的是Oracle Cloud。它是免费的，你可以注册并创建一个OLTP数据库 (19c版本，有0.2TB的存储空间)。完成之后，下载云钱包并通过SQL Developer或任何其他工具建立连接。这个过程至少要花费10分钟，但操作很简单，所以这里不多做赘述。

下面将使用Oracle机器学习(OML)在著名的Iris数据集中训练一个分类模型。选择它是因为无须任何准备，只需要创建表格并插入数据。

数据准备

如前所述，要创建一个表格来保存Iris数据集，然后将数据加载到其中。OML要求使用一个列作为行ID(序列)，因此要记住：

CREATE SEQUENCE seq_iris; 
CREATE TABLE iris_data( 
    iris_id      NUMBER DEFAULT seq_iris.NEXTVAL, 
    sepal_length NUMBER, 
    sepal_width  NUMBER, 
    petal_length NUMBER, 
    petal_width  NUMBER, 
    species      VARCHAR2(16) 
);

现在可以下载数据并进行加载了：

当一个模态窗口弹出时，只需提供下载CSV的路径并多次点击Next。SQL开发员无需帮助也能正确完成工作。

模型训练

现在可以动手做一些有趣的事情了。训练分类模型可以分解为多个步骤，例如训练/测试分割、模型训练和模型评估，我们从最简单的开始。

训练/测试分割

Oracle常用两个视图完成该步骤：一个用于训练数据，一个用于测试数据。可以轻松创建这些神奇PL/SQL：

BEGIN 
    EXECUTE IMMEDIATE  
        ‘CREATE OR REPLACE VIEW  
        iris_train_data AS  
        SELECT * FROM iris_data  
        SAMPLE (75) SEED (42)’; 
    EXECUTE IMMEDIATE  
        ‘CREATE OR REPLACE VIEW  
        iris_test_data AS  
        SELECT * FROM iris_data  
        MINUS  
        SELECT * FROM iris_train_data’; 
END; 
/

该脚本完成下列两件事：

创建一个训练视图-75%的数据 (SAMPLE (75)) 在随机种子42中分割( SEED (42))。
创建一个测试视图-区分整个数据集和训练视图

数据储存在叫做iris_train_data和iris_test_data的视图中，猜猜看它们分别存什么。

SELECT COUNT(*) FROM iris_train_data; 
>>> 111 
SELECT COUNT(*) FROM iris_test_data; 
>>> 39

模型训练

模型训练最简单的方法是无须创建额外的设置表格，只执行单一过程的DBMS_DATA_MINING包。使用决策树算法来训练模型。方法如下：

DECLARE  
    v_setlstDBMS_DATA_MINING.SETTING_LIST; 
BEGIN 
    v_setlst(‘PREP_AUTO’) := ‘ON’; 
    v_setlst(‘ALGO_NAME’) :=‘ALGO_DECISION_TREE’; 
  
    DBMS_DATA_MINING.CREATE_MODEL2( 
        ‘iris_clf_model’, 
        ‘CLASSIFICATION’, 
        ‘SELECT * FROM iris_train_data’, 
        v_setlst, 
        ‘iris_id’, 
        ‘species’ 
    ); 
END; 
/

CREATE_MODEL2过程接受多种参数。接着我们对进入的参数进行解释：

iris_clf_model — 只是模型名称，它可以是任何东西。
CLASSIFICATION — 正在进行的机器学习任务，因某种原因必须大写。
SELECT * FROM iris_train_data — 指定训练数据存储位置。
v_setlst — 模型的上述设置列表。
iris_id — 序列类型列的名称(每个值都是唯一的)。
species — 目标变量的名称(试图预测的东西)

执行这一模块需要一到两秒钟，执行完毕就可以开始计算了!

模型评价

使用该脚本评估此模型：

BEGIN 
    DBMS_DATA_MINING.APPLY( 
        ‘iris_clf_model’,  
        ‘iris_test_data’,  
        ‘iris_id’,  
        ‘iris_apply_result’ 
    ); 
END; 
/

它将iris_clf_model应用于不可见测试数据iris_test_data，并将评估结果存储到iris_apply_result表中。

行数更多(39×3)，但突显了要点。这还不够直观，所以下面以一种稍微不同的方式来展示结果：

DECLARE  
     CURSOR iris_ids IS  
         SELECT DISTINCT(iris_id) iris_id 
         FROM iris_apply_result  
         ORDER BY iris_id; 
     curr_y      VARCHAR2(16); 
     curr_yhat   VARCHAR2(16); 
     num_correct INTEGER := 0; 
     num_total   INTEGER := 0; 
BEGIN 
    FOR r_id IN iris_ids LOOP 
        BEGIN 
            EXECUTE IMMEDIATE  
                ‘SELECT species FROM  
                iris_test_data  
                WHERE iris_id = ‘ ||r_id.iris_id 
                INTO curr_y; 
            EXECUTE IMMEDIATE  
                ‘SELECT prediction  
                FROM iris_apply_result  
                WHERE iris_id = ‘ ||r_id.iris_id ||  
               ‘AND probability = ( 
                   SELECTMAX(probability)  
                       FROMiris_apply_result  
                       WHERE iris_id = ‘|| r_id.iris_id ||  
                   ‘)’ INTO curr_yhat; 
        END; 
  
        num_total := num_total + 1; 
        IF curr_y = curr_yhat THEN  
            num_correct := num_correct +1; 
        END IF;  
    END LOOP; 
  
    DBMS_OUTPUT.PUT_LINE(‘Num. testcases: ‘  
        || num_total); 
    DBMS_OUTPUT.PUT_LINE(‘Num. correct :‘  
        || num_correct); 
    DBMS_OUTPUT.PUT_LINE(‘Accuracy : ‘  
        || ROUND((num_correct /num_total), 2)); 
END; 
/

确实很多，但上述脚本不能再简化了。下面进行分解：

CURSOR—得到所有不同的iris_ids(因为iris_apply_results 表中有重复)。
curr_y, curr_yhat, num_correct, num_total 是存储每次迭代中的实际种类和预测种类、正确分类数量和测试项总数的变量。
对于每个唯一的iris_id 得到实际种类(来自匹配ID的iris_test_data)和预测种类(在 iris_apply_results 表中预测概率最高)
轻松检查实际值和预测值是否相同——这表明分类是正确的。
变量 num_total 和 num_correct 在每次迭代中更新。
最后，将模型性能打印到控制台。

下面为该脚本输出：

测试集有39个用例
39个样本中，正确分类的有37个
结果准确率为95%

以上就是模型评估的基本内容。

并不是所有人在工作中都能使用Python，现在，你又掌握了一种解决机器学习任务的方法。

本文转载自网络，原文链接：https://www.toutiao.com/i6891836341336834563/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：因为这7个C++的坑，整个团队加班一星期 下一篇：没有了

随机推荐

React RFC Server Components是什么，有

12月21日，React团队公布了一个新的提案Server Components。伴随这个提案同时发...
成本管理最佳实践 - 云服务器 ECS

本教程介绍云服务器ECS的成本构成和优势，并提供成本管理的推荐方案，帮助您通过...
沉寂了一周，我开发了一个聊天室

前言最近一周没有发文章了，我在这里向大家说一声抱歉。今天，我们来从零开始开...
主机租用的类型跟简介

一、按主机租用机型分为独立主机租用、虚拟空间租用与vps主机租用独立主机：独...
DataWorks运维中心与移动版介绍 | 《一站

作者 DataWorks产品经理张华蕊一、运维中心简介 DataWorks运维中心是对任务进...
私有网络基础网络互通 - 操作指南

基础网络功能实现私有网络与基础网络云服务器的通信，本文主要介绍基础网络互通...
移动推送 TPNS 数据概览 - 操作指南

移动推送 TPNS 的数据统计功能可以帮助产品运营人员快速的查看与推送（运营）目...
重金收购四字母Biki.com，币圈终端完成品

域名，在一开始其作用是为了代替繁琐难记的IP地址，但随着互联网不断发展普及，...
正确选择空间对网站优化的重要性

如今，随着互联网的发展，无论是企业网站还是个人网站，都想通过网站优化来提高...
告警管理使用说明_应用运维管理 AOM_用户

告警是指AOM自身或外部服务在异常情况或在可能导致异常情况下上报的信息，并且您...

如果不能用Python执行机器学习，那该用什么呢？

数据准备

模型评价

推荐图文

Serverless 应用中心 API 网关组件 - Serverless 组

查看应用事件 - Serverless应用引擎

阿里云开发者学堂电子书《Dubbo分布式服务治理实战

开发者学堂课程干货总结——Spring Boot 2.5.x开发

亚马逊首席技术官预测2021：八大技术趋势改变世界

关于现代包管理器的深度思考-为什么现在我更推荐 pn

随机推荐

React RFC Server Components是什么，有

成本管理最佳实践 - 云服务器 ECS

沉寂了一周，我开发了一个聊天室

主机租用的类型跟简介

DataWorks运维中心与移动版介绍 | 《一站

私有网络基础网络互通 - 操作指南

移动推送 TPNS 数据概览 - 操作指南

重金收购四字母Biki.com，币圈终端完成品

正确选择空间对网站优化的重要性

告警管理使用说明_应用运维管理 AOM_用户

关于我们