��/��/��ţ

��

ģ��ѡ��ۣ�һ��

��Դ�� - CarpeeDiemer

ģ��ѡ�� ֮ ��֤

�Ƚ��ѵ��ģ��֤ģ��һ�ַ��ģ��Щ�ظ��ϱ��ֺܳ�ɫ��Ƕ��µ��ȴ��Ϊ��ɷ��

Ϊ�˱��ʵ��У��мල��ѧϰ��ʵ��ͨ��ᱣ��һ��Ϊ��Լ��Ȼ��ʹ��Ļ��ѧϰʵ��У��ʵ��Ҳ�Ǳز��ٵġ�

��scikit-learn�� train_test_split��Ľ��ݷֳɲ��Լ��ѵ��

��ǽ��ͨ�� train_test_split��ֳ�40%��Ϊ��Լ�� ǵķ��

stratify��ֵΪ��ǩ�� ѵ��Ͳ��Լ��и��ı��һ�£�

ѵ��ѵ��ģ�ͣ��Լ��

��Ĳ�ͬ��ʱ��SVM�ĳͷ��ӡ�C��Ҫ��ԣ��Ȼ��й��ϵķ��գ��Ϊ��ݲ��Լ��ֵ��

��ʵҲ��Լ��һЩ��Ϣ��ģ��ѵ��׶θ��й¶��ˣ��Ӷ�ʹ��ڲ��Լ��ϵ�һЩ��ָ�겻�ܷ�ӳģ��ķ��

Ϊ�˽��⣬��ǻ��ٷֳ��֤��validation set��ѵ��training set��ģ��ѵ��֤��validation set��ģ��ۣ��ģ�͵��ţ��ò��Լ��յ��

Ȼ��ֳ��ϣ��ѵ��ģ�͵��

ͨ��֤��cross-validation��ķ�ʽ��Ͳ��Ҫ��ֳ�һ��֤��ˡ�

�ڻ��ķ�ʽ�У�Ҳ��K�۽��֤��ѵ��ᱻ�ֳ�K��ͬ��С��ϣ�k-1��Ϊѵ��ʣ�µ�һ��֤��׼ȷ�ʣ��

��̿��ѭ��K�Σ�ÿ��϶��һ��֤��ģ�͵��ֵ��K��ѭ��ƽ��ֵ��ַ�ʽ�ļ��ϴ󣬵��ǲ��˷��ٵ��һ��޴��ơ�

1. ��㽻��ָ֤��

ʹ�ú��cross_val_score ��ʹ�ý��֤��򵥵ķ�ʽ��

��ʾ�� Ժ˺��֧�� iris��ݼ��۽��֤�õ�׼ȷ�ʣ�

��׼ȷ�ʾ�ֵ��95%��䣺

ÿ�ν��֤�ĵ��̶��һ��score��,score�ļ��㷽ʽ�ǿ��ָ��ģ��£�ָ��F1��Ϊ��score��

��cv��ĸ�ֵ��һ��ʱ��cross_val_score��ʹ�� K��(KFold) �� ֲ�K��(StratifiedKFold) ��ԡ�

��ȻҲ��ͨ��һ��֤��ʹ��Ľ��֤��,��£�

��Ԥ��̽׶�Ҳ��ܲ��Լ�

��Ԥ��׶ζ��׼��׼��ֻ��ѵ��ϣ�

��Ϲ��Щ��׼��ģ��ѵ��Ԥ�⣩�ǹ̶��Ĳ��裻��ݳ�Ϊ��ô��̿��Գ��ܵ��

��Խ��̽��뵽��֤:

1.1 cross_validate��ֶ��ָ��

�� ͬ��:

��ָ��ָ��ģ��

��ص��ֵ䣨dict��,��˲��Եĵ÷֣�score��ѵ��÷֡�ѵ��ʱ�䡢��ʱ��

��һ��ַ��None,��ǵ�ָ��ۣ��ô��ص��ֵ��keysΪ

��ڶ�ָ��ۣ��ص��ֵ��keysΪ

��ȱʡΪ��Ϊ��еĴ��scorer��key��Ҫ��Խ��ֵ��Ϊ

��ָ��ͨ��Ƶ��б��List��Ԫ��(tuple)��߼��(Set��ָ��

��Ȼ��Ҳ��Զ��Լ��Ĵ��:

test_prec_macro [ 0.96969697 1. 0.96969697 0.96969697 1. ]

train_prec_macro [ 0.97674419 0.97674419 0.99186992 0.98412698 0.98333333]

test_rec_micro [ 0.96666667 1. 0.96666667 0.96666667 1. ]

train_rec_micro [ 0.975 0.975 0.99166667 0.98333333 0.98333333]

��һ��ָ�꽻��֤��:

1.2 ͨ��֤�õ�Ԥ��ֵ

��ƵĽӿڣ��᷵��Ԫ��Ϊ��Լ�ʱ��õ��Ԥ��ֵ��

��Ȼ��ֻ�е��֤��ʹ��ÿ��Ԫ�ض��ֻ��һ��Ϊ��֤��Ļ��ʱ�ſ��ʹ��

��Ȼ��ͨ��cross_val_score��õ��ϸ΢��ƫ���Ϊ��ʱ��в�ͬ

2 ��֤��

��һ�½ڻ��һЩ��ĳ��򣬸��ݲ�ͬ�Ľ��֤��,��Щ��ݼ��

2.1 ��ͬ�ֲ��i.i.d.��ݵĽ��֤��

��һЩ��Ƕ��ͬ�ֲ��ģ�Ҳ��˵��е��ͬһ��ɹ��̣��ɹ��̶Թ�ȥ��û�м��䣨��͵�ģ�;��Ӳ��ʵ�飩��

��Ľ��ֳ��С�

ע�⣺

��Ȼ�ڻ��ѧϰ��У��඼��Ƕ��ͬ�ֲ��ģ��ʵ��ȴ��ټ��ġ��֪��ʱ��ɹ��̣��ѡ��Ը�֪ʱ��еĽ��֤��ͬ��ģ��֪��ھ��з��ṹ��ɹ��̣��Ӳ�ͬ��⡢ʵ�顢�豸��ռ��ô��ѡ��齻��֤��

2.1.1 K�۽��֤��K-fold��

KFold ��ΪK��ͬ��ģ��ܣ��飨��Ϊ�ۣ��k=n(��)��ô��һ��֤��Leave One Out��ԣ�K-1��Ϊѵ��ʣ�µ�1��Ϊ��֤��

�ĸ��ʹ��2�۽��֤��

��ϣ�2�۽��֤��黮�֣�ÿ��array,��һ��ѵ��ڶ��֤��

��ͨ��Щ��ѵ��Լ��£�

2.1.2 �ظ�K�ۣ�RepeatedK-Fold��

RepeatedKFold ��ظ�n��KFold�Ĺ��̡��Ҫ��KFold��ÿ�λ��ֲ�ͬʱ��Կ��

�ظ��2�۽��֤��

2.1.3 ��һ��֤��Leave One Out�� LOO

ÿ��һ��Ϊ��֤��ѵ��ԣ��n��Ǿͻ��n��ѵ��Ͳ��Լ��Ļ��ַ�ʽ��ַ�ʽ��˷��ݡ�

�û��ֽ��֤��ҪȨ��һЩ��գ�

��õ��ģһ�µ�ģ��

ÿ��ģ�Ͷ��n-1��ѵ��õ�

��n�ܴ�ʱ��ַ�ʽ��ͨ��K�ۣ��Ҫ�ܴ�ļ��

��׼ȷ��ϣ��һ��֤�ķ��ϴ��ģ�͵�һ��Ҫָ�ꡣ

ֱ��ϣ�ʹ��n-1��Ϊѵ��ѵ��ģ�ͣ��Щģ�ͼ��ʹ��ѵ��ģ��ͬ��

Ȼ��ѧϰ��߶��ѵ��ģ��˵�Ǻܶ��ģ��ô��ۻ��ʮ�۽��֤��߹��

һ��ģ��ߺ�ʵ��ݣ��֧��ۻ��ʮ�۽��֤��һ��֤Ҫ�á�

2.1.4 ��P��֤ Leave POut (LPO)

LeavePOut �� LeaveOneOut��ƣ��P��Ϊ��֤��඼��ѵ��n��ļ��˵��$ \begin p \ n \\end $ ��train-test�ԡ��LeaveOneOut��KFold��ͬ�� p > 1 ʱ�� ᲻ֹһ��Ϊ��֤��֤��ص��

�ĸ��ݼ��֤��

2.1.5 ��(Random permutations)��֤ Ҳ�� ϴ��ٻ��(Shuffle &Split)

ShuffleSplit ��Ը��û�ָ�� train-test��ϡ��Ȼᱻϴ��Ȼ�󱻻��ֳ�ѵ��֤��

��ͨ�� α��ġ��ӡ��seed��Ҳ��random_state��֣�

ShuffleSplit �� K�۽��֤��һ��ѡ��ͬ��Կ��Ƶ��Ĵ��ѵ��߲��Լ��Ļ��ֱ��

2.2 ��ǩ�ķֲ㽻��֤��Cross-validation iteratorswith stratification based on class labels��

һЩ��Ŀ��ķֲ��Ϻܲ�ƽ�⣺��磬��ĺö౶�� £��Ƽ�ʹ�÷ֲ��StratifiedKFold �� StratifiedShuffleSplit,�Ա��ֵ�ѵ��/��Լ��ǩ��Ա��

2.2.1 �ֲ��K�۽��֤Stratified KFold

StratifiedKFlod �� KFold �ı��֣��ֵ�ÿһ�۶��Ƿֲ�ģ��ָ��ǩ��Ա��һ�£�

��ʮ��ݼ��ʹ�÷ֲ��۽��֤��

�ظ��ֲ�K�۽��֤ RepeatedStratifiedKFold,��ظ� StratifiedKFold �Ĳ��裬��ұ�֤ÿ�ε��ѡ��һ��

2.2.2 �ֲ�� ϴ��ٻ�� ֤ Stratified Shuffle Split

StratifiedShuffleSplit �� ShuffleSplit�ı��֣��Ա�֤ÿ�λ��ֵ�ѵ��֤��е��ǩ��һ�¡�

2.3 ��ͬ��ݵĽ��֤��

��ϵ��ô��ͬ�ֲ��ļ��Ͳ��

��ҽ��ǴӲ�ͬ�Ĳ��ռ��ģ��ݾͺܿ��ڲ�ͬ��顣��У� ��˵�id ��ÿ��ݵ��ʶ��

��£��֪��ģ��ѵ��ʱ֪��Щ��Ĵ��ڱȲ�֪��Ҫ��Ϊ��֤��룬��Ҫȷ��֤��ڵ��鲻��ڶ�Ӧ��ѵ��С�

��¼��֤��Դﵽ��Ч��ʶͨ��groups ��ָ��

2.3.1 ��K�� GroupK-fold

GroupKFold �� KFold �ı��֣��ȷ��ͬ��ݲ��ͬʱ��ѵ��֤��

��磬��ǴӲ�ͬ��ռ��ģ��ÿ��¶��м��ģ��㹻��У��ѧϰ��Щ��ĸ߼��ô��ģ��µ��¾ͻ�ʧȥ��

GroupKFold��Ǳ��ֹ��ϵ��

��⣬ �ֱ��1��2, 3��ʶ��

ÿ��ڲ�ͬ�ĵ����ͬ��ⲻ��ͬʱ��֤��ѵ��С��Ȼ��Ҳ��ÿ��۲��ܱ�֤��ȫ��ͬ�ĳߴ磨��Ϊ��ܱ�֤ÿ��µ��һ�£��

2.3.2 ��һ�齻��֤ Leave One Group Out

LeaveOneGroupOut ��ǣ��Ȱ��飨��ͬһ��˵��ݷ�Ϊһ�ۣ��ֳ��ۣ�ÿһ�۷ֱ��Ϊ��֤��Ϊѵ��

��֤��ѵ��û�еģ��֤��ģ�ͱ��ֺ� Ҳ��˵��ģ��

һ��õĵĳ�� ʱ��Ϣ��ɹ��̸��й�ϵ��ô��ݾ��ν�ġ��顱��ʱ�Ϳ��Խ��ͬ��ݵ��Ϊһ��ۡ��֤��Ӷ�ʹģ�Ϳ��ǵ��ڲ�ͬ��еķ��

2.3.3 ��P�齻��֤ Leave PGroup Out

LeavePGroupsOut �� LeaveOneGroupOut ��ƣ�ͬ��Ҫ��֤��Լ��е��鲻�ܳ��ѵ��У��ǻὫP��ͬ��Ϊ��֤��

2.3.4 ��ϴ��ٻ�� Group Shuffle Split

GroupShuffleSplit �� ShuffleSplit �� LeavePGroupsOut,��ݻᰴ��Ϊ��λ��ֳ�ѵ��֤��

��ʹ��LeavePGroupsOut,��Ŀ�ر�࣬��п��ܻ��ַ�ʽ��һ��ܴ��Ŀ��⽫��Ӵ�ļ��£�GroupShuffleSplit ��ƾ��ֳ��ָ��ֵĴ��

2.4 Ԥ��廮�֣��֤�� PredefinedFold-Splits/Validation-Sets

��һЩ��ݼ��У��Ԥ��ݻ��ֵķ��ͨ�� PredefinedSplit��test_fold��á�

test_fold��һ��ģ��С��飬test_fold[i]��ֵ��i��ڵĲ��Լ��ֵ��ֵΪ-1ʱ��ڲ��Լ��С�

2.5 ʱ��ݵĽ��֤ Cross validation of time seriesdata

ʱ��ݵ��ص��ʱ��ӽ��еĹ�ϵ�ϡ�Ȼ��Ľ��֤��KFold �� ShuffleSplit ��Ƕ��ͬ�ֲ��ģ��ʱ��ϣ��ᵼ��ѵ��֤��֮��Ĳ��

TimeSeriesSplit��Խ��⡣

2.5.1 ʱ��л�� Time Series Split

��ÿ�λ��У��֤��һ��Ҫ��ѵ��Ҫ�ߣ��ʱ��Ͽ��󣩣��ˡ�ϴ�ơ��ʱ�򽻲��֤�ǲ��Ӧ�ġ�

�仮�ֵĻ��ԭ��ǣ��ڵ�K�λ��ʱ��ὫǰK��Ϊѵ��ڣ�k+1��Ϊ��֤��ˣ��ѵ��֮ǰѵ��ĳ��

3. ��ڡ�ϴ�ơ� A note onshuffling

��ݵ�˳��ģ��ͬ��ֵģ��ôֻ�о��ϴ�ƣ��ܵõ�һ��Ľ��֤��Ȼ��ݲ��Ƕ��ͬ�ֲ��ģ��ϴ�ƾͲ��ˡ��磺��ű��ǰ��ʱ��ģ��ô��ϴ�ơ��ģ�͹��ϣ��õ�һ��ߵĴ�֣��Ϊ��֤��е��Ϊϴ�Ƶ��º�ѵ��ƣ��

һЩ��֤�ĵ��KFold,��õ�ϴ��ѡ�

��ĺܶ��ڴ�

ȱʡ��²��ᡰϴ�ơ�

random_state ��ȱʡ�ǡ�None��,��˵ÿ��ϴ�ƶ��ͬ��൱�ڵ��KFold(��, shuffle=True)��Σ��random_state��ͬ��

Ϊ�˵õ��ɸ��ֵĽ��Ǹ�ֵrandom_stateΪһ��

4. ��֤��ģ��ѡ��

��֤��Ҳ�ᱻֱ��(Grid Search)Ѱ��ģ��ų��Ĺ��̡��¸��½ڽ��ܡ�

��: 2018-04-162018-04-16 23:58:20
ԭ��http://kuaibao.qq.com/s/20180417G003GG00?refer=cp_1026
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

ģ��ѡ��ۣ�һ��

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

ģ��ѡ�������ۣ�һ��

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

ģ��ѡ��ۣ�һ��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�