��/��/��ţ

��

�򵥿�ݵ��ݴ��ݿ�ѧ��Ҫע��

��Դ�� - ��֮��

ѡ��Medium

��ߣ�Kade Killary

��֮�ı��

��룺Nurhachu Null��˼Դ

�Ժܶ��ݿ�ѧ�Ҷ��ԣ��ǵ��ݲ��Ҫʹ�� Pandas �� Tidyverse��ϣ��˵��û��κδ��󣬱Ͼ��Щ��ߴ��ڵ�ԭ��Ȼ��ڷָ��ת��ļ��ԣ��Щ��Ǵ��С�ã��ǿ��ֱ��ʹ��п��ٴ��

��Ӧ��ÿ��߶�ϣ��յģ��ݿ�ѧ�ҡ��Ϥ�ն˵��ȥ��Ժ��ʵؿ��Ǳ�ø��Ч�ʣ��л��Ǽ��е�һ��ܰ��ʷ�Ρ��磬awk ��Ľű�� 1977 �� Brina Kernighan �İ��״γ��ֵģ�Brina Kernighan �� K&R �Ȿ��е� K�� 50 ��Ľ��죬ÿ��Ȼ�ܹ�� awk ��ص��顣��ˣ��ǿ��Ա��صؼ��裺һ��в��ܵ�Ͷ��κ��½��ʱ��ڶ��ֵ��

��ǽ��漰��

ICONV

HEAD

SPLIT

SORT & UNIQ

CUT

PASTE

JOIN

GREP

SED

AWK

ICONV��ת��ļ��ı��뷽ʽ��

�ļ��ǱȽϼ��ֵġ��ڵĶ��ļ�� UTF-8 ��룬Ȼ��ʱ��õ��ļ��ʽ�ġ��ܵ��½��ʽʱ��һЩ��׵ĳ��ԡ��iconv ��һ��ߣ��һ�ֱ��ı�Ϊ��룬��һ�ֱ��ı��

��ѡ��

iconv -l �г��֪�ı��ַ��

iconv -c ��Բ��ת��ķǷ��ַ��Ĭ�ض��

HEAD��ʾ�ļ��Ŀ�ͷ��ݣ�

��һ��Ƶ��ʹ�� Pandas ��û��ô��Ƚ��Ϥ df.head()��Ĭ�� head ��ʾ�ļ��ǰ 10 ��ݣ��Ȼ��Ҳ��ѡ��ͬ�Ĳ��ȷ��ӡ��ַ��

��ѡ��

head -n ��ӡ�ض��Ŀ��

head -c ��ӡ�ض��Ŀ��ַ�

TR��ַ��滻��ѹ��ɾ��

tr ��ת��Ƚ��ƣ��ǿ��ļ��Ҫ��ߡ��½��ļ��еķָ��

tr ��һ��ǿ��Ƶ�� [:class:] ��Щ�÷��

[:alnum:] ��е��ĸ��

[:alpha:] ��е��ĸ

[:blank:] ��е�ˮƽ�ո�

[:cntrl:] ��еĿ��ַ��Ǵ�ӡ��

[:digit:] ��е��

[:graph:] ��еĿɴ�ӡ�ַ��ո�

[:lower:] ��е�Сд��ĸ

[:print:] ��еĿɴ�ӡ�ַ��ո�

[:punct:] ��еı��

[:space:] ��е�ˮƽ��ֱ�ո�

[:upper:] ��еĴ�д��ĸ

[:xdigit:] ��е�ʮ��ַ�

��ǿ��Խ��һ��ǿ��ĳ��һ��ͳ�Ƴ��ǿ�� README �ĵ��

ʹ�û��ʽ��һ��ǣ�

��ѡ��

tr -d ɾ��ַ�

tr -s ѹ��ַ��ظ��ַ��һ��ַ��ʾ��

\b �ո�

\f ��ҳ��

\v ��ֱ�Ʊ��

\NNN �˽��ַ� NNN

WC��

��ֵ��Ҫ�� -l flag��ṩ�ĵ��

��߿��Է��ȷ�ϸ��ԣ��ת��ļ��еķָ��ô�� wc -l �Ϳ��Բ鿴��ǲ��ͬ��ͬ��ǳ��⡣

��ѡ��

wc -c ��ӡ Bytes ��Ŀ

wc -m ��ӡ��ַ��

wc -L ��ӡ���е��ַ��

wc -w ��ӡ��Ŀ

SPLIT��һ��ļ��ָ��С�ļ��

�ļ��С��ʹ��ȸı䡣��Ĳ�ͬ��ָ��ļ��ܻ��Ծ�� split ��split �Ļ��﷨��£�

��ĵط��Լ��ļ��չ��׺Լ��ͨ��-d ��־��Լ��Ϊ��֡�Ϊ��ļ��չ��Ҫ�� find ����ı䵱ǰ·��µ��ļ��ÿ��ļ��չ.csv��ԣ��ʹ�á�

��ѡ��

split -b ͨ��ȷ��ֽڴ�С�ָ�

split -a ��ɳ��Ϊ N �ĺ�׺

split -x ʹ��ʮ��ƺ�׺�ָ�

SORT & UNIQ��sort��ļ��uniq��ļ��е��ظ��У�� sort ��ʹ�ã�

��ṩ��Ψһ�ĵ��ʼ��Ϊ uniq ��ظ��С��ˣ��֮ǰ��ԭ��һ��Ȥ��ע��ǣ�sort -u �� sort file.txt | uniq ��ͬ�Ľ��

��ݿ�ѧ�Ҷ��ԣ��һ��Ǳ��õ��ض��ж�� CSV �ļ��

��-t ѡ���Ϊ��ǵķָ��ͨ��ÿո��Ʊ��⣬-k flag ��ָ��ؼ��ʡ�

��ѡ��

sort -f ��Դ�Сд

sort -r ��෴��˳��

sort -R ��

uniq -c ͳ�Ƴ��ֵĴ��

uniq -d ��ӡ�ظ��

CUT��cut ��ʾ��е�ָ��֣�ɾ��ļ��ָ��ֶΡ��

cut ��ɾ��С��˵��Ҫɾ��һ�к͵��У��ʹ�� cut��

ѡ��˵�һ��֮��ÿһ�У�

��ʹ�õ�ʱ��cut ��Ϊһ��

�ҵ��ڶ��ĳ��ض�ֵ��ֵĴ��

PASTE��ڽ��ļ��ж��н��кϲ��

paste ��һ����һ��Ȥ�Ĺ��ܡ��Ҫ�ϲ��ļ��Ѿ��paste �ܹ�ʵ��Щ��ܡ�

�� SQL ��ı��壬��μ��ġ�

JOIN��Ӳ��ϲ��ļ��

join ��һ��򵥵ġ��е� SQL�� join ��У��ֻ��һ��ֶ��Ͻ��ƥ�䡣Ĭ��£�join ��ʹ�õ�һ��Ϊƥ��ڲ�ͬ�Ľ��ʹ��﷨:

��׼ join ��ڲ��ӡ��ǣ��ⲿ��Ҳ��ͨ��- a flag ʵ�֡��һ��ֵ��ע��- e ��־��ҵ��ʧ��ֶΣ��滻ֵ��

��Ȼ��û�ʹ�õ����Ǿ��ʱ��о��Ĵ�ʩ��

��ѡ��

join -a ��ӡ��ƥ��

join -e �滻��ʧ��ֶ�

join -j �ȼ�� -1 FIELD -2 FIELD

GREP��һ��ǿ��ı��ߣ�

ȫ��ʽ��ӡ��grep��ܿ��grep �кܶ�ǿ��ڴ��ʹ��Լ��ķ�ʽѰ��ֶΡ��ݿ�ѧ��䵱��ϸ��ơ�

ͳ�ư��/ģʽ��

ʹ��\|��ӽ��ж�ֵ��

��ѡ��

alias grep="grep --color=auto" ʹ grep ɫ�ʻ�

grep -E ʹ��չ��ʽ

grep -w ֻƥ��ȫ�ַ�

grep -l ��ӡ��ƥ��ļ��

grep -v ��תƥ��

SED��༭��

sed ��һ��е��༭��ó��滻��Ҳ��е��ع��refactoring��

�� sed �� s/old/new/g��ָ��ֵ��ֵ�滻��û��/gour ���ն˽��ڵ�һ�γ��ֵ֮��ֹͣ��

Ϊ�˿��ٸ��ӡ��ļ�:

��ĵ�һ��¾��ȥ��Ԫ��š�-i flag ָ��λ�ã�''��־ָ��㳤�ȵ��ļ��չ��Ȼ�󸲸ǳ�ʼ�ļ��£��ǿ��Ե��е�ÿһ��Ȼ��ļ��

��Ǵ�� balance �еĶ��

AWK��һ��

awk ��һ��򵥵����һ�ֳ��ԡ��ڱ��漰��У�awk ��ġ��㷢��Լ�� awk ӡ��̣�Ҳ��Ҹ��Դ��

awk ��

�ı��

��ʽ��ı��

ִ��ѧ��

ִ��ַ��

��°�� awk �� grep ��ʹ�á�

��ʹ��һЩ��ɽ� grep �� cut ����Ҫ��ҵ� word �У�awk ��ӡ��к͵��кͷָ��-F��ָ��Ϊ��š�

awk ��ı��磬NF -�ֶ��NR -��¼��Ҫ��ļ��л�ȡ��ʮ��¼��:

һ��Ĺ��ǻ��һ��ֵ��й��˵��ĵ�һ��ʾ��ӡ��һ�е�� string ��¼��

��ֵ��ʽ��

�Ե��ͣ�

�Ե�һ�е��ڡ�something��У��ǵĵ��͡�

�õ��ļ��ά�ȣ�

��ӡ��ε��У�

ɾ��ظ��У�

ʹ��ú�� gsub() �滻��ֵ��

�� awk ���ϲ�� CSV �ļ��ļ�ͷ��Ȼ��丽�ӵ�ĩβ��

��Ҫ��ļ��awk �� sed �İ��´��⡣��ԣ��Ի�� һ��ļ��Ϊ��С�ļ��

��

��ӵ��޾��н��ܵ��ڶ�ʱ��ڴ�С�ױ�ɸ��֡��Щ��֮�⣬��ճ��ݴ��ĳ��Ҫ��ǡ��˽��ݿ�ѧ��Զ��һЩ��ϸ��Դ��

https://medium.com/@kadek/command-line-tricks-for-data-scientists-c98e0abe5da

��Ϊ��֮�ı��룬ת��ϵ��ںŻ��Ȩ��

------------------------------------------------

��: 2018-05-272018-05-27 12:04:39
ԭ��https://kuaibao.qq.com/s/20180527A0KCUY00?refer=cp_1026
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

�򵥿�ݵ��ݴ��ݿ�ѧ��Ҫע��

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

�򵥿�ݵ����ݴ��������ݿ�ѧ��Ҫע���������

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

�򵥿�ݵ��ݴ��ݿ�ѧ��Ҫע��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�