��/��/��ţ

��

Python3��ϰ��Ŀ06��XML��£�

��Դ�� - OPython

�ٱ�

��һƪ�̳̣��ͨ��õķ�ʽ��XML�ļ��н��վ�ṹ��HTML�ļ��

һ��Ϊ��Ҫ��Ŀ¼��Ҫ��osģ�顣

��ǵĴ��

��֮ǰ��һ��Ҫ��д�ķ��

��Ŀ¼�ķ��

��ʼ��ΪĿ¼�Ĵ��

��ΪĿ¼�Ĵ��

д��ҳ��ͷ��HTML��ķ��

д��ҳ��Ų�HTML��ķ��

��ʼ��Ϊҳ��Ĵ��

��Ϊҳ��Ĵ��

��ʼ��ǵ�Ĭ�ϴ��

��ǵ�Ĭ�ϴ��

��ݵĴ��

ʾ��룺��

def ensureDirectory(self): # ��崴��Ŀ¼�ķ�� passdef startDirectory(self, attrs): # ��ȡ��Ŀ¼��ʼ��ǵķ�� passdef endDirectory(self): # ��ȡ��Ŀ¼��ǵķ�� passdef writeHeader(self, title): # ��д��ͷ��HTML��ķ�� passdef writeFooter(self, ): # ��д��Ų�HTML��ķ�� passdef startPage(self, attrs): # ��ȡ��ҳ�濪ʼ��ǵķ�� passdef endPage(self): # ��ȡ��ҳ��ǵķ�� passdef defaultStart(self, name, attrs): # ��ȡ��ʼ��ǵ�Ĭ�Ϸ�� passdef defaultEnd(self, name): # ��ȡ��ǵ�Ĭ�Ϸ�� passdef characters(self, content): # ��ȡ��ݵķ�� pass

��Щ��Ƕ��Է��ͬһ��У��磺XMLHandler��

��ڽ�һ��д��֮ǰ��һ�룬��и��ı��ͣ��Ҫ��Ӹ��Ӧ�ķ��ô�෽��ڵ��õ�ʱ��鷳��

��ܹ�ֱ�Ӹ��ݱ��ͣ��Լ�ȥѰ�Ҷ�Ӧ�ķ��ͻ᷽��ܶࡣ

��磺��ǩ��

��ǩ��С�startXxx()��͡�endXxx()��ķ��ó��Щ��ǩʱ��Զ�ȥ��Ƕ�Ӧ�ķ��أ�

��о��ҳ��еı�ǩ��Ҫ��ԭ״��ͨ��defaultStart()��͡�defaultEnd()��ģ��Ҳ�ó��Щ��ʱ��Զ�ȥ��أ�

����ǿ��Զ��巺�ͷ��д��

��

��ҿ��Ի��һ��ϰ��Ŀ��02��ж��ڲ��ǩ�Ĵ��

��ڵ�ǰ��Ŀ�е��ContentHandler�࣬��startElement()��endElement()��

�ڶ�ȡÿ��ʼ��ʱ��startElement()��ȡÿ��ʱ��Ҳ��endElement()��

��ԣ��ǿ��д��ͨ��ÿ��Ƕ�ȡʱ��Զ��Ӧ�ķ��

ע�⣬��ﶨ��ĵ��Dispatcher��̳�ContentHandler�ࡣ��һ��ô��Dispatcher�෢��أ��

ʾ��룺

class Dispatcher: def dispatch(self, prefix, name, attrs=None): # ��ĳһ��巽��ĺ�� mname = prefix + name.capitalize() # ��巽��Ϊprefix��ǰ׺��ĸ��д��name dname = 'default' + prefix.capitalize() # Ĭ�Ϸ��Ϊdefault��ĸ��д��prefix method = getattr(self, mname, None) # ͨ��巽��ȡ�� if callable(method): # ��巽��ɵ�� args = () # ��յĲ��Ԫ�� else: method = getattr(self, dname, None) # ͨ��Ĭ�Ϸ��ȡĬ�Ϸ�� args = (name,) # ��ΪԪ�� if prefix == 'start': # ��ǿ�ʼԪ�� args += (attrs,) # �ϲ��Ԫ��Ϊ�²��Ԫ�� if callable(method): # ��ɵ�� method(*args) # ��÷�� def startElement(self, name, attrs): # ��д��ʼԪ�صķ�� self.dispatch('start', name, attrs) # ͨ��dispatch()��ĳһ��巽�� def endElement(self, name): # ��д��Ԫ�صķ�� self.dispatch('end', name) # ͨ��dispatch()��ĳһ��巽��

��3��ؼ��㣺

dispatch��صĴ��Լ��Ĵ��롣

��ʼ��ʱ��Ҫ��ƺͱ��ԵĲ��ǲ��ԣ��贫�롣

��е�Ԫ��(name,) ��(attrs,)��Բ��С��ţ��Ϊ��ô�ҿ��ĸ��ĩβ�Ķ��š�

�ġ��д��

��ɵ��ı�д��Ǳ�д��ࡣ

�ڵڶ��ж��д��Ҫ�ŵ��С�

��Ҹ��ǡ�XMLHandler��ң��̳�Dispatcher��ContentHandler�ࣨע��̳�˳�򣬵��ͬ��ʱ��Ĭ��ʹ��ǰ��ԣ��

��ܹ�ͬʱʹ��Dispatcher��ContentHandler��е�ȫ��ԡ�

��˶��ƺͼ̳й�ϵ��ǻ�Ҫ��д��Ĺ��췽��__init__()��

�ڹ��췽��У��Ҫ��ȡ��Ŀ¼��ƣ��ԣ�Ϊ��췽��һ��directory��

��ң��ڹ��췽��У��Ҫ��ʼ��ҳ��ݿ��صı��վ��Ŀ¼�б��ı��Ҫ��վ�ĸ�Ŀ¼��

ʾ��룺

class XMLHandler(Dispatcher, ContentHandler): def __init__(self, directory): super().__init__() self.in_page = False # ��ر�� self.directory = [directory] # ��Ŀ¼�б� self.ensureDirectory() # ��Ŀ¼

��ɹ��췽��֮�󣬾��ÿһ��ľ��ʵ�֡�

��ҿ��Բο��е�ע�ͽ��⡣

ʾ��룺

def ensureDirectory(self): # ��崴��Ŀ¼�ķ�� path = os.path.join(*self.directory) # ��·�� if not os.path.isdir(path): # ��·��ָ��Ŀ¼�� os.makedirs(path) # ��Ŀ¼def startDirectory(self, attrs): # ��ȡ��Ŀ¼��ʼ��ǵķ�� self.directory.append(attrs['name']) # ��Ŀ¼��Ƶ�Ŀ¼�б� self.ensureDirectory() # ��Ŀ¼def endDirectory(self): # ��ȡ��Ŀ¼��ǵķ�� self.directory.pop() # ��Ŀ¼def writeHeader(self, title): # ��д��ͷ��HTML��ķ�� self.file.write( '\n\n\n{}\n\n\n'.format(title))def writeFooter(self, ): # ��д��Ų�HTML��ķ�� self.file.write('\n\n\n')def startPage(self, attrs): # ��ȡ��ҳ�濪ʼ��ǵķ�� filename = os.path.join(*self.directory + [attrs['name'] + '.html']) # ��ҳ��·�� self.in_page = True # ��д��ҳ��ݵĿ�� self.file = open(filename, 'w') # ��HTMLҳ��ļ� self.writeHeader(attrs['title']) # д��ҳ��ͷ��HTML��def endPage(self): # ��ȡ��ҳ��ǵķ�� self.in_page = False # �ر�д��ҳ��ݵĿ�� self.writeFooter() # д��ҳ��Ų��HTML�� self.file.close() # �رմ��HTML�ļ�def defaultStart(self, name, attrs): # ��ȡ��ʼ��ǵ�Ĭ�Ϸ�� if self.in_page: # ��д��ҳ��ݵĿ��ر�� self.file.write('') # д�뿪ʼ��ǵĽ��def defaultEnd(self, name): # ��ȡ��ǵ�Ĭ�Ϸ�� if self.in_page: # ��д��ҳ��ݵĿ��ر�� self.file.write('') # д��def characters(self, content): # ��ȡ��ݵķ�� if self.in_page: # ��д��ҳ��ݵĿ��ر�� self.file.write(content) # д��е��

��ϴ��룬��Ǿ�ʵ��Ŀ�깦�ܡ�

��󣬴�ҿ��ͨ��ý��鿴��ս��

ʾ��룺

if __name__ == '__main__': parse('website.xml', XMLHandler('html')) # ��ý��

��: 2018-04-072018-04-07 08:11:01
ԭ��http://kuaibao.qq.com/s/20180407G0704Z00?refer=cp_1026
��Ѷ��λ��ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

Python3��ϰ��Ŀ06��XML��£�

��Ѷ

ɨ��

��

�

Ȧ��

��

�λ��ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

Python3��ϰ��Ŀ06������XML���£�

�����Ѷ

����

�

Ȧ��

����

�λ��ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

Python3��ϰ��Ŀ06��XML��£�

��Ѷ

��

��

�λ��ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�