支援看一下自己的re.findall(State of Qatar方法为啥不对吧……救救孩子啊

#coding=utf-8importrequestsimportre#1、下载一个网页url=''#2、模拟浏览器发送http央浼response=requests.get(urlState of Qatar#type:object#3、编码方式response.encoding='gbk'#4、拿到源文件html=response.text#5、获得随笔名字title=re.findall(r'vararticlename=\'\';',html)print(title)#6、新建文件并保留fb=open('%s.txt'%title,'w',encoding='gbk'卡塔尔(قطر‎#7、获取每黄金时代章音讯dl=re.findall(r'/strong/dddth3.*?/h3/dt',html,re.S)[0]chapter_info_www.4688.com,list=re.findall(r'ddahref=""/a/dd',dl,re.S)print(chapter_info_list)#8、循环每三个章节分别去下载forchapter_美高梅在线登录网址,infoinchapter_info_list:chapter_美高梅4858官方网站,title=chapter_info[1]chapter_url=chapter_info[0]chapter_url="%s"%chapter_url#8.2下载小说内容chapter_response=requests.get(chapter_url)chapter_response.encoding='utf-8'chapter_html=chapter_response.text#8.3提取章节内容chapter_content=re.findall(r'scriptlanguage="javascript"tongzhi\(\);/script(.*?)/p',chapter_html,re.S)[0]#8.4疏理数据chapter_content=chapter_content.replace('','')chapter_content=chapter_content.replace('nbsp;','')chapter_content=chapter_content.replace('br/','\n')#8.5保存fb.write(chapter_title)fb.write(chapter_content)fb.write('\n')print(chapter_url)

透过python 爬虫 爬取随笔

importreimportrequests#获得网页源代码,并且转变为普通话response=requests.get(''卡塔尔response.encoding='utf-8'html=response.text#领取全体章节的url和标题dl=re.findall(r'dl.*?/dl',html,re.S)[0]#领到出所需的每豆蔻梢头章节的url和每意气风发章节的标题chapter_list=re.findall(r'ddahref="(.*?)"target="_blank"(.*?)/a/dd',dl)print(chapter_listState of Qatar为何作者爬取那二者的剧情,正是一个空驶列车表,不过笔者把href里的从头到尾的经过和a/a里的内容分别爬取,就能够爬取到网站和每生机勃勃章节的标题,那是干吗?

使用python版本为3.6  

模块为 Requests,BeautifulSoup

经过本次爬取随笔 来练习 Requests及BeautifulSoup 模块用法

小说url=‘

首先步  通过 Requests 来收获到网页源代码

url = ""

reObj = requests.get(url)

咱俩运营测量检验一下

美高梅4858官方网站 1

Response[200]说明 成功

接下去 使用Beautifulsoup 来博取网页源代码

bsObj = BeautifulSoup(reObj.text,'html.parser')

print(bsObj)

美高梅4858官方网站 2

运作开掘 网页源代码成功获取获得,但编码反常,所以大家供给转移编码。

能够接纳reObj.encoding 来收获网页的编码格式

美高梅4858官方网站 3

接下来改革代码