-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
- 01
首先打開IDLE,輸入import requests模塊,如果沒有報(bào)錯(cuò),就說明已經(jīng)安裝了這個(gè)模塊,請(qǐng)?zhí)^此步驟;如果報(bào)錯(cuò),先打開命令行,win+r,彈出運(yùn)行窗口,然后輸入cmd,點(diǎn)擊確定即可。
- 02
然后輸入pip3 install requests 安裝模塊即可
- 03
然后在IDLE窗口中輸入如下圖所示的命令
- 04
在瀏覽器中輸入https://zhinan.sogou.com/,就可以打開網(wǎng)頁,這時(shí)點(diǎn)擊鼠標(biāo)右鍵,然后點(diǎn)擊查看網(wǎng)頁源代碼,就可以發(fā)現(xiàn),打印的結(jié)果和在瀏覽器中看到的源代碼是一樣的
簡(jiǎn)單python爬蟲完整代碼(簡(jiǎn)單python爬蟲完整代碼可用的)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于簡(jiǎn)單python爬蟲完整代碼的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、求一個(gè)python3爬蟲代碼,可以從小說網(wǎng)站上直接把小說的文字抄下來,并整合到一個(gè)新的文本里
from bs4 import BeautifulSoupfrom requests.exceptions import RequestException
import re
import requests
import os
def get_html_text(url):
try:
r = requests.get(url)
r.raise_for_status()
return r.text
except RequestException:
return None
def get_chapter_names(html):
soup = BeautifulSoup(html, 'lxml')
charpter = soup.select('.bg')
charpter_names = []
for entry in charpter[1:]:
charpter_name = re.findall('<h4>(.*?)</h4>', str(entry))
file_name = re.findall('<a href.*?>(.*?)</a>', str(entry))
if charpter_name and file_name:
for name in file_name:
name = name.split(' ')[0]
charpter_names.append(charpter_name[0] + '_' + name)
else:
pass
return set(charpter_names)
def get_each_url(html):
soup = BeautifulSoup(html, 'lxml')
urls = soup.select('ul li a')
for url in urls:
link = url.get('href')
text = url.text.split(' ')[0]
full_name = url.text.replace('?','')
yield {'url': link, 'text': text,'full_name':full_name}
print(text)
def get_text(url):
r = requests.get(url)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, 'lxml')
items = soup.select('div.content-body')
item = re.findall(';(.*?);', items[0].text, re.S)
return item[0].encode()
def save_to_file(url, text, full_name):
base_dir = 'daomu'
path = '{}\{}\{}'.format(os.getcwd(), base_dir, text)
if not os.path.exists(path):
try:
os.makedirs(path)
except:
pass
try:
with open(path +'\'+ full_name +'.txt', 'wb') as f:
f.write(get_text(url))
except:
pass
def main():
url = 'http://seputu.com/'
html = get_html_text(url)
chapters = get_chapter_names(html)
for chapter in chapters:
for each in get_each_url(html):
if each['text'] == chapter.split('_')[-1]:
save_to_file(each['url'],chapter,each['full_name'])
if __name__ == '__main__':
main()
二、如何利用python寫爬蟲程序
利用python寫爬蟲程序的方法:
1、先分析網(wǎng)站內(nèi)容,紅色部分即是網(wǎng)站文章內(nèi)容div。
2、隨便打開一個(gè)div來看,可以看到,藍(lán)色部分除了一個(gè)文章標(biāo)題以外沒有什么有用的信息,而注意紅色部分我勾畫出的地方,可以知道,它是指向文章的地址的超鏈接,那么爬蟲只要捕捉到這個(gè)地址就可以了。
3、接下來在一個(gè)問題就是翻頁問題,可以看到,這和大多數(shù)網(wǎng)站不同,底部沒有頁數(shù)標(biāo)簽,而是查看更多。
4、不過在查看源文件時(shí)有一個(gè)超鏈接,經(jīng)測(cè)試它指向下一頁,那么通過改變其最后的數(shù)值,就可以定位到相應(yīng)的頁數(shù)上。
代碼如下:
三、python爬蟲入門教程
工具/材料
IELD(python 3.6.2),windows 7
四、如何入門 python 爬蟲
如何入門 python 爬蟲
先自己答一個(gè),期待牛人的回答。
自己學(xué)Python不久,列舉自己做過的和知道的。
1. Python做爬蟲很方便,有現(xiàn)成的庫。 我在學(xué)習(xí)python的過程中也遇到過一個(gè)非常簡(jiǎn)單的例子,代碼:python/primer/20/Cralwer.py at master · xxg1413/python · GitHub 。好像有開源的項(xiàng)目叫什么supercrawler,具體可以看看。
2.Python做游戲。Pygame還是不錯(cuò)的,但只適合做小游戲。用Pygame寫個(gè)植物大戰(zhàn)僵尸還是可以的。推薦教程 用Python和Pygame寫游戲。Python在游戲服務(wù)器方面也有應(yīng)用。EVE這種游戲都大量用Python。
3.Python作為黑客第一語言,在黑客領(lǐng)域的應(yīng)用就不多說了。
4.Python做網(wǎng)站,有幾個(gè)web框架 WebFrameworks。 用得最多的是Django。
5......各方面都有,什么推薦系統(tǒng),都是用python,在此就不一一列舉了。
以上就是關(guān)于簡(jiǎn)單python爬蟲完整代碼相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
二手房簡(jiǎn)單改造(二手房簡(jiǎn)單改造翻修)
碧桂園景觀設(shè)計(jì)(碧桂園景觀設(shè)計(jì)師待遇)
張家灣鎮(zhèn)景觀設(shè)計(jì)(張家灣鎮(zhèn)景觀設(shè)計(jì)招標(biāo))
猜你喜歡
蘇州facebook投放師(facebook投放師職業(yè)發(fā)展規(guī)劃)
sem測(cè)試主要測(cè)什么(Sem測(cè)試主要測(cè)什么)
短鏈平臺(tái)有哪些(短鏈平臺(tái)有哪些平臺(tái))
企業(yè)職業(yè)衛(wèi)生健康歸哪個(gè)部門管(企業(yè)職業(yè)衛(wèi)生健康歸哪個(gè)部門管轄)
淘寶熱門關(guān)鍵詞有哪些(淘寶熱門關(guān)鍵詞排行)
怎么做好產(chǎn)品關(guān)鍵詞推廣(怎么做好產(chǎn)品關(guān)鍵詞推廣呢)
問大家
成都錦江區(qū)服務(wù)范圍最廣會(huì)務(wù)策劃如何發(fā)現(xiàn)適合自己的?能給我簡(jiǎn)單介紹下嗎
成都全市業(yè)務(wù)很好的揭牌儀式需要了解哪些事項(xiàng)?能給我簡(jiǎn)單介紹下嗎
家裝設(shè)計(jì)師軟件要簡(jiǎn)單易學(xué),應(yīng)該用什么?
想做個(gè)簡(jiǎn)單的網(wǎng)站,但不懂設(shè)計(jì),預(yù)算在000以內(nèi),在哪做比較好?
一個(gè)人做抖音小店需要滿足什么條件?還趕得上雙十一嗎?建議收藏?