22秋學(xué)期(高起本1709-1803、全層次1809-2103)《網(wǎng)絡(luò)爬蟲與信息提取》在線作業(yè)-00002
試卷總分:100 得分:100
一、單選題 (共 20 道試題,共 40 分)
1.Redis若要進(jìn)入交互環(huán)境,需要打開終端輸入()
A.redis-cli
B.redis
C.redis-cmd
D.redis-start
2.可以通過()繞過網(wǎng)站登錄。
A.session
B.cookies
C.moonpies
D.localstorage
3.Python中若定義object=(1, 2, 3, 4, 5),則print(object[1:3])輸出()
A.12
B.123
C.23
D.234
4.當(dāng)爬蟲運(yùn)行到y(tǒng)ield scrapy.Request()或者yield item的時(shí)候,下列哪個(gè)爬蟲中間件的方法被調(diào)用?
A.process_spider_output()
B.process_spider_exception()
C.process_spider_input()
D.process_start_ requests()
5.下面關(guān)于Charles使用說法錯(cuò)誤的是()
A.在數(shù)據(jù)包非常多的情況下,使用Charles的過濾功能來對(duì)數(shù)據(jù)包進(jìn)行過濾從而減少干擾。
B.通過單擊圖中方框框住的各個(gè)選項(xiàng)卡,可以非常直觀地觀察到請(qǐng)求和返回的各種信息。
C.如果瀏覽器是Chrome,在沒有安裝第三方代理插件的情況下,Chrome的HTTP流量都會(huì)經(jīng)過Charles。
D.Charles無法支持計(jì)算機(jī)上除了瀏覽器之外的其他軟件。
6.在Linux中哪個(gè)命令是添加權(quán)限的()
A.chmod
B.sudo
C.cp
D.mkdir
7.Python中列表可以用()方法在末尾添加元素
A.add
B.append
C.plus
D.+
8.Scrapy中使用Xpath獲得的結(jié)果調(diào)用了.extract方法,結(jié)果以()形式生成
A.列表
B.元組
C.字典
D.集合
9.Python中退出循環(huán)應(yīng)用關(guān)鍵字()
A.break
B.continue
C.exit
D.return
10.以下哪個(gè)命令是創(chuàng)建文件夾命令()
A.curl
B.tar -zxvf
C.mkdir
D.cp
11.使用Xpath獲取文本使用()
A.text
B.text()
C.content
D.content()
12.Python寫CSV文件需要哪個(gè)方法()
A.CSVWriter
B.CsvWriter
C.DictWriter
D.FileWriter
13.使用UI Automator打開微信的操作是獲取相應(yīng)圖標(biāo)后使用命令()
A.touch
B.click
C.push
D.hover
14.Python中Object={1, 2, 3, 4, 5},則Objcet是()
A.列表
B.元組
C.字典
D.集合
15.()是Scrapy官方開發(fā)的,用來部署、運(yùn)行和管理Scrapy爬蟲的工具
A.Scrapyd
B.ScrapyDeploy
C.Deploy
D.Scrapy_Deploy
16.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)存放爬蟲文件?()
A.spiders文件夾
B.item.py
C.pipeline.py
D.settings.py
17.啟動(dòng)MongoDB使用命令mongod --() usr/local/etc/mongod.conf
A.config
B.install
C.start
D.begin
18.HTTP常用狀態(tài)碼表明服務(wù)器上沒有請(qǐng)求的資源的是()
A.500
B.503
C.403
D.404
19.以下表示請(qǐng)求資源重定向的HTTP狀態(tài)碼為
A.200
B.301
C.404
D.500
20.如果計(jì)算機(jī)上連接了很多臺(tái)手機(jī),查看這些手機(jī)串號(hào),需要在終端輸入以下命令:()
A.adb device
B.adb devices
C.adb devices -l
D.adb devices -list
二、多選題 (共 10 道試題,共 20 分)
21.一個(gè)可行的自動(dòng)更換代理的爬蟲系統(tǒng),應(yīng)該下列哪些功能?
A.有一個(gè)小爬蟲ProxySpider去各大代理網(wǎng)站爬取免費(fèi)代理并驗(yàn)證,將可以使用的代理IP保存到數(shù)據(jù)庫中
B.在發(fā)現(xiàn)某個(gè)請(qǐng)求已經(jīng)被設(shè)置過代理后,什么也不做,直接返回
C.在ProxyMiddlerware的process_request中,每次從數(shù)據(jù)庫里面隨機(jī)選擇一條代理IP地址使用
D.周期性驗(yàn)證數(shù)據(jù)庫中的無效代理,及時(shí)將其刪除
22.Python中()容器有推導(dǎo)式
A.列表
B.元組
C.字典
D.集合
23.在配置ios使用Charles的操作中,正確的有()
A.對(duì)于蘋果設(shè)備,首先要保證計(jì)算機(jī)和蘋果設(shè)備聯(lián)在同一個(gè)Wi-Fi上。
B.選擇“HTTP代理”下面的“手動(dòng)”選項(xiàng)卡,在“服務(wù)器”處輸入計(jì)算機(jī)的IP地址,在“端口”處輸入8888
C.輸入完成代理以后按下蘋果設(shè)備的Home鍵,設(shè)置就會(huì)自動(dòng)保存。
D.安裝完成證書以后,在設(shè)置中打開“關(guān)于本機(jī)”,找到最下面的“證書信任設(shè)置”,并在里面啟動(dòng)對(duì)Charles證書的完全信任
24.以下哪種方法是MongoDB的查找方法()
A.find
B.find_one
C.finds
D.find_all
25.如果目標(biāo)網(wǎng)站有反爬蟲聲明,那么對(duì)方在被爬蟲爬取以后,可以根據(jù)()來起訴使用爬蟲的公司
A.服務(wù)器日志
B.數(shù)據(jù)庫日志記錄
C.程序日志記錄
D.服務(wù)器監(jiān)控
26.使用Selennium獲取網(wǎng)頁中元素的方法有
A.find_element_by_name
B.find_element_by_id
C.find_elements_by_name
D.find_elements_by_id
27.常用的會(huì)話跟蹤技術(shù)是
A.session
B.cookies
C.moonpies
D.localstorage
28.Redis中的值可以支持()
A.列表
B.哈希
C.集合
D.有序集合
29.PyMongo刪除操作有()
A.delete
B.delete_all
C.delete_one
D.delete_many
30.Python中()與元組由類似的數(shù)據(jù)讀取方式
A.字符串
B.列表
C.字典
D.集合
三、判斷題 (共 20 道試題,共 40 分)
31.雖然MongoDB相比于MySQL來說,速度快了很多,但是頻繁讀寫MongoDB還是會(huì)嚴(yán)重拖慢程序的執(zhí)行速度。
32.為了保證數(shù)據(jù)插入效率,在內(nèi)存允許的情況下,應(yīng)該一次性把數(shù)據(jù)讀入內(nèi)存,盡量減少對(duì)MongoDB的讀取操作。
33.process_spider_output(response, result, output)是在下載器中間件處理完成后,馬上要進(jìn)入某個(gè)回調(diào)函數(shù)parse_xxx()前調(diào)用
34.中間人攻擊也是抓包的一種。
35.在使用多線程處理問題時(shí),線程池設(shè)置越大越好
36.Python中條件語句在使用or連接的多個(gè)表達(dá)式中,只要有一個(gè)表達(dá)式為真,那么后面的表達(dá)式就不會(huì)執(zhí)行。
37.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
38.爬蟲文件無法從Pycharm運(yùn)行和調(diào)試,只能通過命令行的方式運(yùn)行。
39.爬蟲中間件的激活需要另外寫一個(gè)文件來進(jìn)行
40.charles配置中,安裝完成證書以后,在設(shè)置中打開“關(guān)于本機(jī)”,找到最下面的“證書信任設(shè)置”,并在里面啟動(dòng)對(duì)Charles證書的完全信任。
41.使用Charles,可以輕松截獲手機(jī)App和微信小程序的數(shù)據(jù)包,從而開發(fā)出直接抓取App后臺(tái)和小程序后臺(tái)的爬蟲。
42.Robo 3T與RoboMongo是完全不一樣的軟件
43.一般來說在頁面都通過GET將用戶登錄信息傳遞到服務(wù)器端。
44.device.sleep()方法是使用UI Automatorr關(guān)閉屏幕的命令
45.上課傳紙條。A要把紙條傳給B,但是A與B距離太遠(yuǎn),于是讓C來轉(zhuǎn)交紙條。此時(shí),C先篡改紙條的內(nèi)容再傳給B,這是一種類似抓包的方式。
46.如果目標(biāo)網(wǎng)站本身就是提供公眾查詢服務(wù)的網(wǎng)站,那么使用爬蟲是合法合規(guī)的。
47.為了在安卓手機(jī)上安裝證書,需要先發(fā)送證書到手機(jī)里面。在Charles中選擇“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以將Charles的證書保存到計(jì)算機(jī)桌面。
48.代理中間件的可用代理列表一定要寫在settings.py里面
49.引用中間件時(shí)后面的數(shù)字代表的是中間件的執(zhí)行順序,例如 'AdvanceSpider.middlewares.ProxyMiddleware': 543 中的543
50.數(shù)據(jù)抓包就是中間人爬蟲的一個(gè)簡(jiǎn)單應(yīng)用。所以使用Charles也是一種中間人攻擊
奧鵬,國(guó)開,廣開,電大在線,各省平臺(tái),新疆一體化等平臺(tái)學(xué)習(xí)
詳情請(qǐng)咨詢QQ : 3230981406或微信:aopopenfd777