南開22秋學(xué)期《網(wǎng)絡(luò)爬蟲與信息提取》在線作業(yè)【資料答案】

可做奧鵬全部院校在線離線作業(yè)畢業(yè)論文QQ:3230981406 微信:aopopenfd777

發(fā)布時間:2022-11-10 19:02:40來源:admin瀏覽: 11 次

22秋學(xué)期(高起本1709-1803、全層次1809-2103)《網(wǎng)絡(luò)爬蟲與信息提取》在線作業(yè)-00002

試卷總分:100  得分:100

一、單選題 (共 20 道試題,共 40 分)

1.Redis若要進(jìn)入交互環(huán)境,需要打開終端輸入()

A.redis-cli

B.redis

C.redis-cmd

D.redis-start


2.可以通過()繞過網(wǎng)站登錄。

A.session

B.cookies

C.moonpies

D.localstorage


3.Python中若定義object=(1, 2, 3, 4, 5),則print(object[1:3])輸出()

A.12

B.123

C.23

D.234


4.當(dāng)爬蟲運行到y(tǒng)ield scrapy.Request()或者yield item的時候,下列哪個爬蟲中間件的方法被調(diào)用?

A.process_spider_output()

B.process_spider_exception()

C.process_spider_input()

D.process_start_ requests()


5.下面關(guān)于Charles使用說法錯誤的是()

A.在數(shù)據(jù)包非常多的情況下,使用Charles的過濾功能來對數(shù)據(jù)包進(jìn)行過濾從而減少干擾。

B.通過單擊圖中方框框住的各個選項卡,可以非常直觀地觀察到請求和返回的各種信息。

C.如果瀏覽器是Chrome,在沒有安裝第三方代理插件的情況下,Chrome的HTTP流量都會經(jīng)過Charles。

D.Charles無法支持計算機(jī)上除了瀏覽器之外的其他軟件。


6.在Linux中哪個命令是添加權(quán)限的()

A.chmod

B.sudo

C.cp

D.mkdir


7.Python中列表可以用()方法在末尾添加元素

A.add

B.append

C.plus

D.+


8.Scrapy中使用Xpath獲得的結(jié)果調(diào)用了.extract方法,結(jié)果以()形式生成

A.列表

B.元組

C.字典

D.集合


9.Python中退出循環(huán)應(yīng)用關(guān)鍵字()

A.break

B.continue

C.exit

D.return


10.以下哪個命令是創(chuàng)建文件夾命令()

A.curl

B.tar -zxvf

C.mkdir

D.cp


11.使用Xpath獲取文本使用()

A.text

B.text()

C.content

D.content()


12.Python寫CSV文件需要哪個方法()

A.CSVWriter

B.CsvWriter

C.DictWriter

D.FileWriter


13.使用UI Automator打開微信的操作是獲取相應(yīng)圖標(biāo)后使用命令()

A.touch

B.click

C.push

D.hover


14.Python中Object={1, 2, 3, 4, 5},則Objcet是()

A.列表

B.元組

C.字典

D.集合


15.()是Scrapy官方開發(fā)的,用來部署、運行和管理Scrapy爬蟲的工具

A.Scrapyd

B.ScrapyDeploy

C.Deploy

D.Scrapy_Deploy


16.在Scrapy的目錄下,哪個文件負(fù)責(zé)存放爬蟲文件?()

A.spiders文件夾

B.item.py

C.pipeline.py

D.settings.py


17.啟動MongoDB使用命令mongod --() usr/local/etc/mongod.conf

A.config

B.install

C.start

D.begin


18.HTTP常用狀態(tài)碼表明服務(wù)器上沒有請求的資源的是()

A.500

B.503

C.403

D.404


19.以下表示請求資源重定向的HTTP狀態(tài)碼為

A.200

B.301

C.404

D.500


20.如果計算機(jī)上連接了很多臺手機(jī),查看這些手機(jī)串號,需要在終端輸入以下命令:()

A.adb device

B.adb devices

C.adb devices -l

D.adb devices -list


二、多選題 (共 10 道試題,共 20 分)

21.一個可行的自動更換代理的爬蟲系統(tǒng),應(yīng)該下列哪些功能?

A.有一個小爬蟲ProxySpider去各大代理網(wǎng)站爬取免費代理并驗證,將可以使用的代理IP保存到數(shù)據(jù)庫中

B.在發(fā)現(xiàn)某個請求已經(jīng)被設(shè)置過代理后,什么也不做,直接返回

C.在ProxyMiddlerware的process_request中,每次從數(shù)據(jù)庫里面隨機(jī)選擇一條代理IP地址使用

D.周期性驗證數(shù)據(jù)庫中的無效代理,及時將其刪除


22.Python中()容器有推導(dǎo)式

A.列表

B.元組

C.字典

D.集合


23.在配置ios使用Charles的操作中,正確的有()

A.對于蘋果設(shè)備,首先要保證計算機(jī)和蘋果設(shè)備聯(lián)在同一個Wi-Fi上。

B.選擇“HTTP代理”下面的“手動”選項卡,在“服務(wù)器”處輸入計算機(jī)的IP地址,在“端口”處輸入8888

C.輸入完成代理以后按下蘋果設(shè)備的Home鍵,設(shè)置就會自動保存。

D.安裝完成證書以后,在設(shè)置中打開“關(guān)于本機(jī)”,找到最下面的“證書信任設(shè)置”,并在里面啟動對Charles證書的完全信任


24.以下哪種方法是MongoDB的查找方法()

A.find

B.find_one

C.finds

D.find_all


25.如果目標(biāo)網(wǎng)站有反爬蟲聲明,那么對方在被爬蟲爬取以后,可以根據(jù)()來起訴使用爬蟲的公司

A.服務(wù)器日志

B.數(shù)據(jù)庫日志記錄

C.程序日志記錄

D.服務(wù)器監(jiān)控


26.使用Selennium獲取網(wǎng)頁中元素的方法有

A.find_element_by_name

B.find_element_by_id

C.find_elements_by_name

D.find_elements_by_id


27.常用的會話跟蹤技術(shù)是

A.session

B.cookies

C.moonpies

D.localstorage


28.Redis中的值可以支持()

A.列表

B.哈希

C.集合

D.有序集合


29.PyMongo刪除操作有()

A.delete

B.delete_all

C.delete_one

D.delete_many


30.Python中()與元組由類似的數(shù)據(jù)讀取方式

A.字符串

B.列表

C.字典

D.集合


三、判斷題 (共 20 道試題,共 40 分)

31.雖然MongoDB相比于MySQL來說,速度快了很多,但是頻繁讀寫MongoDB還是會嚴(yán)重拖慢程序的執(zhí)行速度。


32.為了保證數(shù)據(jù)插入效率,在內(nèi)存允許的情況下,應(yīng)該一次性把數(shù)據(jù)讀入內(nèi)存,盡量減少對MongoDB的讀取操作。


33.process_spider_output(response, result, output)是在下載器中間件處理完成后,馬上要進(jìn)入某個回調(diào)函數(shù)parse_xxx()前調(diào)用


34.中間人攻擊也是抓包的一種。


35.在使用多線程處理問題時,線程池設(shè)置越大越好


36.Python中條件語句在使用or連接的多個表達(dá)式中,只要有一個表達(dá)式為真,那么后面的表達(dá)式就不會執(zhí)行。


37.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。


38.爬蟲文件無法從Pycharm運行和調(diào)試,只能通過命令行的方式運行。


39.爬蟲中間件的激活需要另外寫一個文件來進(jìn)行


40.charles配置中,安裝完成證書以后,在設(shè)置中打開“關(guān)于本機(jī)”,找到最下面的“證書信任設(shè)置”,并在里面啟動對Charles證書的完全信任。


41.使用Charles,可以輕松截獲手機(jī)App和微信小程序的數(shù)據(jù)包,從而開發(fā)出直接抓取App后臺和小程序后臺的爬蟲。


42.Robo 3T與RoboMongo是完全不一樣的軟件


43.一般來說在頁面都通過GET將用戶登錄信息傳遞到服務(wù)器端。


44.device.sleep()方法是使用UI Automatorr關(guān)閉屏幕的命令


45.上課傳紙條。A要把紙條傳給B,但是A與B距離太遠(yuǎn),于是讓C來轉(zhuǎn)交紙條。此時,C先篡改紙條的內(nèi)容再傳給B,這是一種類似抓包的方式。


46.如果目標(biāo)網(wǎng)站本身就是提供公眾查詢服務(wù)的網(wǎng)站,那么使用爬蟲是合法合規(guī)的。


47.為了在安卓手機(jī)上安裝證書,需要先發(fā)送證書到手機(jī)里面。在Charles中選擇“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以將Charles的證書保存到計算機(jī)桌面。


48.代理中間件的可用代理列表一定要寫在settings.py里面


49.引用中間件時后面的數(shù)字代表的是中間件的執(zhí)行順序,例如 'AdvanceSpider.middlewares.ProxyMiddleware': 543 中的543


50.數(shù)據(jù)抓包就是中間人爬蟲的一個簡單應(yīng)用。所以使用Charles也是一種中間人攻擊



奧鵬,國開,廣開,電大在線,各省平臺,新疆一體化等平臺學(xué)習(xí)
詳情請咨詢QQ : 3230981406或微信:aopopenfd777

作業(yè)咨詢 論文咨詢
微信客服掃一掃

回到頂部