23春學(xué)期(高起本:1709-2103、專升本/高起專:1909-2103)《網(wǎng)絡(luò)爬蟲與信息提取》在線作業(yè)-00003
試卷總分:100 得分:100
一、單選題 (共 20 道試題,共 40 分)
1.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)存放爬蟲的各種配置信息?()
A.spiders文件夾
B.item.py
C.pipeline.py
D.settings.py
2.參數(shù)headers=(),把請(qǐng)求頭添加到Scrapy請(qǐng)求中,使爬蟲的請(qǐng)求看起來像是從瀏覽器發(fā)起的。
A.HEADER
B.HEADERS
C.HEAD
D.BODY
3.可以通過()繞過網(wǎng)站登錄。
A.session
B.cookies
C.moonpies
D.localstorage
4.下面代碼一共執(zhí)行循環(huán)多少次(): i=0 while i<10: i+=1
A.9
B.10
C.11#0
5.Python并導(dǎo)入uiautomator來操作設(shè)備的語句是from uiautomator import ()
A.Device
B.Devices
C.Jobs
D.Job
6.Python中的()庫用于發(fā)送網(wǎng)絡(luò)請(qǐng)求
A.web
B.request
C.requests
D.javascript
7.Scrapy中使用Xpath獲得的結(jié)果調(diào)用了.extract方法,結(jié)果以()形式生成
A.列表
B.元組
C.字典
D.集合
8.HTTP常用狀態(tài)碼表明服務(wù)器上沒有請(qǐng)求的資源的是()
A.500
B.503
C.403
D.404
9.通常使用()工具來模擬瀏覽器進(jìn)行爬蟲請(qǐng)求
A.Selenium
B.Chrome
C.ChromeDriver
D.WebDriver
10.PyMongo中查詢所有age > 29的記錄是()
A.collection.find({'age': {'$gt': 29}})
B.collection.find({'age'>29})
C.collection.find_all({'age': {'$gt': 29}})
D.collection.find_all({'age'>29})
11.使用UI Automator獲取屏幕上顯示的文本內(nèi)容的操作是得到相應(yīng)控件后使用命令()
A.content
B.text
C.title
D.body
12.如果使用Python的數(shù)據(jù)結(jié)構(gòu)來做類比的話,MongoDB中庫相當(dāng)于一個(gè)大字典,大字典里面的每一個(gè)鍵值對(duì)都對(duì)應(yīng)了一個(gè)集合,Key為(),Value就是一個(gè)集合。
A.字典
B.集合的名字
C.集合
D.文檔
13.使用UI Automator打開微信的操作是獲取相應(yīng)圖標(biāo)后使用命令()
A.touch
B.click
C.push
D.hover
14.Scrapy自帶的待爬隊(duì)列是()
A.deque
B.queue
C.list
D.lqueue
15.啟動(dòng)MongoDB使用命令mongod --() usr/local/etc/mongod.conf
A.config
B.install
C.start
D.begin
16.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)定義需要爬取的數(shù)據(jù)?()
A.spiders文件夾
B.item.py
C.pipeline.py
D.settings.py
17.如果使用Python的數(shù)據(jù)結(jié)構(gòu)來做類比的話,MongoDB中庫相當(dāng)于一個(gè)大字典,大字典里面的每一個(gè)鍵值對(duì)都對(duì)應(yīng)了一個(gè)集合,Key為集合的名字,Value就是一個(gè)()。
A.字典
B.集合的名字
C.集合
D.文檔
18.Python中哪種容器一旦生成就不能修改
A.列表
B.元組
C.字典
D.集合
19.使用xpath方法的返回類型是()
A.列表
B.元組
C.字典
D.集合
20.python中可以用來將圖片中的文字轉(zhuǎn)換為文本的第三方類庫是
A.lxml
B.requests
C.beautifulsoup
D.pytesseract
二、多選題 (共 10 道試題,共 20 分)
21.requests中post請(qǐng)求方法的第二個(gè)參數(shù)可以為()
A.字典
B.列表
C.json數(shù)據(jù)
D.字符串
22.Redis中的值可以支持()
A.列表
B.哈希
C.集合
D.有序集合
23.HTTP常用狀態(tài)碼表明表明客戶端是發(fā)生錯(cuò)誤的原因所在的有()
A.403
B.404
C.500
D.503
24.下載器中間件的作用有哪些?
A.更換代理IP
B.更換Cookies
C.更換User-Agent
D.自動(dòng)重試
25.最常見的HTTP請(qǐng)求類型有()
A.GET
B.POST
C.SEND
D.RECEIVE
26.Python中的容器有()
A.列表
B.元組
C.字典
D.集合
27.如果爬蟲爬取的是商業(yè)網(wǎng)站,并且目標(biāo)網(wǎng)站使用了反爬蟲機(jī)制,那么強(qiáng)行突破反爬蟲機(jī)制可能構(gòu)成()
A.非法侵入計(jì)算機(jī)系統(tǒng)罪
B.非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪
C.非法獲取計(jì)算機(jī)數(shù)據(jù)罪
D.非法獲取系統(tǒng)罪
28.要使用tesseract來進(jìn)行圖像識(shí)別,需要安裝兩個(gè)第三方庫
A.requests
B.beautifulsoup
C.Pillow
D.pytesseract
29.Python中有哪些實(shí)現(xiàn)多線程方法()
A.multiprocess.dummy
B.threading.Thread
C.process
D.PyMongoDB
30.在配置ios使用Charles的操作中,正確的有()
A.對(duì)于蘋果設(shè)備,首先要保證計(jì)算機(jī)和蘋果設(shè)備聯(lián)在同一個(gè)Wi-Fi上。
B.選擇“HTTP代理”下面的“手動(dòng)”選項(xiàng)卡,在“服務(wù)器”處輸入計(jì)算機(jī)的IP地址,在“端口”處輸入8888
C.輸入完成代理以后按下蘋果設(shè)備的Home鍵,設(shè)置就會(huì)自動(dòng)保存。
D.安裝完成證書以后,在設(shè)置中打開“關(guān)于本機(jī)”,找到最下面的“證書信任設(shè)置”,并在里面啟動(dòng)對(duì)Charles證書的完全信任
三、判斷題 (共 20 道試題,共 40 分)
31.所有的異步加載都會(huì)向后臺(tái)發(fā)送請(qǐng)求
32.當(dāng)運(yùn)行爬蟲代碼后,出現(xiàn)"Forbidden by robots.txt"提示后,說明當(dāng)前時(shí)間段被爬取的網(wǎng)站無法訪問。
33.Python中元組生成以后還可以往里面繼續(xù)添加數(shù)據(jù),也可以從里面刪除數(shù)據(jù);
34.PyMongoDB中排序方法sort第二個(gè)參數(shù)-1表示升序
35.通用網(wǎng)絡(luò)爬蟲通常采用串行工作方式
36.Python中寫CSV文件的writerows方法參數(shù)為字典類型
37.在對(duì)XPath返回的對(duì)象再次執(zhí)行XPath的時(shí)候,子XPath開頭需要添加斜線
38.MongoDB URI的格式為: mongodb://服務(wù)器IP或域名:端口@用戶名:密碼
39.操作文本難以實(shí)現(xiàn)自動(dòng)化,而操作圖形界面可以容易的實(shí)現(xiàn)自動(dòng)化。
40.如果MongoDB運(yùn)行在所在的計(jì)算機(jī)上,MONGODB_HOST應(yīng)該寫成"192.168.0.1"
41.在Ubuntu下若要運(yùn)行Redis可以使用CMD進(jìn)入解壓以后的文件夾并運(yùn)行命令redis-server.exe redis.windows.conf啟動(dòng)Redis
42.在發(fā)送請(qǐng)求時(shí)需要注意requests提交的請(qǐng)求頭不能與瀏覽器的請(qǐng)求頭一致,因?yàn)檫@樣才能隱藏好自己達(dá)到獲取數(shù)據(jù)的目的
43.Redis是遵守BSD協(xié)議、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫
44.HTTP只能通過POST請(qǐng)求才能發(fā)送數(shù)據(jù)
45.如果目標(biāo)網(wǎng)站本身就是提供公眾查詢服務(wù)的網(wǎng)站,那么使用爬蟲是合法合規(guī)的。
46.使用AJAX技術(shù),可以在不刷新網(wǎng)頁的情況下更新網(wǎng)頁數(shù)據(jù)
47.”curl http://爬蟲服務(wù)器IP地址:6800/cancel.json -d project=工程名 -d job=爬蟲JOBID“該命令的作用是啟動(dòng)爬蟲
48.如果通過爬蟲抓取某公司網(wǎng)站的公開數(shù)據(jù),分析以后發(fā)現(xiàn)這個(gè)公司業(yè)績非常好,于是首先把數(shù)據(jù)或者分析結(jié)果出售給某基金公司,然后自己再買被爬公司的股票。此時(shí),涉嫌內(nèi)幕交易,屬于嚴(yán)重違法行為。
49.Redis中查詢列表長度命令llen中l(wèi)代表left,即從左側(cè)開始數(shù)
50.爬蟲中間件的作用對(duì)象是請(qǐng)求request和返回response