国产精品全国免费观看高,亚洲第一页日韩专区

可做奧鵬院校所有作業(yè)，畢業(yè)論文，咨詢請?zhí)砑観Q：3230981406 微信：aopopenfd777

《大數(shù)據(jù)開發(fā)技術(shù)（二）》20春期末考核

一、單選題 (共 15 道試題,共 30 分)
1.GraphX中（）方法可以查詢頂點(diǎn)信息
A.numVertices
B.numEdges
C.vertices
D.edges
正確答案:

2.MLlib 中可以調(diào)用mllib.tree.DecisionTree 類中的靜態(tài)方法（）訓(xùn)練回歸樹
A.trainClassifier
B.trainRegressor
C.LogisticRegressionModel
D.LabeledPoint
正確答案:

3.以下哪個(gè)函數(shù)可以對RDD進(jìn)行去重（）
A.sortBy
B.filter
C.distinct
D.intersection
正確答案:

4.圖是一種數(shù)據(jù)元素間為（）關(guān)系的數(shù)據(jù)結(jié)構(gòu)
A.多對多
B.一對一
C.一對多
D.多對一
正確答案:

5.GraphX中（）方法可以查詢度數(shù)
A.degrees
B.degree
C.vertices
D.edges
正確答案:

6.Scala中（）方法返回一個(gè)列表，包含除了第一個(gè)元素之外的其他元素
A.head
B.init
C.tail
D.last
正確答案:

7.GraphX中g(shù)raph.triplets可以得到（）
A.頂點(diǎn)視圖
B.邊視圖
C.頂點(diǎn)與邊的三元組整體視圖
D.有向圖
正確答案:

8.spark-submit配置項(xiàng)中（）表示啟動(dòng)的executor數(shù)量
A.--num-executors NUM
B.--executor-memory MEM
C.--total-executor-cores NUM
D.--executor-coures NUM
正確答案:

9.（）是AMPLab發(fā)布的一個(gè)R開發(fā)包，使得R擺脫單機(jī)運(yùn)行的命運(yùn)，可以作為Spark的Job運(yùn)行在集群上
A.SparkR
B.BlinkDB
C.GraphX
D.Mllib
正確答案:

10.Spark GraphX中類Graph的collectNeighborIds(edgeDirection: EdgeDirection)方法可以（）
A.收集鄰居頂點(diǎn)的頂點(diǎn)Id和頂點(diǎn)屬性
B.收集鄰居頂點(diǎn)的頂點(diǎn)Id
C.向指定頂點(diǎn)發(fā)送信息并聚合信息
D.將頂點(diǎn)信息更新到圖中
正確答案:

11.Mllib中線性會館算法中的參數(shù)reParam表示（）
A.要運(yùn)行的迭代次數(shù)
B.梯度下降的步長
C.是否給數(shù)據(jù)加干擾特征或者偏差特征
D.Lasso 和ridge 的正規(guī)化參數(shù)
正確答案:

12.Scala列表方法中通過給定的方法將所有元素重新計(jì)算的方法是（）
A.filter
B.foreach
C.map
D.mkString
正確答案:

13.Scala函數(shù)組合器可以把一個(gè)二維的列表展開成一個(gè)一維的列表的方法是（）
A.filter
B.flatten
C.grouby
D.flatmap
正確答案:

14.GraphX中（）方法可以釋放頂點(diǎn)緩存
A.cache
B.presist
C.unpersistVertices
D.edges.unpersist
正確答案:

15.Spark GraphX中類Graph的aggregateMessages方法可以（）
A.收集鄰居頂點(diǎn)的頂點(diǎn)Id和頂點(diǎn)屬性
B.收集鄰居頂點(diǎn)的頂點(diǎn)Id
C.向指定頂點(diǎn)發(fā)送信息并聚合信息
D.將頂點(diǎn)信息更新到圖中
正確答案:

二、多選題 (共 10 道試題,共 20 分)
16.MLBase包括（）
A.Mllib
B.MLI
C.SparkR
D.GraphX
正確答案:B

17.Spark創(chuàng)建DataFrame對象方式有（）
A.結(jié)構(gòu)化數(shù)據(jù)文件
B.外部數(shù)據(jù)庫
C.RDD
D.Hive中的表
正確答案:BCD

18.TF-IDF中IDF指的是（）
A.詞頻
B.詞在文檔中出現(xiàn)的次數(shù)
C.逆文檔概率
D.詞在文檔集中出現(xiàn)的概率
E.詞在文檔集中出現(xiàn)的概率
正確正確答案:

19.Spark中DataFrame的（）方法是查詢指定字段的數(shù)據(jù)信息
A.select
B.selectExpr
C.col
D.apply
正確答案:BCD

20.以下算法中屬于監(jiān)督學(xué)習(xí)算法的是（）
A.KNN算法
B.邏輯回歸
C.隨機(jī)森林
D.Kmeans
正確答案:BC

21.以下哪個(gè)方法可以從集合中創(chuàng)建RDD（）
A.parallelize
B.makeRDD
C.textFile
D.loadFile
正確答案:B

22.Scala函數(shù)支持（）
A.遞歸函數(shù)
B.高階函數(shù)
C.柯里化
D.匿名函數(shù)
正確答案:BCD

23.GraphX中Edge邊對象存有（）字段
A.srcId
B.dstId
C.attr
D.val
正確答案:BC

24.Spark中的RDD的說法正確的是（）
A.彈性分布式數(shù)據(jù)集
B.是Spark中最基本的數(shù)據(jù)抽象
C.代表一個(gè)可變的集合
D.代表的集合里面的元素可并行計(jì)算
正確答案:BD

25.Spark支持使用（）語言編寫應(yīng)用
A.Scala
B.Python
C.Java
D.R
正確答案:BCD

三、答案來源：（www.） (共 10 道試題,共 20 分)
26.Scala中高階函數(shù)可以使用函數(shù)作為參數(shù)，也可以使用函數(shù)作為輸出結(jié)果。
答案:正確

27.RDD的sortBy函數(shù)包含參數(shù)numPartitions，該參數(shù)決定排序后的RDD的分區(qū)個(gè)數(shù)，默認(rèn)排序后的分區(qū)個(gè)數(shù)和排序之前的個(gè)數(shù)相等，即為this.partitions.size。
答案:正確

28.RDD的filter過濾會將返回值為true的過濾掉
答案:錯(cuò)誤

29.RDD的subtract用于用于將前一個(gè)RDD 中在后一個(gè)RDD 出現(xiàn)的元素刪除
答案:正確

30.圖（Graph）是一種復(fù)雜的非線性結(jié)構(gòu)
答案:正確

31.Spark中DataFrame 的查詢操作也是一個(gè)懶操作，僅僅生成一個(gè)查詢計(jì)劃，只有觸發(fā)Action 操作才會進(jìn)行計(jì)算并返回查詢結(jié)果。
答案:正確

32.RDD的map操作不會改變RDD的分區(qū)數(shù)目
答案:正確

33.Scala 集合分為可變的和不可變的集合
答案:正確

34.Spark RDD 是惰性求值的，如果需要對一個(gè)RDD 多次使用，那么調(diào)用行動(dòng)操作時(shí)每次都需要重復(fù)計(jì)算RDD 以及它的依賴。
答案:正確

35.Scala 列表與數(shù)組非常相似，列表的所有元素可具有不同的類型。
答案:錯(cuò)誤

四、主觀填空題 (共 5 道試題,共 10 分)
36.Scala函數(shù)組合器可以把一個(gè)二維的列表展開成一個(gè)一維的列表的方法是##
答案:flatten

37.Mllib中線性會館算法中的參數(shù)reParam默認(rèn)值是##
答案:1

38.假設(shè)集合A 有5 個(gè)元素，集合B 有10 個(gè)元素，使用RDDcartesian函數(shù)會返回##個(gè)元素的組合
答案:50

39.Scala中定義函數(shù)的關(guān)鍵字是##
正確答案:ef 

40.Spark SQL 可以通過##方法將HDFS 上的格式化文件轉(zhuǎn)換為DataFrame
答案:load

五、問答題 (共 1 道試題,共 10 分)
41.請闡述Spark對數(shù)據(jù)進(jìn)行持久化的特點(diǎn)
答案:（1） RDD 的存儲級別應(yīng)該根據(jù)需要以及環(huán)境具體情況設(shè)定，在RDD 參與第一次計(jì)算后，RDD 就會根據(jù)設(shè)置的存儲級別保存RDD 計(jì)算后的值在內(nèi)存中或磁盤上。 （2）只有未曾設(shè)置存儲級別的RDD 才能設(shè)置存儲級別，設(shè)置了存儲級別的RDD 不能修改其存儲級別。 （3）針對僅存儲數(shù)據(jù)在內(nèi)存中的存儲策略，如果內(nèi)存不足的話， Spark 會使用LRU 緩存策略清除最老的分區(qū)，為新的RDD 提供空間，所以緩存在內(nèi)存中的RDD分區(qū)是會被清除的，而不能長久保存，而緩存在磁盤上的數(shù)據(jù)則不用擔(dān)心。 

六、更多答案下載：（www.） (共 2 道試題,共 10 分)
42.SparkR
答案:SparkR是AMPLab發(fā)布的一個(gè)R開發(fā)包，使得R擺脫單機(jī)運(yùn)行的命運(yùn)，可以作為Spark的Job運(yùn)行在集群上。

43.DStream
正確答案:Stream 即離散流(discretized stream) ，是Spark Streaming 對內(nèi)部持續(xù)的實(shí)時(shí)數(shù)據(jù)流的抽象描述

微信客服掃一掃