《大數(shù)據(jù)導論》19秋期末考核-0001
一、單選題 (共 10 道試題,共 20 分)
1.以下不是數(shù)據(jù)倉庫基本特征的是()
A.數(shù)據(jù)倉庫的數(shù)據(jù)是相對穩(wěn)定的
B.數(shù)據(jù)倉庫的數(shù)據(jù)是反映歷史變化的
C.數(shù)據(jù)倉庫是面向事務的
D.數(shù)據(jù)倉庫是面向主題的
2.()是Microsoft Office的核心組件
A.WORD
B.SQL
C.PPT
D.EXCEL
3.數(shù)據(jù)清洗的方法不包括
A.重復數(shù)據(jù)記錄處理
B.缺失值處理
C.噪聲數(shù)據(jù)清除
D.一致性檢查
4.數(shù)據(jù)產(chǎn)生方式變革中數(shù)據(jù)產(chǎn)生方式是主動的主要是來自哪個階段( )。
A.運營式系統(tǒng)階段
B.用戶原創(chuàng)內容階段
C.感知式系統(tǒng)階段
5.下列哪個R語言擴展包可以制作一系列的圖像并將它們串聯(lián)起來做成動畫()
A.network
B.ggplot2
C.ggmaps
D.animation
6.下列不屬于Google云計算平臺技術架構的是()
A.結構化數(shù)據(jù)表BigTable
B.彈性云計算EC2
C.并行數(shù)據(jù)處理MapReduce
D.分布式鎖Chubby
7.大數(shù)據(jù)的最顯著特征是() 。
A.數(shù)據(jù)規(guī)模大
B.數(shù)據(jù)類型多樣
C.數(shù)據(jù)處理速度快
D.數(shù)據(jù)價值密度高
8.IaaS是()的簡稱
A.軟件即服務
B.硬件即服務
C.平臺即服務
D.基礎設施即服務
9.基礎設施即服務的英文簡稱是
A.SaaS
B.PaaS
C.IaaS
10.下列哪個工具常用來開發(fā)移動友好地交互地圖()
A.Visual.ly
B.Leaflet
C.Gephi
D.BPizza Pie Charts
二、多選題 (共 10 道試題,共 20 分)
11.數(shù)據(jù)歸約(Data Reduction)主要有()
A.維度規(guī)約
B.離散化概念分層
C.樣本規(guī)約
D.數(shù)據(jù)聚集
12.以下可以用于數(shù)據(jù)可視化的是()。
A.Weka
B.R語言
C.RapidMiner
D.Excel
13.醫(yī)療大數(shù)據(jù)特點:除了包含了大數(shù)據(jù)4個“V” 的特點之外還有()
A.時效性
B.多態(tài)性
C.冗余性
D.不完整性
14.大數(shù)據(jù)存儲的特點與挑戰(zhàn)有()
A.成本問題
B.延遲問題
C.容量問題
D.安全問題
15.大數(shù)據(jù)智能感知層:主要包括()及軟硬件資源接入系統(tǒng)
A.網(wǎng)絡通信體系
B.智能識別體系
C.數(shù)據(jù)傳感體系
D.傳感適配體系
16.數(shù)據(jù)預處理的過程主要是
A.數(shù)據(jù)集成
B.數(shù)據(jù)規(guī)約
C.數(shù)據(jù)清洗
D.數(shù)據(jù)變換
17.交通數(shù)據(jù)處理包括以下幾個步驟()
A.數(shù)據(jù)聚類
B.數(shù)據(jù)組織
C.數(shù)據(jù)清洗
D.數(shù)據(jù)映射
18.數(shù)據(jù)工廠包括
A.超強云安全
B.超大規(guī)模講分布式架構
C.新一代智能自動化運維
D.低能耗數(shù)據(jù)中心
19.可視化工具包括()
A.ppt
B.Google Chart
C.Gephi
D.Excel
20.去除噪聲使得數(shù)據(jù)光滑的技術主要有:
A.離群點分析
B.回歸
C.分箱
三、判斷題 (共 15 道試題,共 30 分)
21.在未來掘金社交數(shù)據(jù)的道路上,一方面要為用戶提供更加精準便捷的良好服務,另
一方面也要注重對用戶隱私的保護。只有符合用戶需求和用戶安全的商業(yè)利益,才能
成為可持續(xù)的商業(yè)利益。
22.每個簇的質心(centroid)是該簇中所有數(shù)據(jù)對象的均值。
23.數(shù)據(jù)存儲要表現(xiàn)出靜態(tài)數(shù)據(jù)的特征,反映的是系統(tǒng)中靜止的數(shù)據(jù)。
24.不同類型的大數(shù)據(jù)可以揭示一個區(qū)域或城市的活動以及人口分布狀態(tài)( )
25.Gartner研究機構給出的大數(shù)據(jù)定義是大數(shù)據(jù)一般會涉及兩種或兩種以上的數(shù)據(jù)形
式,它需要收集超過100TB的數(shù)據(jù),并且是高速實時數(shù)據(jù)流;或者是從小數(shù)據(jù)開始,但數(shù)
據(jù)每年增長速率至少為60%。
26.未來考驗零售企業(yè)的是如何挖掘消費者需求
27.減少已分配但未使用的存儲容量的浪費,在分配存儲空間時,系統(tǒng)按需分配存儲空
間。
28.數(shù)據(jù)存儲是數(shù)據(jù)流在加工過程中產(chǎn)生的臨時文件或加工過程中需要查找的信息。
29.Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎。
30.FP算法比Apriori算法慢
31.軌跡數(shù)據(jù)包含空間和時間屬性,并且通常規(guī)模巨大且維度高
32.Apriori算法掃描數(shù)據(jù)庫的次數(shù)等于最大頻繁項集的項數(shù)。
33.Facebook積累了超過12億全球用戶,其存儲了大量的用戶數(shù)據(jù),這使它成為一個巨
大的“數(shù)據(jù)樂園”。人們越來愈傾向于在Facebook上表達自己的情緒。
34.大數(shù)據(jù)處理的關鍵技術主要包括:數(shù)據(jù)采集和預處理、數(shù)據(jù)存儲、數(shù)據(jù)計算架構、
數(shù)據(jù)分析和挖掘、數(shù)據(jù)可視化展示等。
35.R是一種開源編程語言和軟件環(huán)境,用于數(shù)據(jù)挖掘、數(shù)據(jù)分析和可視化。
四、簡答題 (共 2 道試題,共 10 分)
36.簡述數(shù)據(jù)可視化的流程和步驟。
37.簡述網(wǎng)絡大數(shù)據(jù)的一般采集過程。
五、名詞解釋 (共 4 道試題,共 20 分)
38.NoSQL
39.批處理
40.數(shù)據(jù)清洗
41.結構化數(shù)據(jù)