23春《大數(shù)據(jù)技術(shù)與應(yīng)用》作業(yè)3-00001
試卷總分:100 得分:100
一、單選題 (共 15 道試題,共 60 分)
1.項(xiàng)集 S ={尿布,啤酒,牛奶,可樂},則項(xiàng)集S稱為
A.1項(xiàng)集
B.2項(xiàng)集
C.3項(xiàng)集
D.4項(xiàng)集
2.決策樹生成過程中,以信息增益率作為特征選擇準(zhǔn)則生成決策樹的算法是
A.ID3
B.C4.5
C.CART
D.以上都不對
3.數(shù)據(jù)集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位數(shù)為
A.2
B.4
C.6
D.8
4.從軟件庫中導(dǎo)入LOF異常檢測算法類的語句是
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
5.數(shù)據(jù)等級(jí)排序T的是
A.定距等級(jí)>定比等級(jí)>定類等級(jí)>定序等級(jí)
B.定比等級(jí)>定序等級(jí)>定距等級(jí)>定類等級(jí)
C.定比等級(jí)>定距等級(jí)>定序等級(jí)>定類等級(jí)
D.定比等級(jí)>定類等級(jí)>定序等級(jí)>定距等級(jí)
6.用訓(xùn)練好的LOF實(shí)例判斷數(shù)據(jù)是否異常,正常樣本用1表示,異常樣本用-1表示的語句
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
7.不包含任何項(xiàng)的項(xiàng)集是指
A.項(xiàng)
B.空集
C.超項(xiàng)集
D.子項(xiàng)集
8.從軟件庫中導(dǎo)入模糊C均值聚類算法類的語句是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=3)
C.fcm.fit(X)
D.fcm_labels=fcm.u.argmax(axis=1)
9.如果一個(gè)項(xiàng)集包含K個(gè)項(xiàng),則該項(xiàng)集稱為
A.項(xiàng)
B.空集
C.超項(xiàng)集
D.K項(xiàng)集
10.利用pandas處理數(shù)據(jù)缺失值時(shí),用于丟棄重復(fù)值的函數(shù)為
A.drop_duplicates
B.duplicated
C.fillna
D.dropna
11.常用于多變量噪聲值(異常值)處理的方法是
A.等深分箱
B.聚類法
C.等寬分箱
D.蓋帽法
12.數(shù)據(jù)集{1,2,3,5,7,9}的中位數(shù)是
A.3
B.5
C.7
D.4
13.利用pandas處理數(shù)據(jù)缺失值時(shí),用于發(fā)現(xiàn)缺失值的函數(shù)為
A.isnull
B.head
C.tail
D.info
14.關(guān)聯(lián)規(guī)則 X→Y 表示中Y稱為
A.前件
B.后件
C.中間件
D.以上都不對
15.數(shù)據(jù)集{1,2,2,2,3,4}的眾數(shù)是
A.1
B.2
C.3
D.4
二、多選題 (共 5 道試題,共 20 分)
16.聚類分析可以用于
A.顧客分組
B.分類
C.回歸
D.找出顯著影響
17.關(guān)聯(lián)規(guī)則反映的是
A.可分類性
B.可分割性
C.事物之間相互依存性
D.事物之間相互關(guān)聯(lián)性
18.大數(shù)據(jù)收集的途徑包括()
A.互聯(lián)網(wǎng)
B.移動(dòng)互聯(lián)網(wǎng)
C.物聯(lián)網(wǎng)傳感器
D.手動(dòng)
19.可用于實(shí)現(xiàn)數(shù)據(jù)one-hot編碼的方法包括
A.Pandas的head
B.Pandas的get_dummies
C.sklearn.preprocessing.OneHotEncoder方法
D.Pandas的tail
20.決策樹的關(guān)鍵點(diǎn)包括
A.采用Bagging框架
B.采用隨機(jī)特征選擇生成每個(gè)決策樹的訓(xùn)練數(shù)據(jù)特征子集
C.采用采樣數(shù)據(jù)集的特征子集訓(xùn)練對應(yīng)決策樹
D.以上都不對
三、判斷題 (共 5 道試題,共 20 分)
21.定類數(shù)據(jù)層次比定序數(shù)據(jù)高
22.數(shù)據(jù)挖掘的過程都是有統(tǒng)一一致的步驟的
23.定序數(shù)據(jù)層次比定距數(shù)據(jù)高
24.下四分位數(shù)是指 數(shù)據(jù)從大到小排列排在第25%位置的數(shù)字,即最小的四分位數(shù)(下四分位數(shù))
25.上世紀(jì) 70 年代,隨著數(shù)據(jù)庫管理系統(tǒng)趨于成熟,存儲(chǔ)和查詢百萬兆字節(jié)甚至千萬億字節(jié)成為可能。而且,數(shù)據(jù)倉庫允許用戶從面向事物處理的思維方式向更注重?cái)?shù)據(jù)分析的方式進(jìn)行轉(zhuǎn)變。因此,提取復(fù)雜深度系信息能力非常強(qiáng)啊
奧鵬,國開,廣開,電大在線,各省平臺(tái),新疆一體化等平臺(tái)學(xué)習(xí)
詳情請咨詢QQ : 3230981406或微信:aopopenfd777