23春《大數(shù)據(jù)技術與應用》作業(yè)4-00001
試卷總分:100 得分:100
一、單選題 (共 15 道試題,共 60 分)
1.用訓練好的隨機森林對樣本進行類別預測的語句是
A.from sklearn.tree import DecisionTreetClassifier
B.clf=DecisionTreetClassifier()
C.clf.fit(Xtrain,Ytrain)
D.predictions=clf.predict(Xtest)
2.以下不是數(shù)據(jù)可視化工具庫的是()
A.pandas
B.matplotlib
C.matlab
D.seaborn
3.數(shù)據(jù)集{1,2,3,5,7,8,9}的中位數(shù)是
A.3
B.5
C.7
D.4
4.下面代碼能夠提取模糊C均值聚類算法類簇中心特征的語句是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=4)
C.fcm.fit(X)
D.fcm_centers=fcm.cednters
5.局部異常因子(LOF)算法屬于
A.基于統(tǒng)計的異常值檢測方法
B.基于密度的異常檢測方法
C.基于聚類的異常值檢測
D.基于決策樹的異常檢測
6.邏輯回歸中的“邏輯”是指
A.規(guī)則
B.Sigmoid函數(shù)
C.學者名字
D.以上都不對
7.數(shù)據(jù)集{1,2,2,2,3,4}的眾數(shù)是
A.1
B.2
C.3
D.4
8.利用pandas處理數(shù)據(jù)缺失值時,用于發(fā)現(xiàn)缺失值的函數(shù)為
A.isnull
B.head
C.tail
D.info
9.利用pandas處理數(shù)據(jù)缺失值時,用于填充缺失值的函數(shù)為
A.isnull
B.head
C.fillna
D.dropna
10.關聯(lián)規(guī)則最基礎的元素是
A.項
B.項集
C.超項集
D.子項集
11.from sklearn.neighbors import KNeighborsClassifiernknn = KNeighborsClassifier(n_neighbors=3) n上面代碼中可以看出,KNN分類器的k值設置為
A.1
B.2
C.3
D.4
12.決策樹生成過程中,以信息增益率作為特征選擇準則生成決策樹的算法是
A.ID3
B.C4.5
C.CART
D.以上都不對
13.決策樹生成過程的停止條件
A.當前結點包含的樣本全屬于同一類別,無需劃分
B.當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分
C.當前結點包含的樣本集合為空,不能劃分
D.以上都不對
14.用訓練好的LOF實例判斷數(shù)據(jù)是否異常,正常樣本用1表示,異常樣本用-1表示的語句
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
15.處理缺失值的方法有刪除和()
A.替換
B.復制
C.修改
D.屏蔽
二、多選題 (共 5 道試題,共 20 分)
16.常用的分類方法包括
A.樸素貝葉斯分類器
B.決策樹
C.KNN
D.以上都不對
17.定性數(shù)據(jù)包括
A.有序數(shù)據(jù)
B.無序數(shù)據(jù)
C.定類等級數(shù)據(jù)
D.定性等級數(shù)據(jù)
18.數(shù)據(jù)挖掘(Data Mining)則是知識發(fā)現(xiàn)(KDD)的核心部分,它指的是從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為
A.規(guī)則
B.概念
C.規(guī)律
D.模式
19.異常檢測的難點
A.不能明確定義何為正常,何為異常,在某些領域正常和異常并沒有明確的界限
B.數(shù)據(jù)本身存在噪聲,致使噪聲和異常難以區(qū)分
C.正常行為并不是一成不變,也會隨著時間演化,如正常用戶被盜號之后,進行一系列的非法操作
D.難以獲取標記數(shù)據(jù),沒有數(shù)據(jù),再好的算法也是無用
20.分箱法包括
A.等深分箱
B.眾數(shù)分箱
C.等寬分箱
D.以上都不對
三、判斷題 (共 5 道試題,共 20 分)
21.眾數(shù)在一組數(shù)據(jù)中只有一個
22.因為 Bayes 理論能夠幫助理解基于概率估計的復雜現(xiàn)況,所以它成為了數(shù)據(jù)挖掘和概率論的基礎
23.下四分位數(shù)是指 數(shù)據(jù)從大到小排列排在第25%位置的數(shù)字,即最小的四分位數(shù)(下四分位數(shù))
24.高層次數(shù)據(jù)無法向低層次轉化,會出現(xiàn)F
25.描述性數(shù)據(jù)分析屬于比較高級復雜的數(shù)據(jù)分析手段
奧鵬,國開,廣開,電大在線,各省平臺,新疆一體化等平臺學習
詳情請咨詢QQ : 3230981406或微信:aopopenfd777