《數(shù)據(jù)科學(xué)導(dǎo)論》20春期末考核-00001
試卷總分:100 得分:100
一、單選題 (共 15 道試題,共 30 分)
1.下面不是分類的常用方法的有()
A.K近鄰法
B.樸素貝葉斯
C.決策樹
D.條件隨機(jī)場
答案:D
2.BFR聚類用于在()歐氏空間中對數(shù)據(jù)進(jìn)行聚類
A.高維
B.中維
C.低維
D.中高維
答案:A
3.聚類是一種()。
A.有監(jiān)督學(xué)習(xí)
B.無監(jiān)督學(xué)習(xí)
C.強(qiáng)化學(xué)習(xí)
D.半監(jiān)督學(xué)習(xí)
答案:B
4.數(shù)據(jù)庫中相關(guān)聯(lián)的兩張表都存儲了用戶的個人信息,但在用戶的個人信息發(fā)生改變時只更新了一張表中的數(shù)據(jù),這時兩張表中就有了不一致的數(shù)據(jù),這屬于()
A.異常值
B.缺失值
C.不一致的值
D.重復(fù)值
5.某商品的產(chǎn)量(X,件)與單位成本(Y,元/件)之間的回歸方程為^Y=100-1.2X,這說明()。
A.產(chǎn)量每增加一臺,單位成本增加100元
B.產(chǎn)量每增加一臺,單位成本減少1.2元
C.產(chǎn)量每增加一臺,單位成本平均減少1.2元
D.產(chǎn)量每增加一臺,單位平均增加100元
6.在k近鄰法中,選擇較小的k值時,學(xué)習(xí)的“近似誤差”會(),“估計誤差”會()。
A.減小,減小
B.減小,增大
C.增大,減小
D.增大,增大
7.在回歸分析中,自變量為(),因變量為()。
A.離散型變量,離散型變量
B.連續(xù)型變量,離散型變量
C.離散型變量,連續(xù)型變量
D.連續(xù)型變量,連續(xù)型變量
8.手肘法的核心指標(biāo)是()。
A.SES
B.SSE
C.RMSE
D.MSE
9.特征選擇的四個步驟中不包括()
A.子集產(chǎn)生
B.子集評估
C.子集搜索
D.子集驗證
10.一元線性回歸中,真實(shí)值與預(yù)測值的差稱為樣本的()。
A.誤差
B.方差
C.測差
D.殘差
11.K-means聚類適用的數(shù)據(jù)類型是()。
A.數(shù)值型數(shù)據(jù)
B.字符型數(shù)據(jù)
C.語音數(shù)據(jù)
D.所有數(shù)據(jù)
12.以下哪些不是缺失值的影響()
A.數(shù)據(jù)建模將丟失大量有用信息
B.數(shù)據(jù)建模的不確定性更加顯著
C.對整體總是不產(chǎn)生什么作用
D.包含空值的數(shù)據(jù)可能會使建模過程陷入混亂,導(dǎo)致異常的輸出
13.下列兩個變量之間的關(guān)系中,哪個是函數(shù)關(guān)系()。
A.人的性別和他的身高
B.人的工資與年齡
C.正方形的面積和邊長
D.溫度與濕度
14.考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采用 合并策略,由候選產(chǎn)生過程得到4-項集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
15.單層感知機(jī)模型屬于()模型。
A.二分類的線性分類模型
B.二分類的非線性分類模型
C.多分類的線性分類模型
D.多分類的非線性分類模型
二、多選題 (共 5 道試題,共 10 分)
16.系統(tǒng)日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可擴(kuò)展性
D.高效率
17.距離度量中的距離可以是()
A.歐式距離
B.曼哈頓距離
C.Lp距離
D.Minkowski距離
18.K-means聚類中K值選取的方法是()。
A.密度分類法
B.手肘法
C.大腿法
D.隨機(jī)選取
19.多層感知機(jī)的學(xué)習(xí)過程包含()。
A.信號的正向傳播
B.信號的反向傳播
C.誤差的正向傳播
D.誤差的反向傳播
20.一元回歸參數(shù)估計的參數(shù)求解方法有()。
A.最大似然法
B.距估計法
C.最小二乘法
D.歐式距離法
三、判斷題 (共 15 道試題,共 30 分)
21.Jaccard系數(shù)只關(guān)心個體間共同具有的特征是否一致這個問題。
22.標(biāo)準(zhǔn)BP算法是在讀取全部數(shù)據(jù)集后,對參數(shù)進(jìn)行統(tǒng)一更新的算法。
23.使用SVD方法進(jìn)行圖像壓縮不可以保留圖像的重要特征。
24.特征選擇和降維都是用于減少特征數(shù)量,進(jìn)而降低模型復(fù)雜度、防止過度擬合。
25.一個人的身高與體重之間具有函數(shù)關(guān)系。
26.K均值(K-Means)算法是密度聚類。
27.數(shù)據(jù)科學(xué)可以回答復(fù)雜的問題,發(fā)現(xiàn)世界中隱藏的聯(lián)系并預(yù)測和指導(dǎo)未來。
28.選擇較小的k值,相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測,學(xué)習(xí)的“近似誤差”會減小,“估計誤差”會增大,預(yù)測結(jié)果會對近鄰的點(diǎn)實(shí)例點(diǎn)非常敏感。
29.利用K近鄰法進(jìn)行分類時,使用不同的距離度量所確定的最近鄰點(diǎn)都是相同的。
30.對于項集來說,置信度沒有意義。
31.每個類的先驗概率可以通過屬于該類的訓(xùn)練記錄所占的比例來估計。
32.當(dāng)維度增加時,特征空間的體積增加得很快,使得可用的數(shù)據(jù)變得稠密。
33.利用K近鄰法進(jìn)行分類時,k值過小容易發(fā)生過擬合現(xiàn)象。
34.聚合方法是自底向上的方法。
35.平均減少的不純度越大,則特征重要度越高。
四、主觀填空題 (共 5 道試題,共 10 分)
36.##感知機(jī)足以解決任何復(fù)雜的分類問題。
判定系數(shù)取值范圍為[0,1],判定系數(shù)越接近##,表明變量之間的相關(guān)性越強(qiáng)。
38.在線性回歸分析中,當(dāng)輸入特征的維度從一維增加到d維(d>1),則該問題為##問題。
39.多元線性回歸中,在有統(tǒng)計學(xué)意義的前提下,標(biāo)準(zhǔn)化偏回歸系數(shù)的絕對值越大,說明相應(yīng)的自變量對y的作用##。
40.在k近鄰法中,通常采用##來選取最優(yōu)的k值。
五、簡答題 (共 2 道試題,共 20 分)
41.單層感知機(jī)和多層感知機(jī)分別解決的是哪類問題?
42.為什么某些屬性可能會降低樸素貝葉斯分類器的性能?