【南開】《數(shù)據(jù)科學(xué)導(dǎo)論》20春期末考核(標(biāo)準(zhǔn)答案)

可做奧鵬全部院校在線離線作業(yè)畢業(yè)論文QQ:3230981406 微信:aopopenfd777

發(fā)布時間:2020-09-06 02:56:02來源:admin瀏覽: 271 次

《數(shù)據(jù)科學(xué)導(dǎo)論》20春期末考核-00001

試卷總分:100  得分:100

一、單選題 (共 15 道試題,共 30 分)

1.下面不是分類的常用方法的有()

A.K近鄰法

B.樸素貝葉斯

C.決策樹

D.條件隨機(jī)場

答案:D

 

2.BFR聚類用于在()歐氏空間中對數(shù)據(jù)進(jìn)行聚類

A.高維

B.中維

C.低維

D.中高維

答案:A

3.聚類是一種()。

A.有監(jiān)督學(xué)習(xí)

B.無監(jiān)督學(xué)習(xí)

C.強(qiáng)化學(xué)習(xí)

D.半監(jiān)督學(xué)習(xí)

答案:B

 

4.數(shù)據(jù)庫中相關(guān)聯(lián)的兩張表都存儲了用戶的個人信息,但在用戶的個人信息發(fā)生改變時只更新了一張表中的數(shù)據(jù),這時兩張表中就有了不一致的數(shù)據(jù),這屬于()

A.異常值

B.缺失值

C.不一致的值

D.重復(fù)值

 

5.某商品的產(chǎn)量(X,件)與單位成本(Y,元/件)之間的回歸方程為^Y=100-1.2X,這說明()。

A.產(chǎn)量每增加一臺,單位成本增加100元

B.產(chǎn)量每增加一臺,單位成本減少1.2元

C.產(chǎn)量每增加一臺,單位成本平均減少1.2元

D.產(chǎn)量每增加一臺,單位平均增加100元

 

6.在k近鄰法中,選擇較小的k值時,學(xué)習(xí)的“近似誤差”會(),“估計誤差”會()。

A.減小,減小

B.減小,增大

C.增大,減小

D.增大,增大

 

7.在回歸分析中,自變量為(),因變量為()。

A.離散型變量,離散型變量

B.連續(xù)型變量,離散型變量

C.離散型變量,連續(xù)型變量

D.連續(xù)型變量,連續(xù)型變量

 

8.手肘法的核心指標(biāo)是()。

A.SES

B.SSE

C.RMSE

D.MSE

 

9.特征選擇的四個步驟中不包括()

A.子集產(chǎn)生

B.子集評估

C.子集搜索

D.子集驗證

 

10.一元線性回歸中,真實(shí)值與預(yù)測值的差稱為樣本的()。

A.誤差

B.方差

C.測差

D.殘差

 

11.K-means聚類適用的數(shù)據(jù)類型是()。

A.數(shù)值型數(shù)據(jù)

B.字符型數(shù)據(jù)

C.語音數(shù)據(jù)

D.所有數(shù)據(jù)

 

12.以下哪些不是缺失值的影響()

A.數(shù)據(jù)建模將丟失大量有用信息

B.數(shù)據(jù)建模的不確定性更加顯著

C.對整體總是不產(chǎn)生什么作用

D.包含空值的數(shù)據(jù)可能會使建模過程陷入混亂,導(dǎo)致異常的輸出

 

13.下列兩個變量之間的關(guān)系中,哪個是函數(shù)關(guān)系()。

A.人的性別和他的身高

B.人的工資與年齡

C.正方形的面積和邊長

D.溫度與濕度

 

14.考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采用 合并策略,由候選產(chǎn)生過程得到4-項集不包含()

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

 

15.單層感知機(jī)模型屬于()模型。

A.二分類的線性分類模型

B.二分類的非線性分類模型

C.多分類的線性分類模型

D.多分類的非線性分類模型

 

二、多選題 (共 5 道試題,共 10 分)

16.系統(tǒng)日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可擴(kuò)展性

D.高效率

 

17.距離度量中的距離可以是()

A.歐式距離

B.曼哈頓距離

C.Lp距離

D.Minkowski距離

 

18.K-means聚類中K值選取的方法是()。

A.密度分類法

B.手肘法

C.大腿法

D.隨機(jī)選取

 

19.多層感知機(jī)的學(xué)習(xí)過程包含()。

A.信號的正向傳播

B.信號的反向傳播

C.誤差的正向傳播

D.誤差的反向傳播

 

20.一元回歸參數(shù)估計的參數(shù)求解方法有()。

A.最大似然法

B.距估計法

C.最小二乘法

D.歐式距離法

 

三、判斷題 (共 15 道試題,共 30 分)

21.Jaccard系數(shù)只關(guān)心個體間共同具有的特征是否一致這個問題。

 

22.標(biāo)準(zhǔn)BP算法是在讀取全部數(shù)據(jù)集后,對參數(shù)進(jìn)行統(tǒng)一更新的算法。

 

23.使用SVD方法進(jìn)行圖像壓縮不可以保留圖像的重要特征。

 

24.特征選擇和降維都是用于減少特征數(shù)量,進(jìn)而降低模型復(fù)雜度、防止過度擬合。

 

25.一個人的身高與體重之間具有函數(shù)關(guān)系。

 

26.K均值(K-Means)算法是密度聚類。

 

27.數(shù)據(jù)科學(xué)可以回答復(fù)雜的問題,發(fā)現(xiàn)世界中隱藏的聯(lián)系并預(yù)測和指導(dǎo)未來。

 

28.選擇較小的k值,相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測,學(xué)習(xí)的“近似誤差”會減小,“估計誤差”會增大,預(yù)測結(jié)果會對近鄰的點(diǎn)實(shí)例點(diǎn)非常敏感。

 

29.利用K近鄰法進(jìn)行分類時,使用不同的距離度量所確定的最近鄰點(diǎn)都是相同的。

 

30.對于項集來說,置信度沒有意義。

 

31.每個類的先驗概率可以通過屬于該類的訓(xùn)練記錄所占的比例來估計。

 

32.當(dāng)維度增加時,特征空間的體積增加得很快,使得可用的數(shù)據(jù)變得稠密。

 

33.利用K近鄰法進(jìn)行分類時,k值過小容易發(fā)生過擬合現(xiàn)象。

 

34.聚合方法是自底向上的方法。

 

35.平均減少的不純度越大,則特征重要度越高。

 

四、主觀填空題 (共 5 道試題,共 10 分)

36.##感知機(jī)足以解決任何復(fù)雜的分類問題。

 

判定系數(shù)取值范圍為[0,1],判定系數(shù)越接近##,表明變量之間的相關(guān)性越強(qiáng)。

 

38.在線性回歸分析中,當(dāng)輸入特征的維度從一維增加到d維(d>1),則該問題為##問題。

 

39.多元線性回歸中,在有統(tǒng)計學(xué)意義的前提下,標(biāo)準(zhǔn)化偏回歸系數(shù)的絕對值越大,說明相應(yīng)的自變量對y的作用##。

 

40.在k近鄰法中,通常采用##來選取最優(yōu)的k值。

 

五、簡答題 (共 2 道試題,共 20 分)

41.單層感知機(jī)和多層感知機(jī)分別解決的是哪類問題?

 

42.為什么某些屬性可能會降低樸素貝葉斯分類器的性能?

 


作業(yè)咨詢 論文咨詢
微信客服掃一掃

回到頂部