23秋學(xué)期(僅限-高起專1909、專升本1909)《數(shù)據(jù)科學(xué)導(dǎo)論》在線作業(yè)-00003
試卷總分:100 得分:100
一、單選題 (共 20 道試題,共 40 分)
1.Apriori算法的加速過程依賴于以下哪個(gè)策略( )
A.抽樣
B.剪枝
C.緩沖
D.并行
2.實(shí)體識(shí)別的常見形式()
A.同名異義
B.異名同義
C.單位不統(tǒng)一
D.屬性不同
3.以下屬于關(guān)聯(lián)分析的是( )
A.CPU性能預(yù)測(cè)
B.購物籃分析
C.自動(dòng)判斷鳶尾花類別
D.股票趨勢(shì)建模
4.只有非零值才重要的二元屬性被稱作:( ),其中購物籃數(shù)據(jù)就屬于這種屬性。
A.計(jì)數(shù)屬性
B.離散屬性
C.非對(duì)稱的二元屬性#對(duì)稱屬性
5.以下哪些不是缺失值的影響()
A.數(shù)據(jù)建模將丟失大量有用信息
B.數(shù)據(jù)建模的不確定性更加顯著
C.對(duì)整體總是不產(chǎn)生什么作用
D.包含空值的數(shù)據(jù)可能會(huì)使建模過程陷入混亂,導(dǎo)致異常的輸出
6.下列兩個(gè)變量之間的關(guān)系中,哪個(gè)是函數(shù)關(guān)系()。
A.人的性別和他的身高
B.人的工資與年齡
C.正方形的面積和邊長
D.溫度與濕度
7.例如將工資收入屬性值映射到[-1,1]或者[0,1]內(nèi)屬于數(shù)據(jù)變換中的()
A.簡單函數(shù)變換
B.規(guī)范化
C.屬性構(gòu)造
D.連續(xù)屬性離散化
8.單層感知機(jī)是由()層神經(jīng)元組成。
A.一
B.二
C.三
D.四
9.數(shù)據(jù)庫中相關(guān)聯(lián)的兩張表都存儲(chǔ)了用戶的個(gè)人信息,但在用戶的個(gè)人信息發(fā)生改變時(shí)只更新了一張表中的數(shù)據(jù),這時(shí)兩張表中就有了不一致的數(shù)據(jù),這屬于()
A.異常值
B.缺失值
C.不一致的值
D.重復(fù)值
10.我們需要對(duì)已生成的樹()進(jìn)行剪枝,將樹變得簡單,從而使它具有更好的泛化能力。
A.自上而下
B.自下而上
C.自左而右
D.自右而左
11.多層感知機(jī)是由()層神經(jīng)元組成。
A.二
B.三
C.大于等于二層
D.大于等于三層
12.BFR聚類用于在()歐氏空間中對(duì)數(shù)據(jù)進(jìn)行聚類
A.高維
B.中維
C.低維
D.中高維
13.手肘法的核心指標(biāo)是()。
A.SES
B.SSE
C.RMSE
D.MSE
14.層次聚類對(duì)給定的數(shù)據(jù)進(jìn)行()的分解。
A.聚合
B.層次
C.分拆
D.復(fù)制
15.以下哪一項(xiàng)不是特征選擇常見的方法()
A.過濾式
B.封裝式
C.嵌入式
D.開放式
16.層次聚類適合規(guī)模較()的數(shù)據(jù)集
A.大
B.中
C.小
D.所有
17.在k近鄰法中,選擇較小的k值時(shí),學(xué)習(xí)的“近似誤差”會(huì)(),“估計(jì)誤差”會(huì)()。
A.減小,減小
B.減小,增大
C.增大,減小
D.增大,增大
18.比如一張表,從業(yè)務(wù)上講,一個(gè)用戶應(yīng)該只會(huì)有一條記錄, 那么如果某個(gè)用戶出現(xiàn)了超過一條的記錄,這就產(chǎn)生了()
A.異常值
B.不一致的值
C.重復(fù)值
D.缺失值
19.下面不是分類的常用方法的有()
A.K近鄰法
B.樸素貝葉斯
C.決策樹
D.條件隨機(jī)場(chǎng)
20.聚類的最簡單最基本方法是()。
A.劃分聚類
B.層次聚類
C.密度聚類
D.距離聚類
二、多選題 (共 10 道試題,共 20 分)
21.什么情況下結(jié)點(diǎn)不用劃分()
A.當(dāng)前結(jié)點(diǎn)所包含的樣本全屬于同一類別
B.當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同
C.當(dāng)前結(jié)點(diǎn)包含的樣本集為空
D.還有子集不能被基本正確分類
22.相關(guān)性的分類,按照相關(guān)的方向可以分為()。
A.正相關(guān)
B.負(fù)相關(guān)
C.左相關(guān)
D.右相關(guān)
23.k近鄰法的基本要素包括()。
A.距離度量
B.k值的選擇
C.樣本大小
D.分類決策規(guī)則
24.數(shù)據(jù)科學(xué)具有哪些性質(zhì)()
A.有效性
B.可用性
C.未預(yù)料
D.可理解
25.距離度量中的距離可以是()
A.歐式距離
B.曼哈頓距離
C.Lp距離
D.Minkowski距離
26.下列選項(xiàng)是BFR的對(duì)象是()
A.廢棄集
B.臨時(shí)集
C.壓縮集
D.留存集
27.K-means聚類中K值選取的方法是()。
A.密度分類法
B.手肘法
C.大腿法
D.隨機(jī)選取
28.系統(tǒng)日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可擴(kuò)展性
D.高效率
29.對(duì)于多層感知機(jī),()層擁有激活函數(shù)的功能神經(jīng)元。
A.輸入層
B.隱含層
C.輸出層
30.下面例子屬于分類的是()
A.檢測(cè)圖像中是否有人臉出現(xiàn)
B.對(duì)客戶按照貸款風(fēng)險(xiǎn)大小進(jìn)行分類
C.識(shí)別手寫的數(shù)字
D.估計(jì)商場(chǎng)客流量
三、判斷題 (共 20 道試題,共 40 分)
31.隨著特征維數(shù)的增加,特征空間呈指數(shù)倍增長,樣本密度急劇減小,樣本稀疏。
32.啤酒與尿布的故事是聚類分析的典型實(shí)例。
33.Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。
34.分拆方法是自底向上的方法。
35.交叉表被廣泛用于調(diào)查研究,商業(yè)智能,工程和科學(xué)研究
36.k值增大意味著整體模型變得復(fù)雜。
37.利用K近鄰法進(jìn)行分類時(shí),k值過小容易發(fā)生過擬合現(xiàn)象。
38.獲取數(shù)據(jù)的方式有多種,可以從網(wǎng)頁、測(cè)量、數(shù)據(jù)庫、傳統(tǒng)媒體、監(jiān)控等等方式
39.EDA可以最大化數(shù)據(jù)分析者對(duì)數(shù)據(jù)集和數(shù)據(jù)集底層結(jié)構(gòu)的洞察力,并且為分析者提供數(shù)據(jù)集中包含的各類信息。
40.子集產(chǎn)生本質(zhì)上是一個(gè)搜索過程,該過程可以從空集、隨機(jī)產(chǎn)生的一個(gè)特征子集或者整個(gè)特征集開始。
41.多元線性回歸模型中,標(biāo)準(zhǔn)化偏回歸系數(shù)沒有單位。
42.由不同的距離度量所確定的最近鄰點(diǎn)是不同的
43.決策樹內(nèi)部結(jié)點(diǎn)表示一個(gè)類,葉結(jié)點(diǎn)表示一個(gè)特征或?qū)傩?/p>
44.交叉表可以幫助人們發(fā)現(xiàn)變量之間的相互作用。
45.樸素貝葉斯分類器有簡單、高效、健壯的特點(diǎn),但某些屬性可能會(huì)降低分類器的性能
46.隨著特征維數(shù)的增加,樣本間區(qū)分度提高。
47.K均值(K-Means)算法是密度聚類。
48.赤池信息準(zhǔn)則是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn)。
49.貝葉斯定理是概率論中的一個(gè)結(jié)果,它與隨機(jī)變量的條件概率以及聯(lián)合概率分布 有關(guān)。
50.標(biāo)準(zhǔn)BP算法是在讀取全部數(shù)據(jù)集后,對(duì)參數(shù)進(jìn)行統(tǒng)一更新的算法。
奧鵬,國開,廣開,電大在線,各省平臺(tái),新疆一體化等平臺(tái)學(xué)習(xí)
詳情請(qǐng)咨詢QQ : 3230981406或微信:aopopenfd777