可做奧鵬院校所有作業(yè),畢業(yè)論文,咨詢請?zhí)砑観Q:3230981406 微信:aopopenfd777
20春學(xué)期(1709、1803、1809、1903、1909、2003)《數(shù)據(jù)科學(xué)導(dǎo)論》在線作業(yè)
試卷總分:100 得分:100
一、單選題 (共 20 道試題,共 40 分)
1.以下屬于關(guān)聯(lián)分析的是( )
A.CPU性能預(yù)測
B.購物籃分析
C.自動判斷鳶尾花類別
D.股票趨勢建模
2.哪一項不屬于規(guī)范化的方法()
A.最小-最大規(guī)范化
B.零-均值規(guī)范化
C.小數(shù)定標(biāo)規(guī)范化
D.中位數(shù)規(guī)范化
3.實體識別屬于以下哪個過程()
A.數(shù)據(jù)清洗
B.數(shù)據(jù)集成
C.數(shù)據(jù)規(guī)約
D.數(shù)據(jù)變換
4.具有偏差和至少()個S型隱含層加上一個()輸出層的網(wǎng)絡(luò)能夠逼近任何有理數(shù)。
A.1,線性
B.2,線性
C.1,非線性
D.2,非線性
5.某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?()
A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
B.聚類
C.分類
D.自然語言處理
6.層次聚類適合規(guī)模較()的數(shù)據(jù)集
A.大
B.中
C.小
D.所有
7.下面不是分類的常用方法的有()
A.K近鄰法
B.樸素貝葉斯
C.決策樹
D.條件隨機場
8.BFR聚類用于在()歐氏空間中對數(shù)據(jù)進行聚類
A.高維
B.中維
C.低維
D.中高維
9.只有非零值才重要的二元屬性被稱作:( ),其中購物籃數(shù)據(jù)就屬于這種屬性。
A.計數(shù)屬性
B.離散屬性
C.非對稱的二元屬性#對稱屬性
10.為了解決任何復(fù)雜的分類問題,使用的感知機結(jié)構(gòu)應(yīng)至少包含()個隱含層。
A.1
B.2
C.3
D.4
11.在回歸分析中,自變量為(),因變量為()。
A.離散型變量,離散型變量
B.連續(xù)型變量,離散型變量
C.離散型變量,連續(xù)型變量
D.連續(xù)型變量,連續(xù)型變量
12.維克托?邁爾-舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中,持續(xù)強調(diào)了一個觀點:大數(shù)據(jù)時代的到來,使我們無法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時,我們更應(yīng)該注重數(shù)據(jù)中的相關(guān)關(guān)系,而不是因果關(guān)系。其中,數(shù)據(jù)之間的相關(guān)關(guān)系可以通過以下哪個算法直接挖掘( )
A.K-means
B.Bayes Network
C.C4.5
D.Apriori
13.一元線性回歸中,真實值與預(yù)測值的差稱為樣本的()。
A.誤差
B.方差
C.測差
D.殘差
14.以下哪個不是處理缺失值的方法()
A.刪除記錄
B.按照一定原則補充
C.不處理
D.隨意填寫
15.數(shù)據(jù)庫中相關(guān)聯(lián)的兩張表都存儲了用戶的個人信息,但在用戶的個人信息發(fā)生改變時只更新了一張表中的數(shù)據(jù),這時兩張表中就有了不一致的數(shù)據(jù),這屬于()
A.異常值
B.缺失值
C.不一致的值
D.重復(fù)值
16.根據(jù)映射關(guān)系的不同可以分為線性回歸和()。
A.對數(shù)回歸
B.非線性回歸
C.邏輯回歸
D.多元回歸
17.在k近鄰法中,選擇較小的k值時,學(xué)習(xí)的“近似誤差”會(),“估計誤差”會()。
A.減小,減小
B.減小,增大
C.增大,減小
D.增大,增大
18.考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采用 合并策略,由候選產(chǎn)生過程得到4-項集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
19.單層感知機模型屬于()模型。
A.二分類的線性分類模型
B.二分類的非線性分類模型
C.多分類的線性分類模型
D.多分類的非線性分類模型
20.特征選擇的四個步驟中不包括()
A.子集產(chǎn)生
B.子集評估
C.子集搜索
D.子集驗證
二、多選題 (共 10 道試題,共 20 分)
21.對于多層感知機,()層擁有激活函數(shù)的功能神經(jīng)元。
A.輸入層
B.隱含層
C.輸出層
22.Apriori算法的計算復(fù)雜度受()影響。
A.支持度閾值
B.項數(shù)
C.事務(wù)數(shù)
D.事務(wù)平均寬度
23.一元回歸參數(shù)估計的參數(shù)求解方法有()。
A.最大似然法
B.距估計法
C.最小二乘法
D.歐式距離法
24.層次聚類的方法是()
A.聚合方法
B.分拆方法
C.組合方法
D.比較方法
25.相關(guān)性的分類,按照相關(guān)的方向可以分為()。
A.正相關(guān)
B.負相關(guān)
C.左相關(guān)
D.右相關(guān)
26.數(shù)據(jù)科學(xué)具有哪些性質(zhì)()
A.有效性
B.可用性
C.未預(yù)料
D.可理解
27.k近鄰法的基本要素包括()。
A.距離度量
B.k值的選擇
C.樣本大小
D.分類決策規(guī)則
28.下列選項是BFR的對象是()
A.廢棄集
B.臨時集
C.壓縮集
D.留存集
29.什么情況下結(jié)點不用劃分()
A.當(dāng)前結(jié)點所包含的樣本全屬于同一類別
B.當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同
C.當(dāng)前結(jié)點包含的樣本集為空
D.還有子集不能被基本正確分類
30.系統(tǒng)日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可擴展性
D.高效率
三、判斷題 (共 20 道試題,共 40 分)
31.在一元線性回歸中,輸入只包含一個單獨的特征。
32.sigmoid函數(shù)屬于階躍函數(shù),是神經(jīng)網(wǎng)絡(luò)中常見的激活函數(shù)。
33.多層感知機的學(xué)習(xí)能力有限,只能處理線性可分的二分類問題。
34.BFR聚類簇的坐標(biāo)可以與空間的坐標(biāo)保持一致。
35.支持度是衡量關(guān)聯(lián)規(guī)則重要性的一個指標(biāo)。
36.利用K近鄰法進行分類時,使用不同的距離度量所確定的最近鄰點都是相同的。
37.信息熵越小,樣本結(jié)合的純度越低
38.在數(shù)據(jù)預(yù)處理時,無論什么情況,都可以直接將異常值刪除
39.決策樹的輸入為訓(xùn)練集,輸出為以node為根結(jié)點的一棵決策樹
40.單層感知機對于線性不可分的數(shù)據(jù),學(xué)習(xí)過程也可以收斂。
41.樸素貝葉斯分類器有簡單、高效、健壯的特點,但某些屬性可能會降低分類器的性能
42.隨著特征維數(shù)的增加,樣本間區(qū)分度提高。
43.選擇較小的k值,相當(dāng)于用較小的鄰域中的訓(xùn)練實例進行預(yù)測,學(xué)習(xí)的“近似誤差”會減小,“估計誤差”會增大,預(yù)測結(jié)果會對近鄰的點實例點非常敏感。
44.一般而言,信息增益越大,則意味著使用屬性a來進行劃分所獲得的“純度提升越大”,因此我們可用信息增益來進行決策樹的最優(yōu)特征選擇。
45.決策樹內(nèi)部結(jié)點表示一個類,葉結(jié)點表示一個特征或?qū)傩?/p>
46.為了更加準(zhǔn)確地描述變量之間的線性相關(guān)程度,可以通過計算相關(guān)系數(shù)來進行相關(guān)分析。
47.K均值(K-Means)算法是密度聚類。
48.Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。
49.當(dāng)特征為離散型時,可以使用信息增益作為評價統(tǒng)計量。
50.EDA可以最大化數(shù)據(jù)分析者對數(shù)據(jù)集和數(shù)據(jù)集底層結(jié)構(gòu)的洞察力,并且為分析者提供數(shù)據(jù)集中包含的各類信息。