[南開大學(xué)(本部)]20春學(xué)期(1709、1803、1809、1903、1909、2003)《數(shù)據(jù)科學(xué)導(dǎo)論》在線作業(yè)
試卷總分:100 得分:100
第1題,以下屬于關(guān)聯(lián)分析的是( )
A、CPU性能預(yù)測(cè)
B、購(gòu)物籃分析
C、自動(dòng)判斷鳶尾花類別
D、股票趨勢(shì)建模
正確答案:
第2題,哪一項(xiàng)不屬于規(guī)范化的方法()
A、最小-最大規(guī)范化
B、零-均值規(guī)范化
C、小數(shù)定標(biāo)規(guī)范化
D、中位數(shù)規(guī)范化
正確答案:
第3題,實(shí)體識(shí)別屬于以下哪個(gè)過(guò)程()
A、數(shù)據(jù)清洗
B、數(shù)據(jù)集成
C、數(shù)據(jù)規(guī)約
D、數(shù)據(jù)變換
正確答案:
第4題,具有偏差和至少()個(gè)S型隱含層加上一個(gè)()輸出層的網(wǎng)絡(luò)能夠逼近任何有理數(shù)。
A、1,線性
B、2,線性
C、1,非線性
D、2,非線性
正確答案:
第5題,某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購(gòu)買尿布,這種屬于數(shù)據(jù)挖掘的哪類問(wèn)題?()
A、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
B、聚類
C、分類
D、自然語(yǔ)言處理
正確答案:
第6題,層次聚類適合規(guī)模較()的數(shù)據(jù)集
A、大
B、中
C、小
D、所有
正確答案:
第7題,下面不是分類的常用方法的有()
A、K近鄰法
B、樸素貝葉斯
C、決策樹
D、條件隨機(jī)場(chǎng)
正確答案:
第8題,BFR聚類用于在()歐氏空間中對(duì)數(shù)據(jù)進(jìn)行聚類
A、高維
B、中維
C、低維
D、中高維
正確答案:
第9題,只有非零值才重要的二元屬性被稱作 ),其中購(gòu)物籃數(shù)據(jù)就屬于這種屬性。
A、計(jì)數(shù)屬性
B、離散屬性
C、非對(duì)稱的二元屬性#對(duì)稱屬性
正確答案:
第10題,為了解決任何復(fù)雜的分類問(wèn)題,使用的感知機(jī)結(jié)構(gòu)應(yīng)至少包含()個(gè)隱含層。
A、1
B、2
C、3
D、4
正確答案:
第11題,在回歸分析中,自變量為(),因變量為()。
A、離散型變量,離散型變量
B、連續(xù)型變量,離散型變量
C、離散型變量,連續(xù)型變量
D、連續(xù)型變量,連續(xù)型變量
正確答案:
第12題,維克托?邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書中,持續(xù)強(qiáng)調(diào)了一個(gè)觀點(diǎn):大數(shù)據(jù)時(shí)代的到來(lái),使我們無(wú)法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時(shí),我們更應(yīng)該注重?cái)?shù)據(jù)中的相關(guān)關(guān)系,而不是因果關(guān)系。其中,數(shù)據(jù)之間的相關(guān)關(guān)系可以通過(guò)以下哪個(gè)算法直接挖掘( )
A、K-means
B、Bayes Network
C、C4.5
D、Apriori
正確答案:
第13題,一元線性回歸中,真實(shí)值與預(yù)測(cè)值的差稱為樣本的()。
A、誤差
B、方差
C、測(cè)差
D、殘差
正確答案:
第14題,以下哪個(gè)不是處理缺失值的方法()
A、刪除記錄
B、按照一定原則補(bǔ)充
C、不處理
D、隨意填寫
正確答案:
第15題,數(shù)據(jù)庫(kù)中相關(guān)聯(lián)的兩張表都存儲(chǔ)了用戶的個(gè)人信息,但在用戶的個(gè)人信息發(fā)生改變時(shí)只更新了一張表中的數(shù)據(jù),這時(shí)兩張表中就有了不一致的數(shù)據(jù),這屬于()
A、異常值
B、缺失值
C、不一致的值
D、重復(fù)值
正確答案:
第16題,根據(jù)映射關(guān)系的不同可以分為線性回歸和()。
A、對(duì)數(shù)回歸
B、非線性回歸
C、邏輯回歸
D、多元回歸
正確答案:
第17題,在k近鄰法中,選擇較小的k值時(shí),學(xué)習(xí)的“近似誤差”會(huì)(),“估計(jì)誤差”會(huì)()。
A、減小,減小
B、減小,增大
C、增大,減小
D、增大,增大
正確答案:
第18題,考慮下面的頻繁3-項(xiàng)集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個(gè)項(xiàng),采用 合并策略,由候選產(chǎn)生過(guò)程得到4-項(xiàng)集不包含()
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5
正確答案:
第19題,單層感知機(jī)模型屬于()模型。
A、二分類的線性分類模型
B、二分類的非線性分類模型
C、多分類的線性分類模型
D、多分類的非線性分類模型
正確答案:
第20題,特征選擇的四個(gè)步驟中不包括()
A、子集產(chǎn)生
B、子集評(píng)估
C、子集搜索
D、子集驗(yàn)證
正確答案:
第21題,對(duì)于多層感知機(jī),()層擁有激活函數(shù)的功能神經(jīng)元。
A、輸入層
B、隱含層
C、輸出層
正確答案:
第22題,Apriori算法的計(jì)算復(fù)雜度受()影響。
A、支持度閾值
B、項(xiàng)數(shù)
C、事務(wù)數(shù)
D、事務(wù)平均寬度
正確答案:
第23題,一元回歸參數(shù)估計(jì)的參數(shù)求解方法有()。
A、最大似然法
B、距估計(jì)法
C、最小二乘法
D、歐式距離法
正確答案:
第24題,層次聚類的方法是()
A、聚合方法
B、分拆方法
C、組合方法
D、比較方法
正確答案:
第25題,相關(guān)性的分類,按照相關(guān)的方向可以分為()。
A、正相關(guān)
B、負(fù)相關(guān)
C、左相關(guān)
D、右相關(guān)
正確答案:
第26題,數(shù)據(jù)科學(xué)具有哪些性質(zhì)()
A、有效性
B、可用性
C、未預(yù)料
D、可理解
正確答案:
第27題,k近鄰法的基本要素包括()。
A、距離度量
B、k值的選擇
C、樣本大小
D、分類決策規(guī)則
正確答案:
第28題,下列選項(xiàng)是BFR的對(duì)象是()
A、廢棄集
B、臨時(shí)集
C、壓縮集
D、留存集
正確答案:
第29題,什么情況下結(jié)點(diǎn)不用劃分()
A、當(dāng)前結(jié)點(diǎn)所包含的樣本全屬于同一類別
B、當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同
C、當(dāng)前結(jié)點(diǎn)包含的樣本集為空
D、還有子集不能被基本正確分類
正確答案:
第30題,系統(tǒng)日志收集的基本特征有()
A、高可用性
B、高可靠性
C、可擴(kuò)展性
D、高效率
正確答案:
第31題,在一元線性回歸中,輸入只包含一個(gè)單獨(dú)的特征。
T、對(duì)
F、錯(cuò)
正確答案:
第32題,sigmoid函數(shù)屬于階躍函數(shù),是神經(jīng)網(wǎng)絡(luò)中常見的激活函數(shù)。
T、對(duì)
F、錯(cuò)
正確答案:
第33題,多層感知機(jī)的學(xué)習(xí)能力有限,只能處理線性可分的二分類問(wèn)題。
T、對(duì)
F、錯(cuò)
正確答案:
第34題,BFR聚類簇的坐標(biāo)可以與空間的坐標(biāo)保持一致。
T、對(duì)
F、錯(cuò)
正確答案:
第35題,支持度是衡量關(guān)聯(lián)規(guī)則重要性的一個(gè)指標(biāo)。
T、對(duì)
F、錯(cuò)
正確答案:
第36題,利用K近鄰法進(jìn)行分類時(shí),使用不同的距離度量所確定的最近鄰點(diǎn)都是相同的。
T、對(duì)
F、錯(cuò)
正確答案:
第37題,信息熵越小,樣本結(jié)合的純度越低
T、對(duì)
F、錯(cuò)
正確答案:
第38題,在數(shù)據(jù)預(yù)處理時(shí),無(wú)論什么情況,都可以直接將異常值刪除
T、對(duì)
F、錯(cuò)
正確答案:
第39題,決策樹的輸入為訓(xùn)練集,輸出為以node為根結(jié)點(diǎn)的一棵決策樹
T、對(duì)
F、錯(cuò)
正確答案:
第40題,單層感知機(jī)對(duì)于線性不可分的數(shù)據(jù),學(xué)習(xí)過(guò)程也可以收斂。
T、對(duì)
F、錯(cuò)
正確答案:
第41題,樸素貝葉斯分類器有簡(jiǎn)單、高效、健壯的特點(diǎn),但某些屬性可能會(huì)降低分類器的性能
T、對(duì)
F、錯(cuò)
正確答案:
第42題,隨著特征維數(shù)的增加,樣本間區(qū)分度提高。
T、對(duì)
F、錯(cuò)
正確答案:
第43題,選擇較小的k值,相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),學(xué)習(xí)的“近似誤差”會(huì)減小,“估計(jì)誤差”會(huì)增大,預(yù)測(cè)結(jié)果會(huì)對(duì)近鄰的點(diǎn)實(shí)例點(diǎn)非常敏感。
T、對(duì)
F、錯(cuò)
正確答案:
第44題,一般而言,信息增益越大,則意味著使用屬性a來(lái)進(jìn)行劃分所獲得的“純度提升越大”,因此我們可用信息增益來(lái)進(jìn)行決策樹的最優(yōu)特征選擇。
T、對(duì)
F、錯(cuò)
正確答案:
第45題,決策樹內(nèi)部結(jié)點(diǎn)表示一個(gè)類,葉結(jié)點(diǎn)表示一個(gè)特征或?qū)傩?br/>T、對(duì)
F、錯(cuò)
正確答案:
第46題,為了更加準(zhǔn)確地描述變量之間的線性相關(guān)程度,可以通過(guò)計(jì)算相關(guān)系數(shù)來(lái)進(jìn)行相關(guān)分析。
T、對(duì)
F、錯(cuò)
正確答案:
第47題,K均值(K-Means)算法是密度聚類。
T、對(duì)
F、錯(cuò)
正確答案:
第48題,Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。
T、對(duì)
F、錯(cuò)
正確答案:
第49題,當(dāng)特征為離散型時(shí),可以使用信息增益作為評(píng)價(jià)統(tǒng)計(jì)量。
T、對(duì)
F、錯(cuò)
正確答案:
第50題,EDA可以最大化數(shù)據(jù)分析者對(duì)數(shù)據(jù)集和數(shù)據(jù)集底層結(jié)構(gòu)的洞察力,并且為分析者提供數(shù)據(jù)集中包含的各類信息。
T、對(duì)
F、錯(cuò)
正確答案: