可做奧鵬院校所有作業(yè),畢業(yè)論文,咨詢請(qǐng)?zhí)砑観Q:3230981406 微信:aopopenfd777
《數(shù)據(jù)分析》20春期末考核
一、單選題 (共 20 道試題,共 20 分)
1.以下屬于關(guān)聯(lián)分析的是( )
A.CPU性能預(yù)測(cè)
B.購(gòu)物籃分析
C.自動(dòng)判斷鳶尾花類別
D.股票趨勢(shì)建模
正確答案:
2.潛在語義分析中,以()表示文本的語義內(nèi)容
A.話題
B.話題向量
C.語義向量
D.距離向量
正確答案:
3.聚類屬于()
A.有監(jiān)督學(xué)習(xí)
B.無監(jiān)督學(xué)習(xí)
C.強(qiáng)化學(xué)習(xí)
D.對(duì)抗學(xué)習(xí)
正確答案:
4.特征空間中兩個(gè)實(shí)例點(diǎn)的()是兩個(gè)實(shí)例點(diǎn)相似程度的反映。
A.關(guān)聯(lián)性
B.向量值
C.距離
正確答案:
5.閔式距離參數(shù)是()時(shí)代表曼哈頓距離
A.0
B.1
C.2
D.無窮
正確答案:
6.在文本信息處理系統(tǒng)中,所處理的原始數(shù)據(jù)是()
A.結(jié)構(gòu)化的自然語言文本
B.非結(jié)構(gòu)化的自然語言文本
C.非結(jié)構(gòu)化的編碼
D.結(jié)構(gòu)化的編碼
正確答案:
7.邏輯斯諦函數(shù)是一條()曲線
A.拋物線
B.三角函數(shù)
C.S型曲線
D.直線
正確答案:
8.聚類過程為()
A.數(shù)據(jù)準(zhǔn)備,特征選擇,特征提取,聚類,結(jié)果評(píng)估
B.數(shù)據(jù)準(zhǔn)備,特征提取,特征選擇,聚類,結(jié)果評(píng)估
C.數(shù)據(jù)準(zhǔn)備,特征提取,聚類,特征選擇,結(jié)果評(píng)估
正確答案:
9.評(píng)價(jià)分類器效果時(shí),表示將正類樣本預(yù)測(cè)為正類數(shù)與總預(yù)測(cè)為正類數(shù)之比的指標(biāo)是()。
A.準(zhǔn)確率
B.精確率
C.召回率
D.F1值
正確答案:
10.KNN算法用MapReduce實(shí)現(xiàn),要進(jìn)行幾輪MapReduce()
A.1
B.2
C.3
D.4
正確答案:
11.在估計(jì)PLSA生成模型的參數(shù)時(shí),使用()
A.極大似然估計(jì)
B.對(duì)數(shù)似然函數(shù)
C.特征獨(dú)立假設(shè)
D.貝葉斯定理
正確答案:
12.LDA導(dǎo)入先驗(yàn)分布是為了應(yīng)對(duì)()現(xiàn)象
A.欠擬合
B.話題識(shí)別不準(zhǔn)
C.過擬合
D.分詞困難
正確答案:
13.類的R型聚類是指()
A.對(duì)樣本個(gè)體進(jìn)行聚類
B.對(duì)指標(biāo)變量進(jìn)行聚類。
正確答案:
14.決策樹中的葉結(jié)點(diǎn)表示()
A.特征
B.類
C.屬性
D.值域輸出
正確答案:
15.pageRank中,將網(wǎng)頁鏈接轉(zhuǎn)化為()"投票"。
A.搜索量
B.評(píng)價(jià)
C.訪問量
D.重要度
正確答案:
16.HITS算法中,網(wǎng)頁的重要性應(yīng)該依賴于()
A.每個(gè)網(wǎng)頁上的超鏈接個(gè)數(shù)
B.用戶提出的查詢請(qǐng)求
C.網(wǎng)頁上超鏈接重要性
正確答案:
17.算法中用到了外存的算法是()
A.隨機(jī)算法
B.外存算法
C.并行算法
D.Anytime算法
正確答案:
18.決策樹中的分支表示()
A.特征
B.類
C.屬性
D.值域輸出
正確答案:
19.非頻繁模式( )
A.其置信度小于閾值
B.令人不感興趣
C.包含負(fù)模式和負(fù)相關(guān)模式
D.對(duì)異常數(shù)據(jù)項(xiàng)敏感
正確答案:
20.度量距離中,表示各個(gè)坐標(biāo)距離最大值的是()
A.歐氏距離
B.曼哈頓距離
C.切比雪夫距離
正確答案:
二、多選題 (共 20 道試題,共 40 分)
21.關(guān)聯(lián)規(guī)則用于查找項(xiàng)目集合或?qū)ο蠹现g的()
A.頻繁模式
B.關(guān)聯(lián)
C.相關(guān)性
D.因果結(jié)構(gòu)
正確答案:BCD
22.Q型聚類的結(jié)果具有()的特點(diǎn)
A.直觀
B.細(xì)致
C.全面
D.合理
正確答案:BCD
23.決策樹中的信息增益等價(jià)于()中類與特征的()
A.訓(xùn)練數(shù)據(jù)
B.測(cè)試數(shù)據(jù)
C.交叉熵
D.互信息
正確正確答案:
24.下面哪些屬于分類算法()
A.SVM
B.決策樹
C.KMeans
D.樸素貝葉斯
正確答案:BD
25.向量空間模型中,是將()看成()
A.文檔
B.單詞
C.詞袋
D.編碼
正確答案:B
26.大數(shù)據(jù)在醫(yī)療中的應(yīng)用有()
A.流行性疾病預(yù)防
B.慢性病健康管理
C.臨床決策支持
D.醫(yī)療器械研發(fā)
正確答案:BCD
27.下列屬于樸素貝葉斯缺點(diǎn)的是()
A.分類效果不穩(wěn)定
B.不適合增量式訓(xùn)練
C.先驗(yàn)?zāi)P涂赡軐?dǎo)致結(jié)果不佳
D.對(duì)缺失數(shù)據(jù)不太敏感
正確正確答案:
28.下列屬于樸素貝葉斯優(yōu)點(diǎn)的是()
A.有穩(wěn)定的分類效率
B.對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)很好
C.對(duì)缺失數(shù)據(jù)敏感
D.分類決策錯(cuò)誤率很低
正確答案:B
29.大數(shù)據(jù)在社交網(wǎng)絡(luò)中的應(yīng)用
A.用戶偏好、情感、社交網(wǎng)絡(luò)結(jié)構(gòu)
B.用戶畫像、精準(zhǔn)推薦
C.輿情監(jiān)控、突發(fā)事件預(yù)警
D.預(yù)測(cè)外部趨勢(shì)
正確答案:BCD
30.以下哪些統(tǒng)計(jì)量可以反映數(shù)據(jù)的集中趨勢(shì)
A.均值
B.中位數(shù)
C.方差(標(biāo)準(zhǔn)差)
D.眾數(shù)
正確答案:BD
31.按社團(tuán)形成機(jī)制分類,社團(tuán)包括()
A.明顯的社團(tuán)
B.預(yù)定義社團(tuán)
C.自組織社團(tuán)
D.隱含的社團(tuán)
正確正確答案:
32.聚類方法中的劃分方法包括()
A.K-均值算法
B.凝聚法
C.分裂法
D.K-中心點(diǎn)算法
正確正確答案:
33.關(guān)聯(lián)分析的作用是什么()
A.用于發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性
B.用于發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的相關(guān)性
C.描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律
D.描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的模式
正確答案:BCD
34.大數(shù)據(jù)在教育中的應(yīng)用
A.網(wǎng)上公開課
B.慕課
C.智慧校園
D.翻轉(zhuǎn)課堂
正確答案:BCD
35.以下什么問題可以歸為回歸問題()
A.市場(chǎng)趨勢(shì)預(yù)測(cè)
B.產(chǎn)品質(zhì)量管理
C.客戶滿意度調(diào)查
D.投資風(fēng)險(xiǎn)分析
正確答案:BCD
36.借助于大數(shù)據(jù)提供的()和(),政府可為農(nóng)業(yè)生產(chǎn)進(jìn)行合理引導(dǎo),依據(jù)需求進(jìn)行生產(chǎn),避免產(chǎn)能過剩造成不必要的資源和社會(huì)財(cái)富浪費(fèi)。
A.消費(fèi)能力
B.趨勢(shì)報(bào)告
C.購(gòu)物結(jié)果
正確答案:B
37.類的特征可以通過不同角度來刻畫,包括()
A.類的均值
B.類的直徑
C.類的樣本散布矩陣
D.樣本協(xié)方差矩陣
正確答案:BCD
38.按主題分類,社團(tuán)包括()
A.明顯的社團(tuán)
B.預(yù)定義社團(tuán)
C.自組織社團(tuán)
D.隱含的社團(tuán)
正確正確答案:
39.隨機(jī)游走的馬爾可夫鏈中,互聯(lián)網(wǎng)中的每一個(gè)網(wǎng)頁就是馬爾可夫鏈中的一個(gè)();該馬爾可夫鏈平穩(wěn)時(shí)每個(gè)狀態(tài)停留的概率即反映了相應(yīng)網(wǎng)頁的()。
A.序列
B.隱變量
C.狀態(tài)
D.重要程度
正確正確答案:
40.鏈接分析是對(duì)網(wǎng)絡(luò)鏈接的()等各種現(xiàn)象進(jìn)行分析
A.自身屬性
B.鏈接對(duì)象
C.鏈接網(wǎng)絡(luò)
正確答案:BC
三、答案來源:(www.) (共 10 道試題,共 10 分)
41.kNN不需存儲(chǔ)所有的樣本
答案:錯(cuò)誤
42.城市公共交通規(guī)劃、教育資源配置、醫(yī)療資源配置、商業(yè)中心建設(shè)、房地產(chǎn)規(guī)劃、產(chǎn)業(yè)規(guī)劃、城市建設(shè)等都可以借助于大數(shù)據(jù)技術(shù)進(jìn)行良好的規(guī)劃和動(dòng)態(tài)調(diào)整。
答案:正確
43.麥肯錫研究院發(fā)布的報(bào)告Big Data: The next frontier for innovation, competition, and productivity, 第一次給大數(shù)據(jù)做出了相對(duì)清晰的定義
答案:正確
44.k均值聚類中,每個(gè)樣本只能屬于一個(gè)類。()
答案:正確
45.推薦系統(tǒng)根據(jù)用戶的興趣特點(diǎn)和購(gòu)買行為,向用戶提供建議
答案:正確
46.大數(shù)據(jù)在行業(yè)應(yīng)用很廣泛,行業(yè)領(lǐng)域包括電視媒體,汽車行業(yè),醫(yī)療行業(yè),保險(xiǎn)行業(yè)等等。
答案:正確
47.網(wǎng)絡(luò)數(shù)據(jù)采集是利用互聯(lián)網(wǎng)搜索引擎技術(shù)對(duì)數(shù)據(jù)進(jìn)行針對(duì)性、行業(yè)性、精準(zhǔn)性的抓取,并按照一定規(guī)則和篩選標(biāo)準(zhǔn)將數(shù)據(jù)進(jìn)行歸類,形成數(shù)據(jù)庫文件的一個(gè)過程。
答案:正確
48.DAG中的父節(jié)點(diǎn)是唯一的。
答案:錯(cuò)誤
49.文本分析是結(jié)構(gòu)大數(shù)據(jù)分析的一個(gè)基本問題。()
答案:錯(cuò)誤
50.大數(shù)據(jù)分析模型討論的問題是從大數(shù)據(jù)中發(fā)現(xiàn)什么
答案:正確
四、更多答案下載:(www.) (共 1 道試題,共 6 分)
51.簡(jiǎn)述概率潛在語義分析PLSA的特點(diǎn)和基本想法。
答案:概率潛在語義分析(probabilistic latent semantic analysis, PLSA),是一種利用概率生成模型對(duì)文本集合進(jìn)行話題分析的無監(jiān)督學(xué)習(xí)方法。模型的最大特點(diǎn)是用隱變量表示話題;整個(gè)模型表示文本生成話題,話題生成單詞,從而得到單詞一文本共現(xiàn)數(shù)據(jù)的過程;假設(shè)每個(gè)文本由一個(gè)話題分布決定,每個(gè)話題由一個(gè)單詞分布決定。<br>給定一個(gè)文本集合,每個(gè)文本討論若干個(gè)話題,每個(gè)話題由若干個(gè)單詞表示。對(duì)文本集合進(jìn)行概率潛在語義分析,就能夠發(fā)現(xiàn)每個(gè)文本的話題,以及每個(gè)話題的單詞。話題是不能從數(shù)據(jù)中直接觀察到的,是潛在的。文本集合轉(zhuǎn)換為文本--單詞共現(xiàn)數(shù)據(jù),具體表現(xiàn)為單詞-文本矩陣。一個(gè)話題表示一個(gè)語義內(nèi)容。文本數(shù)據(jù)基于如下的概率模型產(chǎn)生:首先有話題的概率分布,然后有話題給定條件下文本的條件概率分布,以及話題給定條件下單詞的條件概率分布。概率潛在語義分析就是發(fā)現(xiàn)由隱變量表示的話題,即潛在語義。直觀上,語義相近的單詞、語義相近的文本會(huì)被聚到相同的"軟的類別"中,而話題所表示的就是這樣的軟的類別。<br>假設(shè)定義了K個(gè)話題和M個(gè)單詞。任何一個(gè)文本是由K個(gè)話題中的多個(gè)混合而成。每個(gè)文本都可以看作話題集合上的一個(gè)概率分布,也就是每個(gè)文本以某個(gè)概率匹配某一個(gè)話題。每個(gè)話題都是單詞集合上的一個(gè)概率分布,這意味著文本中的每個(gè)單詞都看成是由某一個(gè)的話題以某種概率隨機(jī)生成的。<br><br>
五、更多答案下載:(www.) (共 3 道試題,共 15 分)
52.層次聚類算法分為哪兩種方法?簡(jiǎn)述這兩個(gè)層次聚類算法。
答案:層次聚類算法是假設(shè)類別之間存在層次結(jié)構(gòu),將樣本聚到層次化的類中。<br>層次聚類又有聚合或自底向上聚類、分裂或自頂向下聚類兩種方法。<br>聚合聚類開始將每個(gè)樣本各自分到一個(gè)類,之后將相距最近的兩類合并,建立一個(gè)新的類,重復(fù)此操作直到滿足終止條件,得到層次化的類別。<br>分裂聚類開始將所有樣本分到一個(gè)類,之后將已有類中相距最遠(yuǎn)的樣本分到兩個(gè)新的類,重復(fù)此操作直到滿足停止條件,得到層次化的類別。<br><br>
53.簡(jiǎn)述支持向量機(jī)的基本模型。
答案:支持向量機(jī)的基本模型是定義在特征空間上的間隔最大的線性分類器,其學(xué)習(xí)策略是間隔最大化,可形式化為一個(gè)求解凸二次規(guī)劃的問題,其學(xué)習(xí)算法是求解凸二次規(guī)劃的最優(yōu)化算法。
54.試比較PageRank算法和HITS算法。
答案:相同點(diǎn):兩者都是為了提高搜索引擎查找質(zhì)量而提出的兩種不同算法。<br>不同點(diǎn):1)兩者對(duì)網(wǎng)頁的描述形式不同。<br>PageRank算法只用一個(gè)量值來表示網(wǎng)頁的重要程度,而HITS算法對(duì)網(wǎng)頁從權(quán)威性和集線性兩個(gè)不同的方面來進(jìn)行描述。<br>2)兩者的理論基礎(chǔ)不同。雖然兩者的迭代算法都利用了特征向量作為理論基礎(chǔ)和收斂性依據(jù),但PageRank算法更具理論支持,它用馬爾可夫隨機(jī)游走來建模,并用馬氏鏈的理論來進(jìn)行解釋;而HITS算法更多是基于人的直觀,缺乏很好的理論模型。<br>3)兩者計(jì)算所選取的鏈接網(wǎng)絡(luò)不同。PageRank算法與用戶查詢無關(guān),針對(duì)的是整個(gè)互聯(lián)網(wǎng)的鏈接結(jié)構(gòu)圖,所有處理過程都是離線進(jìn)行的,不會(huì)為實(shí)時(shí)在線查詢過程付出額外的代價(jià)。HITS算法則不同,它依賴于特定的查詢,是針對(duì)與特定查詢相關(guān)的互聯(lián)網(wǎng)子圖來進(jìn)行計(jì)算,規(guī)模上的極大減小可以使HITS算法的迭代收斂速度比PageRank算法要快得多。但因?yàn)榕c查詢相關(guān),所以查詢過程以及擴(kuò)展根集的過程都需要付出代價(jià),還有可能在擴(kuò)展過程中,引入大量的噪聲信息,造成主題漂移出現(xiàn)。<br>以前的研究工作已經(jīng)證明HITS算法的性能跟PageRank算法旗鼓相當(dāng)、不相上下。<br><br>
六、更多答案下載:(www.) (共 3 道試題,共 9 分)
55.S折交叉驗(yàn)證
答案:S折交叉驗(yàn)證(S-fold cross validation)方法如下:首先隨機(jī)地將已給數(shù)據(jù)切分為S個(gè)互不相交的大小相同的子集;然后利用S一1個(gè)子集的數(shù)據(jù)訓(xùn)練模型,利用余下的子集測(cè)試模型;將這一過程對(duì)可能的S種可能(即劃分后,把每個(gè)子集都當(dāng)一次測(cè)試集其余訓(xùn)練集)重復(fù)進(jìn)行;最后選出S次評(píng)測(cè)中平均測(cè)試誤差最小的模型.<br><br>
56.類間的中心距離
答案:一個(gè)類中所有樣本的均值,即類的中心。類間的中心距離使用兩類中心之間的距離作為兩類間的距離。<br><br>
57.鄰接矩陣
答案:如果結(jié)點(diǎn)i和j之間有邊,則矩陣的第i行、第j列的元素為1,否則為0。<br><br>