假設(shè)描述學(xué)生的信息包含屬性:性別,籍貫,年齡。有兩條記錄p、q及兩個簇C1、C2的信息如下,分別求出記錄和簇彼此之間的距離。(k-means算法的拓展)
p={男,廣州,18},q={女,深圳,20}
C1={男:25,女:5;廣州:20,深圳:6,韶關(guān):4;19}
C2={男:3,女:12;汕頭:12,深圳:1,湛江:2;24}
您可能感興趣的試卷
最新試題
使用正則表達(dá)式可以找到一個文本文件中所有可能出現(xiàn)的手機(jī)號碼。
無論質(zhì)心的初始化如何,K-Means始終會給出相同的結(jié)果。
由于決策樹學(xué)會了對離散值輸出而不是實值函數(shù)進(jìn)行分類,因此它們不可能過度擬合。
公司內(nèi)部收集的數(shù)據(jù)不存在需要考慮數(shù)據(jù)隱私的環(huán)節(jié)。
根據(jù)數(shù)據(jù)科學(xué)家與數(shù)據(jù)工程師對于問題的理解并相互討論,然后確定需要收集數(shù)據(jù)的范圍以及種類,然后數(shù)據(jù)工程師使用數(shù)據(jù)收集工具,架構(gòu),甚至編程的形式來進(jìn)行數(shù)據(jù)收集的工作,然后并把數(shù)據(jù)收集的數(shù)據(jù)放置到對應(yīng)的存儲系統(tǒng)。
由于分類是回歸的一種特殊情況,因此邏輯回歸是線性回歸的一種特殊情況。
完整性,一致性,時效性,唯一性,有效性,準(zhǔn)確性是衡量數(shù)據(jù)質(zhì)量的六個維度指標(biāo)。
任何對數(shù)據(jù)處理與存儲系統(tǒng)的操作均需要記錄,這符合數(shù)據(jù)安全的要求。
隨機(jī)梯度下降每次更新執(zhí)行的計算量少于批梯度下降。
數(shù)據(jù)收集中的拉模式需要通過定時的方式不斷地觸發(fā),才能源源不斷地獲取對應(yīng)的數(shù)據(jù)。