A.強化學(xué)習(xí)與監(jiān)督學(xué)習(xí)最主要的區(qū)別在于其收到的反饋是:評估性和指導(dǎo)性
B.監(jiān)督學(xué)習(xí)給出的指導(dǎo)性反饋將會通過監(jiān)督信號告知學(xué)習(xí)者應(yīng)該要做出什么樣的行為而獲取更高的收益
C.強化學(xué)習(xí)的評估性反饋意味著該學(xué)習(xí)系統(tǒng)只會告訴學(xué)習(xí)者當(dāng)前的做法是好還是壞的
D.強化學(xué)習(xí)的目的就是找到一個最佳的策略,從而使得主體發(fā)出一系列的動作后,收到的累積回報最多
E.策略(Policy)指的是主體的行為,是一個從狀態(tài)集合到動作集合的映像
您可能感興趣的試卷
你可能感興趣的試題
A.方差
B.變異
C.機率
D.方向
E.平均值
A.愛德華・費根鮑姆(EdwardFeigenbaum)
B.約翰・霍普非爾德(JohnHopfield)
C.艾倫・圖靈(AlanTuring)
D.馬文・閩斯基(MarvinMinsky)
E.克理夫・肖(CliffShaw)
A.Artificial Information
B.AutomaticInte lligence
C.ArtificialInte lligence
D.Automatic Information
E.Automatic Inspection
A.統(tǒng)計詞頻率
B.刪除停止詞與低頻詞
C.中文分詞
D.潛在語義分析
E.計算詞頻率-逆文文件頻率
A.停止詞、低頻詞
B.主題模型、詞袋模型
C.文分詞、英文分詞
D.詞頻率、逆文文件頻率
E.詞頻率向量、逆頻率向量
最新試題
在強化學(xué)習(xí)中,什么是“馬爾可夫性質(zhì)”()?
在深度學(xué)習(xí)模型訓(xùn)練中,"早停法"(EarlyStopping)策略的應(yīng)用目的是什么()?
在深度學(xué)習(xí)模型訓(xùn)練中,哪些技術(shù)可以用于加速模型收斂和提高穩(wěn)定性()?
在自然語言處理中,哪些方法可以用于提升自動對話系統(tǒng)和文本摘要生成的自然性和流暢性()?
在神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)ReLU 的特點是什么()?
在自然語言處理中,哪些技術(shù)可以用于改善實體識別和文本生成任務(wù)的性能()?
在自然語言處理中,哪些方法可以用于提升自動文本摘要的生成效果()?
進行模型訓(xùn)練之前,需要先把標(biāo)注好的數(shù)據(jù)進行分類。訓(xùn)練有監(jiān)督學(xué)習(xí)模型時會將數(shù)據(jù)集劃分為()。
在自然語言處理中,哪些方法可以用于提升文本分類、情感分析和實體識別的準(zhǔn)確性()?
在強化學(xué)習(xí)中,什么是“動態(tài)規(guī)劃”(DynamicProgramming)()?