數據標註是做什麼的

來源:趣味百科館 1.57W

使用特定工具對圖像、文本等進行處理的工作。

數據標註是使用特定工具對圖像、文本等進行處理的工作。

1、分類標註:分類標註,就是我們常見的打標籤,從既定的標籤中選擇數據對應的標籤;

2、標框標註:機器視覺中的標框標註,就是框選要檢測的對象;

3、區域標註:相比於標框標註,區域標註要求更加精確,邊緣可以是柔性的等。

數據標註員可以説是AI消滅了一部分工作又創造出來的一種工作。在未來AI發展良好的前提下,數據的缺口一定是巨大的。可以預見3-5年內數據標註員的需求會一直存在。至於發展,其實所謂一些熟能生巧的工作,都是有被替代掉的風險的。深度學習解決的一件事情就是熟能生巧。在這個崗位上,其實你的一些想法就代表了AI的想法,AI會根據你標註的數據進行學習,想想還是有點成就感的。數據標註可以説是AI的入門級崗位,未來可轉向其他AI崗位。如項目實施顧問等,這就要求更多的工作技能,需要再工作中積累。

數據標註是做什麼的

要理解數據標註,得先理解AI其實是部分替代人的認知功能。回想一下我們是如何學習的,例如我們學習認識蘋果,那麼就需要有人拿着一個蘋果到你面前告訴你,這是一個蘋果。然後以後你遇到了蘋果,你才知道這玩意兒叫做“蘋果”。

類比機器學習,我們要教他認識一個蘋果,你直接給它一張蘋果的圖片,它是完全不知道這是個啥玩意的。我們得先有蘋果的圖片,上面標註着“蘋果”兩個字,然後機器通過學習了大量的圖片中的特徵,這時候再給機器任意一張蘋果的圖片,它就能認出來了。這邊可以順帶提一下訓練集和測試集的概念。

訓練集和測試集都是標註過的數據,還是以蘋果為例子,假設我們有1000張標註着“蘋果”的圖片,那麼我們可以拿900漲作為訓練集,100張作為測試集。機器從900張蘋果的圖片中學習得到一個模型,然後我們將剩下的100張機器沒有見過的圖片去給它識別,然後我們就能夠得到這個模型的準確率了。想想我們上學的時候,考試的內容總是不會和我們平時的作業一樣,也只有這樣才能測試出學習的真正效果,這樣就不難理解為什麼要劃分一個測試集了。

我們知道機器學習分為有監督學習和無監督學習。無監督學習的效果是不可控的,常常是被用來做探索性的實驗。而在實際產品應用中,通常使用的是有監督學習。有監督的機器學習就需要有標註的數據來作為先驗經驗。在進行數據標註之前,我們首先要對數據進行清洗,得到符合我們要求的數據。數據的清洗包括去除無效的數據、整理成規整的格式等等。具體的數據要求可以和算法人員確認。

熱門標籤