機器學習的主要目的是從有限的數據中學習到知識,而知識的基本單元是概念。藉助於概念,人類可以在繁複的思想與多彩的世界之間建立起映射,指認各種對象,發現各種規律,錶達各種想法,交流各種觀念。一旦缺失相應的概念,人們將無法思考、交流,甚至無法順利地生活、學習、工作、醫療、娛樂等。哲學傢如卡西爾等甚至認為人類的本質特性是能夠使用和創造各種符號概念。因此,如何使機器能夠像人一樣自動發現、運用概念,正是機器學習的基本研究內容。本書將集中討論這個問題。
所謂的概念發現,是指從一個給定概念(或者概念集閤)的有限外延子集提取對應的概念(或者概念集閤)錶示,又稱歸類問題。透過自然進化,人類可以從一個概念(或概念集閤)的有限外延子集(有限的對象)中輕鬆提取概念(或概念集閤)自身。對於人類如何處理歸類問題,人們已經研究瞭很多年,發明瞭許多理論,比如經典概念理論、原型理論、樣例理論和知識理論等,積纍瞭很多的研究成果。
本書藉助認知科學的研究成果,提齣瞭類的統一錶示數學模型,以及與之相關的歸類問題的統一數學錶示。由此提齣瞭類錶示公理、歸類公理和分類測試公理。據此,本書分別研究瞭歸類結果分類、歸類算法分類等諸多問題。特別需要提齣的是,本書首次歸納瞭歸類算法設計應該遵循的4條準則——類一緻性準則、類緊緻性準則、類分離性準則和奧卡姆剃刀準則。在理論上,任何機器學習算法的目標函數設計都遵循上述4條準則的1條或者數條。