Bản note kiến thức-Natural Language Processing( Các khái niệm cơ bản)
Các khái niệm cơ bản mình thấy thú vị trong quá trình làm NLP: 1. Tokenizer: - Tách ra words hoặc sentences. 2. Stemming: -Biến đổi các từ về dạng nguyên gốc bằng cách bỏ những kí tự cuối VD: walks -> walk, goes->goe tuy nhiên đây cũng chính là nhược điểm của stemming vì gốc goes là go chứ đâu phải goe 3. Lemmatization: - Thông minh hơn Stemming vì dựa trên bộ từ điển VD:goes, went->go