สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

Logo BDI For web

Big Data

เจาะลึกไปถึงการตรวจสอบลักษณะข้อมูลเบื้องต้นและการสร้าง Visualization ที่ซับซ้อน ด้วย Plotly โดยประยุกต์ใช้กับข้อมูลอนุกรมเวลา (Time Series)
บทความนี้ผมจะพาทุกคนไปพบกับวิธีการสำรวจข้อมูลเบื้องต้น หรือในทางเทคนิคเราจะเรียกว่า การวิเคราะห์ข้อมูลเชิงสำรวจ หรือ Exploratory Data Analysis (EDA) โดยโปรแกรมที่ผมจะใช้นั้นคือ R-studio ครับ

DevContainer คืออะไร? ผู้อ่านเคยประสบกับปัญหาการพัฒนาโปรแกรมแบบนี้บ้างหรือเปล่า? ทำไมกว่าจะ Build ได้มันยากจังง? ทำไมต้อง Install อะไรหลายอย่าง? Project นี้ Framework ใช้ Version อะไรนะ? เครื่องเพื่อน Build ผ่านทำไมเครื่องฉัน Build พัง?

หลังจากที่เราได้พูดถึงหลักการทำงานของโมเดลเบื้องต้นในการทำ word embedding ได้แก่โมเดล CBOW และ Skip-gram ไปแล้ว ในบทความนี้ เราจะมาพูดถึงวิธีการนำผลลัพธ์ที่ได้จากการฝึกฝนของโมเดลในตระกูล Word2Vec สองโมเดลนี้มาทำการสร้างตัวแทนเชิงความหมายของคำและเอกสาร พร้อมทั้งลองเขียนโค้ดง่ายๆ เพื่อลองประยุกต์ใช้งานกันครับ

ในสมัยปัจจุบัน Web application ต่าง ๆ ที่เราสามารถเข้าใช้งานได้ผ่าน Internet แม้ว่าจะเราอาจจะเข้าผ่านมือถือ เครื่องคอมพิวเตอร์ หรืออุปกรณ์อิเล็กทรอนิกส์ใดก็ตาม Web application นั้นมักจะดึงข้อมูลจากเครื่อง Server ที่อยู่บน Cloud ซึ่งทำให้เราสามารถเข้าใช้งาน Web application ได้จากทุกที่และทุกเวลา

ในปัจจุบันข้อมูลที่มีลักษณะเป็นข้อความ (text) นั้นมีอยู่เป็นปริมาณมากแต่การประมวลผลข้อมูลเหล่านี้ไม่สามารถทำได้อย่างตรงไปตรงมาและจำเป็นต้องมีการจัดเตรียม (preprocess) ให้อยู่ในลักษณะที่เหมาะสมแก่การนำไปคำนวณได้เสียก่อน ซึ่งการจัดเตรียมข้อมูลเหล่านี้สามารถทำได้จากหลากหลายเทคนิคไม่ว่าจะเป็นการทำการประมวลผลพื้นฐานในการใช้เทคนิคพวก Bag of Words หรือ TF-IDF จนไปถึง การทำ word embedding เพื่อพยายามหาตัวแทนความหมายของข้อมูล ในบทความนี้ เราจะมาพูดถึงเทคนิคเบื้องต้น (ซึ่งยังมีการใช้งานอยู่ในปัจจุบัน) ของการทำ

© Big Data Institute | Privacy Notice