มีใครรู้เทคนิค Latent Dirichlet Allocation (LDA) อย่างถ่องแท้บ้างครับ อยากจ้างให้มาช่วยสอนผมหน่อยครับ

กระทู้คำถาม

วิทยาศาสตร์คอมพิวเตอร์ วิศวกรรมคอมพิวเตอร์ วิชาการ Python ปริญญาเอก

ผมเป็นนักเรียนปริญญาเอกครับ กำลังทำเปเปอร์อยู่เปเปอร์หนึ่ง ผมอยู่สาย social science แต่ผมกำลังใช้ technique ของสาย computer science ครับ ผมเลยมีปัญหาที่ไม่สามารถเข้าใจเทคนิคที่ผมกำลังใช้ (LDA) และ hyperparameter ต่างๆได้อย่างถ่องแท้

โดยงานวิจัยที่ผมทำอยู่นี้คือการ scrap ข้อมูลบทสนทนาจาก social media ตัวหนึ่ง มาวิจัย ว่าเข้าพูดว่าอะไรมาก และนี่คือเหตุผลที่ผมเลือกใช้ LDA ครับ เพื่อที่จะทำให้ผมสามารถที่จะค้นพบ latent topic.. ผมลองใช้ MALLET แล้วครับ ใช้ง่ายดี.. แต่พอเอาผลไปคุยกับ coauthor ของผม เขาก็บอกว่าปัญหาของ topic modelling ชนิดนี้ คือ มันเป็นเทคนิคลักษณะ unsupervise จึงไม่สามารถที่จะ impose theoretical model หรือ domain knowledge ลงไปได้.. เขาเลยให้ผมลองไปหา methodology อื่นที่สามารถที่จะ impose domain knowledge ลงไปเพื่อกำกับการค้นหา topic จากบทสนทนาครับ

แล้วผมก็ไปเจองานของ David Andrzejewski ชื่อว่า Incorporating Domain Knowledge into Topic Modeling via Dirichlet Forest Priors ซึ่งเป็นการดัดแปลง LDA ให้สามารถที่จะ incorporate domain knowledge เข้าไปได้.. ผมคิดว่าเทคนีคนี้ละใช่เลย..

แต่ปัญหาคือผมไม่เข้าใจมันอย่างท่องแท้ครับ งานของเขามีแค่เพียง 8 หน้าเท่านั้น และยังมี python code ให้ด้วย.. ดูได้จาก http://www.david-andrzejewski.com/publications/uw-code/df_lda.html ครับ.. ผมต้องการที่จะหาคนมาสอนครับว่า DF_LDA ทำงานอย่างไร hyperparameter แต่ละตัวทำหน้าที่อะไร และวิธีที่จะใช้ DF_LDA โดยใช้ code ที่ David Andrzejewski เขียนไว้อยู่แล้วทำอย่างไรครับ.. ทั้งนี้ผมใช้ python เป็นอยู่แล้วนะครับ แต่พอลองลง program DF_LDA กลับลงไม่ผ่านสะงั้น.. พอผมรู้เรื่องพวกนี้อย่างถ่องแท้แล้ว ผมจะได้นำความรู้ไปวิเคราะห์ข้อมูลของผมเองต่อได้ครับ

ทั้งนี้ผมจ้างนะครับ ส่วนค่าจ้างจะเป็นเท่าไหรนั้นคุยกันได้ครับ ขอบคุณครับ

แก้ไขข้อความเมื่อ