본문 바로가기

전체 글

(3)
[내가 필요한 부분만 골라보는 논문리뷰 #2] Quantifying social organization and political polarization in online platforms 오늘 리뷰할 논문은 2021년 12월에 Nature 지에 실린 논문이다. https://www.nature.com/articles/s41586-021-04167-x 이 블로깅은 초록, 발견, 방법론 순으로 정리하였다. 전체적인 내용을 알고 싶다면 '초록', 이 연구의 발견을 상세히 알고 싶다면 '발견', 사용한 방법론을 알고 싶다면 '방법론' 파트를 참고하면 좋다! 초록부터 문제의식 온라인 상에서는 같은 의견을 가진 집단에 대한 선택이 쉬운 환경이다. 이런 점에서, 개개인의 특정 정파에 대한 선호도는 온라인 커뮤니티를 분열시키고, 극단화할 수도 있다. 오늘 리뷰할 논문은 이러한 생각이 맞는지 측정하고자 한다. 그러나, 온라인 커뮤니티의 사회적인 구성을 측정하는 것은 한정적이다. 온라인 커뮤니티의 담론이 ..
BERTopic 이란? 예제 코드로 살펴보는 최첨단 토픽모델링(한국어 데이터에 적용) #필요 라이브러리 import pandas as pd import re from bertopic import BERTopic BERTopic 이란? (참조 https://github.com/MaartenGr/BERTopic) 토픽모델링은 문서 집합에서 토픽을 추출해내는 방법이다. BERTopic은 최첨단 토픽모델링 방법 중 하나이다. 기존의 토픽모델링은 같은 문서 안에 있는 단어들을 유사하다고 판단하는 bag-of-words 기반 토픽모델링이었다. 반면, BERTopic은 각 단어의 특징과 유사도를 나타내 주는 학습 임베딩 기법을 사용한다. 학습 기반 임베딩 기법 중에서도, 성능이 매우 뛰어난 BERT 모델을 활용하여 기존 bag-of-words기반 토픽모델링보다 맥락을 반영한 토픽 추출에 유리하다. 또..
[내가 필요한 부분만 골라보는 논문리뷰 #1] Word embeddings quantify 100 years of gender and ethnic stereotypes - part 1 Word embeddings quantify 100 years of gender and ethnic stereotypes Nikhil Garg, Londa Schiebinger, Dan Jurafsky, and James Zou, 2018, PNAS 해당 논문은 카이스트 HSS312 "Computational Social Science" 수업에서 처음으로 접한 연구입니다! Word Ebedding 이 사회 연구에 어떻게 적용될 수 있는 지를 보여주는 좋은 연구라 생각하여, 첫 논문 리뷰로 선정하였습니다! 저는 이 논문에서 필요한 부분이, Embedding bias 를 어떻게 측정했는가? 입니다. 그래서 해당 부분을 이해하는 데 필요한 부분만 뽑아내어 정리하였습니다. 이외 정보가 필요하신 분은, https..