본문 바로가기
Natural Language Processing/etc...

EMNLP 2024 투고록 ① - 논문 작성 Process

by beeny-ds 2024. 11. 2.
금년도 EMNLP 학회에 논문을 투고했습니다~
정확히는 EMNLP Industrial track 에 논문을 투고했는데요 !
논문 작성부터 투고 및 마무리까지 어떤 과정으로 진행이 됐는지 기록을 남기고자 글을 올립니다~
투고록은 총 3개의 게시글로 나눠 작성할 예정입니다.
먼저 논문 작성 Process 에 대해 상세하게 다루겠습니다.

EMNLP 학회에 논문을 투고하고자 하는 분들께 도움이 되었으면 좋겠네요 :)

 

논문 투고 일정

출처: https://2024.emnlp.org/calls/industry_track/

날짜 일정 설명
24년 7월 18일 논문 제출 논문 제출 마감 날짜
24년 9월 5~11일 Rebuttals Reviewer 와 저자의 토론 기간
24년 10월 1일 Accept 논문 발표 학회 등록으로 채택된 논문 공지
24년 10월 15일 Final Version 논문 등록 Camera-ready version(최종 제출할) 논문 등록
24년 10월 22일 논문 발표 자료 제출 학회 때 발표할 자료 제출
24년 11월 12~14일 학회 진행 Miami 에서 학회 진행하는 날짜

※ 시간의 기준은 UTF-12 이기 때문에 대한민국보다 21시간 느리다고 생각하시면 됩니다. 예를들어 UTF-12 / 7월 18일 자정까지 논문 제출 마감이라면 대한민국 기준, 7월 19일 오후 9시까지라 생각하시면 됩니다.

더보기

UTC-12 시간대는 협정 세계시보다 12시간 늦은 경도 180도를 기준으로 하는 시간대이다. 새해를 가장 늦게 맞이하는 시간대이며, 국제날짜변경선 서부표준시간대(IDLW, International Date Line West time zone)로 부르기도 한다.

  • 필자의 논문: 'Language, OCR, Form Independent (LOFI) pipeline for Industrial Document Information Extraction' 

 

자 그럼 EMNLP Industrial track 이 뭔지, 왜 Industrial track 을 선정했는지, 어떤 Process 로 논문을 작성했는지에 대해 끄적여보겠습니다~


1. Industrial Track 선정 이유

EMNLP Industrial Track 은 NLP 기술의 실제 산업 응용 및 구현에 초점을 맞춘 학술 컨퍼런스의 특별 세션이다.

이 트랙은 학계와 산업계 간의 지식 공유를 촉진하고, 실제 환경에서 언어 기술을 배포할 때 발생하는 고유한 과제와 통찰력을 강조하는 것을 목표로 한다.

 

Industrial Track 을 선택한 이유는 회사에서 진행했던 연구를 논문화하기 위함이었다. 사실 처음부터 Industrial Track 을 선택하기로 약속하고 논문을 작성한게 아니라 논문을 작성하고 어디 학회에 투고할지 찾아보니 EMNLP Industrial Track 이 가장 Fit 하다고 판단하여 해당 Track 을 선택한거다.

 

필자가 1저자로 작성한 논문인 'Language, OCR, Form Independent (LOFI) pipeline for Industrial Document Information Extraction' 는 Industrial Track 에 적합하다.

  1. 실제 문제를 해결하는 NLP 시스템의 설계, 구현, 배포에 대한 내용이 있었음
  2. 사용 사례, 문제의 중요성, 방법론 선택의 이유와 같은 근거가 주요 내용임
  3. 설계부터 배포까지의 사례를 포함하였음
  4. 실제 산업 데이터를 사용한 실험 및 평가를 진행하였음
  5. 실제 환경에서 NLP 시스템을 배포할 때 직면한 문제와 그 해결책이 있었음

Industrial Track 에 맞게 학술적 연구와 산업 응용 사이의 간극을 좁히는 데 중점을 둔 연구에 대한 논문이었기 때문에 논문 작성 이후 투고 학회를 찾던 중 EMNLP Industrial Track 을 선정하였다.


2. 논문 작성 Process

논문 작성의 기간은 약 2.5개월 정도 소요되었다.

원래 글을 잘 쓰는 편이 아니었기에 이미 연구가 끝났음에도 불구하고 시간이 꽤 걸렸던 것 같다.

실제로 논문에 기재할 실험 결과를 추출하는데는 약 2주, 논문 주제 선정부터 작성, 피드백 반영까지는 약 2개월이 소요되었다. (글쓰는건 참 어렵다...)  

 

a. 논문 작성 사전 준비

먼저 언급하고 싶은것은 필자는 영어를 못한다... 

감사하게도 회사에 외국에서 학교를 다닌 사람이 있어 논문을 먼저 한글로 작성한 뒤 그 사람이 영어로 번역하며 논문을 작성해줬다.

 

논문 작성 시 가장 중요하게 생각한 점은 논문의 주제와 연구가 기여한 점을 무엇으로 설정할 것인가? 였다.

타 논문과의 차별점을 주기 위해 관련 주제의 Reference 를 많이 찾아봤다.

Reference check 시 사용한 방법은 다음과 같다.

Connected Paper 에서 확인한 Reference

  1. 먼저 우리 논문과 직접적으로 관련된 논문 3개를 선정하였다.
  2. 3개의 논문이 인용한 Reference 를 리스트업 및 Check 하였다.
    • Connected Papers 사이트에서 1번 3개의 논문과 관련된 논문 리스트업 (사이트에서 Related reference 다운로드 가능)
    • Connected Papers 사이트 : 검색하는 논문과 관련된 모든 Reference 를 정리
      • 위 그래프에서 원(node)이 Reference
      • Search for a paper 를 통해 검색한 논문과 관련된 모든 Reference 를 찾음
      • Connected Papers link : https://www.connectedpapers.com/
    • 총 62개의 Reference 를 확인했다.
  3. 해당 Reference 리스트를 상세하게 확인하며 우리 논문의 주제 및 기여 Point 에 대해 설정
  4. 한글 Version 논문 작성 시작

 

 

b. 영어 Version 논문 작성을 위한 용어 통일

한글 Version 을 영어 Version 으로 번역할 때 어떤 용어로 표현해야 할지 참 어려웠던 기억이 난다.

그도 그럴것이 Reference 마다 표현하는 방식이 가지각색이다.

동일한 의미를 다른 단어로 표현하는 경우가 많아 우리 논문에는 어떤 단어로 표현해야할까? 에 대해 논의를 진행하였다.

  •  우리 논문에 사용할 단어 선정에 대한 고민
    • 예를들어 `한국어와 같이 사용 빈도가 낮은 언어` 를 어떻게 표현해야 할까? 와 같은 고민이었다.
  • 단어 선정을 위해 Reference Check 를 통해 타 논문에서는 어떤 표현을 사용하는지 확인하였다.
    • `한국어와 같이 사용 빈도가 낮은 언어` 를 Low Resource Language 라 표현하였다. 주로 번역 관련 논문에서 그렇게 표현하더라.
  • 총 19개의 용어 선정을 진행하였다.  

이후 팀 내에서 논문 피드백을 진행하며 피드백 반영을 통해 논문 내용을 수정하였다.

 

c. EMNLP Industrial Track format 으로 수정

영어 버전까지 모두 작성이 끝난 뒤에는 EMNLP Industrial Track 의 논문 format 에 맞춰 구조와 양을 변경하였다.

각 학회마다 Paper formatting guidelines 이 존재하는데 이는 학회에 설명되어 있어 참고하였다.

 

https://acl-org.github.io/ACLPUB/formatting.html

 

Paper formatting guidelines - ACLPUB

The following instructions are for authors of papers submitted for review to ACL conferences (hereafter, “review version”) or paper accepted for publication in its proceedings (hereafter, “final version”). All authors are required to adhere to thes

acl-org.github.io

위의 링크에 들어가면 알겠지만 Paper length 및 text size 등 각종 format guidline 이 존재한다.

이를 참고하여 논문의 내용을 수정하였다.


3. 우여곡절

논문 작성을 진행하며 우여곡절이 참 많았다.

그중 가장 힘들었던 경험을 기록해본다.

 

  1. 이게 논문이 될까? 의심에 의한 고민
    • 프로젝트 수행을 위해 진행한 연구를 논문으로 옮기고자 했다.
      해당 연구는 Reference 가 존재하는 3개의 논문의 방법론을 Merge 한 Pipeline 을 개발한거다.
    • 기존 방법론을 적절히 사용한 것에 지나지 않았다고 생각했기에 우리의 기여도는 무엇일까? 에 대한 고민이 컸다.
    • 맨날 보던 논문이 참신함과 독특함을 가지고 있었기 때문인지 우리의 연구는 참신함과 독특함이 없다고 생각했다.
    • 어떤 기여가 있을까? 이게 과연 논문으로 가치가 있을까? 에 대한 고민이 많았다.
  2. Introduction & Related Works 작성
    • 논문 주제 선정과 주제에 맞춘 실험 설계 및 결과 해석까지는 순조로웠다.
    • 문제는 논문의 초반 Section 인 Introduction 과 Related Works 였다.
      두 Section 을 통해 논문이 말하고자 하는 바를 명확하게 하여야 한다.
    • 두 Section 을 통해 독자의 이해와 우리의 의도가 일치하도록 글을 써야 한다.
    • 글을 쓰는 사람이 아니다보니 독자의 이해와 우리의 의도가 일치하지 않았던 것 같다... 이를 고려하여 많은 수정을 거듭했음에도 의도가 명확히 전달되지 않은 것 같다. (실제로 Rebuttals 기간에 Reviewer 의 반응이 그랬다.)
  3. 여러 사람의 피드백 과정
    • 연구소 내에서 4개의 집단(?)과 피드백을 진행했다.
      팀 내부 피드백, 영어 Version 으로 번역하는 인력과의 소통, 연구소장님의 피드백, 교수님(CEO)의 피드백
    • 여러 사람의 피드백에 의해 논문 수정 기간이 길어지고 각기 다른 시각에 따라 지쳐갔다.
    • 다시 쓴다면 소수의 인원에게 피드백을 받는게 좋을 것 같고 소통 방식도 개선할 것 같다.

 

논문을 다시 쓴다면 어떻게 생산성을 높일 수 있을까? Self-Feedback 을 해본다.

 

먼저 논문이란 무엇인가? 에 대한 생각을 많이 했던 것 같다.

나는 논문이 학술적으로 인사이트를 줄 수 있는 방법론이 적용되어야 쓸 수 있는 연구로 생각을 해왔다.

하지만 이 기회를 통해 학회의 특징에 따라 논문의 핵심 주제가 달라질 수 있다는 것을 깨달았고 앞으로 프로젝트나 연구를 진행할 때 논문 작성을 고려해보는 것이 중요하겠다라는 생각을 하게 되었다. 

 

Introduction 과 Related Works 는 논문 작성 맨 마지막에 진행해야 한다.

그리고 작성 간 논문의 핵심 주제인 무엇을 말하고자 하는가? 를 고려하며 각 Section 의 구성을 핵심 주제와 동일한 Level 로 구성해야 함을 느꼈다. 논문 또한 고객의 관점으로 작성해야한다. 논문의 고객은 독자들이다. 독자들은 논문이 말하고자 하는 바를 헷갈리지 않도록 명확하게 이해할 수 있도록 글 구성을 해야한다.

 

여러 사람의 피드백 보다는 핵심 인원의 피드백을 받아야 한다.

사공이 많으면 배가 산으로 간다. 사공이 많아 논문의 방향성이 계속 흔들렸던 것 같다. 모든 피드백을 전부 반영할 필요는 없다는 것을 많이 느낀다. 아니 그보다 많은 피드백이 항상 좋지만은 않은 것 같다. 누구에게 피드백을 들어야 하는지 명확히 할 필요가 있고 핵심 인원의 기준은 논문 작성 경험이 있는 사람이어야 할 것 같다.

그리고 논문을 작성한 사람과 피드백을 하는 사람의 컨센서스가 명확히 맞춰진 후 피드백을 들어야 한다. 그렇지 않으면 피드백은 의미가 없어진다. 오히려 논문의 흐름을 잘못된 방향으로 이끌게 된다.


마무리

참.. 다시 돌아봐도 말도 많고 탈도 많았던 논문 작성 기간이었다. 

중요한건 다시 논문을 쓴다면 어떻게 해야 효율적일까? 생산성이 높을까? 피드백하는 것 같다.

그리고 앞으로 어떤 주제, 연구의 논문을 써야 좋을지 고민하며 업무을 진행하는 것이 중요하다고 생각한다.

그래야 나의 커리어에, 회사의 성과에 기여할 수 있는 방법이라 확신한다.

 

다음 포스팅은 논문 작성 후 Review 를 어떻게 대응했는지, 대응하는 Tip 은 무엇인지에 대해 다루고자 한다.

아마 논문을 작성하는 많은 사람들이 어려움을 겪고 정보를 얻고 싶은 부분이지 않을까? 생각한다.

반응형

댓글