안녕하세요, 현재 연구용역과제로 연구동향분석을 하고 있는데요,
분석을 위해 논문 PDF 파일을 텍스트(TXT) 파일에 옮기니, 한 문장 단위로 잘 끊어지지가 않아서요
예를 들어,
철수는 밥을 먹습니다.
영희는 김치를 먹습니다
이렇게 나와야하는데,
철수는 밥을
먹습니다
영희는 김
치를 먹습니다
이렇게 끊어져서 '김치'같은 원래 하나인 단어마저 단어로 인식되지 않을 것 같은데
이런 상태로 분석을 진행해도 결과에 지장이 없을까요? (분석은 토픽모델링, 네트워크 분석 진행할 예정입니다)
아니면 R에서 문장을 연결해주는 그런 기능이 있을까요?
지금 하나하나 문장 이어붙이는 노가다 중인데 너무 번거로워서요..
Comment 5
-
cardiomoon
2023.03.31 13:05
-
맛있는호랑이
2023.03.31 15:03
안녕하세요. 제가 답변을 드릴 수 있을 것 같은데, 사실 텍스트파일이 어떻게 저장되어있느냐에 따라 다릅니다.
1. \n과 같은 개행문자가 있는 경우, stringr 패키지의 str_replace 함수 같은걸로 지워주는 작업을 해주면 됩니다.
2. 문장을 종결하는 어미에 dot(.), question mark(?), exclamation mark(!) 등, 문장 종결을 알리는 부호가 있는 경우, 이를 기준으로 해서 문장별로 리스트나 딕셔너리에 따로 담아 관리하면 조금 더 편합니다.
3. 그런데 위 문서와 같이 종결 부호가 없는 경우는 조금 복잡해지는데요, 많이 쓰이는 방법은 형태소 분석을 한 다음에, 종결을 알리는 어미가 왔을 때, 임의로 부호를 붙여준 다음, 문장별로 리스트나 딕셔너리에 따로 담는 방법입니다.
괜찮으시다면 가지고 계신 파일을 첨부해주시면, 제가 예시 코드를 만들어 드릴게요. :)
-
vtlbtl
2023.04.03 09:25
헛 친절하고 자세한 답변 감사드립니다. 파일은 txt 파일 말씀하시는거죠? 예시로 하나 첨부드리겠습니다.
-
맛있는호랑이
2023.04.03 21:47
제가 업무시간에는 봐드릴 수가 없어서 저녁에서야 봤네요. 아래 링크를 참고해보세요~
참고문헌 표시 1) 같은 것은 전처리를 하시리라 생각해서 일단 놔두었습니다.
https://colab.research.google.com/drive/1JC1qcDw2dNnaXGmr_HBrLYD-rtz0jj1y?usp=sharing -
vtlbtl
2023.04.07 11:08
답변 정말 감사드립니다.
일이 있어서 답이 늦었네요.
그런데 중간중간에 구분이 잘 되지 않는 행도 있더라구요.
보니까 문장 종결 역할을 하는 마침표(.)도 있지만 문장 중간에 나타나는 마침표때문인 것 같아요. (Fig. 1 이라던지 등)
가능다하면, 혹시 3번 방법도 예시를 알려주실 수 있으신가요??
No. | Subject | Author | Date |
---|---|---|---|
1194 | PSM 시 범주형 변수가 총 10가지 일 때 어떻게 돌려야 하는지요 [1] | 긍정적인마음가짐 | 2023.05.06 |
1193 | 첫번째 행을 라벨로 사용 버튼 클릭시 에러 문의 [3] | 수담이 | 2023.05.04 |
1192 | 안녕하세요? web-R table 그리고 관련하여 문의드립니다. [4] | mkw7654 | 2023.05.02 |
1191 | 메타분석 U3 그래프 관련 문의드립니다 | 화이팅 | 2023.05.02 |
1190 | 교수님 안녕하세요~~ | 메시12 | 2023.04.29 |
1189 | 연속형 변수인데 범주형으로 인지됩니다. [2] | shararaku | 2023.04.28 |
1188 | 통계마당 [2] | ejo | 2023.04.27 |
1187 | moonBook 오류 관련 재문의드립니다. [1] | holyhyun | 2023.04.24 |
1186 | moonBook 사용시 오류메시지로 문의드립니다. [1] | holyhyun | 2023.04.24 |
1185 | 에러 문의 [2] | 화이팅 | 2023.04.19 |
1184 | Cox regression 에 대한 문의입니다. [2] | saga | 2023.04.18 |
1183 | PSM 문의 [3] | starwars | 2023.04.13 |
1182 | ggPS, ggPSMSummary function [6] | 로렌쵸메디치 | 2023.04.12 |
1181 | Survival 분석에 대해서 문의 드립니다. | 정훈신 | 2023.04.05 |
1180 | 안녕하세요. 분석 툴에 대해 문의드립니다. [1] | 스매직맨 | 2023.04.04 |
1179 | 드디어 publish 되었네요. [2] | 정지윤 | 2023.04.04 |
» | 연구동향분석 시 논문 데이터 정제 관련 [5] | vtlbtl | 2023.03.31 |
1177 | 안녕하세요 교수님 에러 문의드립니다 [2] | 소소 | 2023.03.26 |
1176 | 코딩값이 여러개인 변수에 대한 전체 p값을 알 수 있는 방법이 궁금합니다 | 쥬쥬즈주 | 2023.03.22 |
1175 | PSM 매칭 버튼 보이지 않음. | swpapa | 2023.03.19 |
안녕하세요? 제가 잘 아는 분야가 아니라 저로서는 잘 모르겠습니다.