최근 구글이 계속 제품 업데이트를 하면서 이번에는 구글 서치콘솔에서 robots.txt 보고서에서 심각한 오류 ‘잘못된 Sitemap URL이 감지되었습니다. 식별할 수 없는 구문입니다(line xx)’ 문제가 생겼는데 과연 어떻게 해결할 수 있는지 알아보도록 하겠습니다.
Robots.txt 심각한 오류
구글 서치콘솔 메뉴에서 설정 > 크롤링을 보면 빨간색으로 ‘심각한 오류’라고 뜨는 경우가 있을텐데요. 보고서 열기를 눌러보면 ‘잘못된 Sitemap URL이 감지되었습니다. 식별할 수 없는 구문입니다(line xx)’ 라는 문구와 함께 빨간색 명암이 쳐져 있는 것을 확인 할 수 있습니다.
다음 웹마스터도구나 네이버 서치어드바이저, 빙 웹마스터도구에서 robots.txt 검사를 했을 때 이상이 없는 것으로 나왔고, 구글에서도 크롤링을 문제 없이 하고 있었기 때문에 그냥 냅두셔도 크게 상관없을 거 같지만 이를 해결하고 싶으신 분들은 끝까지 읽어보시는 것을 추천 드립니다.
여러가지 시도를 해보다
저 역시 크롤링 통계를 보아도 사이트 내 글들이 크롤링이 안되는 것은 아닌 것 같아서 신경 안 쓰고 냅두려고 했는데요. 이게 신경을 안 쓰려고 해도 ‘심각’이라는 경고 문구가 거슬려서 이것저것 시도를 해보았습니다.
아무리 구글링을 해도 최근에 생긴 문제여서 그런지 어떤 정보도 얻을 수 없었고, 결국은 직접 문제를 해결해 보려고 하였습니다. 문제가 생긴 구문은 아래와 같습니다.
(공란)
Sitemap:https://www.도메인주소/sitemap_index.xml
(공란)
맨 처음으로 해본 방법은 기존에 Robots.txt 파일에 기재되어 있던 Sitemap:https://www.도메인주소/sitemap_index.xml 를 다음과 같은 방법으로 수정해보았습니다.
(공란)
Sitemap:https://www.도메인주소/sitemap.xml
Sitemap:https://www.도메인주소/post.sitemap.xml
Sitemap:https://www.도메인주소/post_tag-sitemap.xml
Sitemap:https://www.도메인주소/category_sitemap.xml
(공란)
즉 Sitemap_index.xml 구조를 쪼개서 등록해본 것인데요. 재크롤링을 요청해도 결과는 여전히 같은 경고 문구가 떴습니다.
다음으로 시도해본 방법은 Sitemap:https://www.도메인주소/sitemap_index.xml 에서 www.을 빼보았지만 역시나 같은 경고 문구가 떴습니다. 그러면서 문득 생각이 든 점이 그럼 sitemap 주소나 양식의 문제는 아닌 것 같은데라는 생각이 들었고 아래와 같은 해결 방법을 찾아냈습니다.
잘못된 Sitemap URL 감지 해결 방법
네이버, 다음, 빙에서도 문제가 없는 데 구글 서치콘솔에서만 문제 삼고 있는 것 같아서 곰곰이 생각하다가 번뜩 떠오른 아이디어가 있는데 바로 이것입니다.
User-agent: googlebot
Disallow:
Sitemap: https://www.도메인주소/sitemap_index.xml
원래 저는 Sitemap주소 위아래로 공란(빈칸)이 있었고 Robots.txt 맨 아래에 별도 위치 기재하고 있었습니다. 이를 구글봇 엑세스 허용 문구 아래에 공란 없이 가져다 붙이기만 하고 재크롤링을 요청하자 ‘심각’이던 문구에서 ‘유효‘로 변경되었습니다.
마치며
아직까지 해당 오류가 문제가 되는 것은 아닌 걸로 생각 들지만, 경고 문구가 거슬렸던 분들은 위의 방법을 이용해서 Robots.txt 파일을 수정해보시길 바랍니다. 아직까지 해당 경고가 뜬 지도 모르는 분들이 대다수 인 것 같습니다. 도움이 되셨다면 해당 내용에 대해서 제 글 출처를 남겨주시면 감사하겠습니다.