이전에 구글 검색 콘솔에 내 블로그를 등록하였고 이후에 잘 작동하는 줄만 알았지만, 얼마 전에 들어가 보니 이상한 점이 발견되어 검색하고 해결하는 과정에 대해서 간략하게 남겨보았다.
1. 문제 발생
이전에 작성한 글에서 내 블로그에 대한 사이트맵을 정상적으로 제출 하였고 그 이후 이제 구글에서 내 블로그를 찾아볼 수 있게 된 줄 알았는다. 근데 이게 웬걸 내가 이전에 제출한 사이트 맵의 상세 페이지를 확인해보니 색인이 정상적으로 생성되었다고 한 것은 달랑 3개..
그래서 더 자세히 알아보기 위해 색인이라는것이 무엇인지부터 확인해보았다.
색인이란?
검색을 더욱 빠르게 하기 위해 데이터를 저장하는 장소.
그래서 구글의 검색 엔진에 대해서도 알아보았다. 구글의 검색엔진은 크게 3단계로 나눠져서 작동하게 된다.
- 크롤링: 크롤러라는 자동화된 프로그램으로 웹을 검색하여 신규 또는 업데이트된 페이지를 찾습니다. 그런 다음 나중에 볼 수 있도록 발견된 페이지의 주소 (또는 페이지 URL)을 큰 목록에 저장합니다. 기본적으로 구글은 이미 알고 있는 페이지의 링크를 따라가는 것입니다.
- 색인 생성: 크롤링을 통해 파악한 페이지를 방문하여 각 페이지에 대한 정보를 분석합니다. 페이지의 컨텐츠, 이미지, 동영상 파일을 분석하여 어떤 페이지인지 파악하려고 합니다. 이 정보는 수많은 컴퓨터에 저장된 거대한 데이터베이스인 구글 색인에 저장됩니다.
- 검색 결과 게재: 사용자가 검색하면 구글에서는 가장 높은 품질의 검색결과를 결정하려고 합니다. ‘최고의’ 검색 결과에는 사용자 위치, 언어, 기기(데스크톱 또는 휴대전화), 이전 검색어를 비롯한 여러 요소가 있습니다.
그래서 색인이 생성 되지 않으면 구글에서는 해당 글을 게시해주지 않는다. 마치 학교 게시판에 글을 게시하기 위해 학교의 허락을 받는 것과 비슷한 개념으로 이해하면 될 것 같다. 이제 문제를 인지했으니 어떻게 해야 할지에 대해 조사해보자.
2. 문제 조사
가장 먼저 내가 이전에 제출한 사이트맵이 이상이 있거나 사이트맵이 제출 되었지만, 색인 생성을 하지 못한 이유가 있을 것 같아 찾아보았다.
이전에 내가 제출한 사이트맵은 https://daebong-monk.tistory.com/rss로 이때 당시만 하더라도 다른 문제점을 찾지 못했다.
다른 블로거분들의 글과 구글의 관련 공식 문서를 확인 해보니 sitemap을 rss 말고도 sitemap.xml형식의 사이트맵을 추가적으로 제출해보라고 하였다. 그래서 rss뿐만 아니라 sitemap.xml을 추가해주었다. 자신의 티스토리 사이트맵을 확인하기 위해서는 블로그 설정에서 아래 사진의 위치에서 확인할 수 있다.
여기서 이제 사이트맵은 정상적으로 제출 되었는데 여기서 제일 처음 본 색인이 정상적으로 생성되지 않은 오류를 확인하였다.
사이트맵을 다시 한번 더 삭제했다 제출도 해보았지만 결과는 동일 하였다. 바로 해결해보자.
3. 문제 해결
색인을 생성하지 못한 경우 관리자가 직접 그 색인을 생성 해줄 수 있다고 한다. 그래서 콘솔의 URL 검사 기능을 이용하여 Google 색인에서 데이터를 직접 찾아봐야 한다. URL을 입력해야 하는데 이곳에 자신의 블로그 주소나, 색인에서 제외된 주소 값을 입력하면 되는데, 아래 사진을 통해 과정을 확인해보자.
이것만 보더라도 둘의 차이점은 아마 분명하게 확인할 수 있다. 그래서 어떻게 해결했는지에 대해 빠르게 넘어가자. 사진의 우측 상단에 실제 URL 테스트라는 버튼이 보일 것이다. 그럼 저걸 눌러주면 잠깐 로딩 창이 출력되고 이후 사라진다. 그러고 나서 색인 생성 요청이라는 버튼을 또 한 번 눌러주자. 그럼 보통 정상적으로 등록된 경우와 같이 화면이 변경될 것이다.
그런데 만약 안 되는 경우는? 실제 URL테스트도 했고 색인 생성 요청도 직접 다해주었는데 그래도 비정상적인 화면으로 출력이 되었다면 경험상 사이트맵을 제출하고 바로 변경사항을 구글 측에서 잡아내 주지는 않기 때문에 약간의 시간이 소요된다. 나의 경우에도 하루정도 시간이 소요된 것 같다. 일단 이렇게 하면 색인을 수동으로 생성해주었기 때문에 나머지 페이지들도 아마 색인이 정상적으로 제출될 것 같다. 나는 참을성이 없어서 그런가 이것저것 더 찾아보고, 티스토리에서 제공해주는 sitemap 대신 내가 직접 sitemap을 만드는 과정, 그리고 그 URL을 검수하는 과정 중 robots.txt라는 것을 발견하고 조사해보았는데, 이건 좀 재밌는 것 같아서 잠깐만 이야기하고 넘어가자.
robots.txt이란??
robots.txt 파일은 주로 사이트의 크롤러 트래픽을 관리하고, 일반적으로 다음과 같은 파일 형식에 따라 Google에 파일을 표시하지 않기 위해 사용합니다. 더 자세한 사항들은 아래 링크를 통해 확인할 수 있으니 혹여 갑자기 저게 궁금해진다면 한번 들어가서 구경해보자.
https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=ko
robots.txt 소개 및 가이드 | Google 검색 센터 | 문서 | Google Developers
robots.txt는 크롤러 트래픽을 관리하는 데 사용됩니다. robots.txt 소개 가이드에서 robots.txt 파일의 정의와 사용 방법을 알아보세요.
developers.google.com
이전 글 rss에서도 막 혼자서 급하게 하다가 시간은 시간대로 힘은 힘대로 다 빼고 겨우겨우 해결했었는데 이번에도 비슷한 경우다.
그래서 결론적으로는 이게 엄청 급한 것도 아니니깐 일단 스스로 조치를 취할 수 있는 것들은 최대한 취해주고 기다리자!
이것저것 정말 많이 찾아보았는데, 찾아보면 볼수록 점점 이상해져 가는 것이 그냥 구글 검색을 포기해야 하나 싶었다. 이걸로 다 된 줄 알았는데.. 오늘 글 쓰는 시점에서 또다시 이상한 점이 발견되어서 아마 구글 검색 콘솔로 글을 쓰는 날이 또 찾아오지 않을까??
- 앞에서 부터 계속 말 나왔었던 이전글
https://economic-bowl.tistory.com/entry/Google-Search-Console-rss-오류
'알쓸 그릇' 카테고리의 다른 글
구글 검색 콘솔 후기 (0) | 2023.09.29 |
---|---|
Google Search Console rss 오류 (0) | 2023.09.26 |
티스토리 구글 검색에 등록! (0) | 2023.09.25 |