FloatChat/real_data_processor.py at main · ahermangesh/FloatChat · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
#!/usr/bin/env python3
"""
FloatChat - Real ARGO Data Processing Pipeline

This script processes the 2,056 NetCDF files in argo_data/ and loads them
into the PostgreSQL database with proper validation and error handling.
"""

import asyncio
import os
import sys
import logging
from pathlib import Path
from datetime import datetime
from typing import List, Dict, Any, Optional
import traceback

# Add app to path
sys.path.append(str(Path(__file__).parent))

import pandas as pd
import numpy as np
import netCDF4 as nc
from sqlalchemy import create_engine, text
from sqlalchemy.orm import sessionmaker
import structlog

# Configure logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('data_processing.log'),
        logging.StreamHandler(sys.stdout)
    ]
)
logger = logging.getLogger(__name__)

# Import our models and config
try:
    from app.core.config import get_settings
    from app.models.database_simple import ArgoFloat, ArgoProfile, ArgoMeasurement, Base
    settings = get_settings()
    logger.info("✅ FloatChat configuration loaded successfully")
except ImportError as e:
    logger.error(f"❌ Failed to import FloatChat modules: {e}")
    sys.exit(1)


class RealArgoDataProcessor:
    """Real ARGO data processor for NetCDF files."""

    def __init__(self):
        self.settings = get_settings()
        self.processed_count = 0
        self.error_count = 0
        self.start_time = datetime.now()

        # Database connection
        try:
            self.engine = create_engine(self.settings.database_url_sync)
            self.Session = sessionmaker(bind=self.engine)
            logger.info("✅ Database connection established")
        except Exception as e:
            logger.error(f"❌ Database connection failed: {e}")
            raise

    def setup_database(self):
        """Create database tables if they don't exist."""
        try:
            logger.info("🔧 Setting up database tables...")
            Base.metadata.create_all(self.engine)
            logger.info("✅ Database tables ready")
        except Exception as e:
            logger.error(f"❌ Database setup failed: {e}")
            raise

    def find_netcdf_files(self, data_path: str = "./argo_data") -> List[Path]:
        """Find all NetCDF files in the data directory."""
        data_dir = Path(data_path)
        if not data_dir.exists():
            logger.error(f"❌ Data directory not found: {data_path}")
            return []

        nc_files = list(data_dir.rglob("*.nc"))
        logger.info(f"📁 Found {len(nc_files)} NetCDF files")
        return nc_files

    def parse_netcdf_file(self, file_path: Path) -> Optional[Dict[str, Any]]:
        """Parse a single NetCDF file and extract ARGO data."""
        try:
            with nc.Dataset(str(file_path), 'r') as dataset:
                data = {}

                # Extract global attributes
                data['file_path'] = str(file_path)
                data['file_name'] = file_path.name
                data['processing_date'] = datetime.now()

                # Extract date from filename (format: YYYYMMDD_prof.nc)
                try:
                    date_str = file_path.stem.split('_')[0]  # Remove _prof.nc
                    data['profile_date'] = datetime.strptime(date_str, '%Y%m%d').date()
                except:
                    data['profile_date'] = None

                # Extract dimensions
                data['dimensions'] = dict(dataset.dimensions.items())

                # Extract variables (sample some key ones)
                variables = {}
                for var_name in dataset.variables:
                    var = dataset.variables[var_name]
                    if var.ndim <= 1:  # Only extract 1D variables for now
                        try:
                            variables[var_name] = var[:].tolist() if hasattr(var[:], 'tolist') else str(var[:])
                        except:
                            variables[var_name] = f"<{var.dtype} array>"
                    else:
                        variables[var_name] = f"<{var.shape} {var.dtype} array>"

                data['variables'] = variables

                # Extract some key oceanographic parameters if they exist
                try:
                    if 'TEMP' in dataset.variables:
                        temp_data = dataset.variables['TEMP'][:]
                        data['temperature_mean'] = float(np.nanmean(temp_data))
                        data['temperature_min'] = float(np.nanmin(temp_data))
                        data['temperature_max'] = float(np.nanmax(temp_data))
                except:
                    pass

                try:
                    if 'PSAL' in dataset.variables:
                        sal_data = dataset.variables['PSAL'][:]
                        data['salinity_mean'] = float(np.nanmean(sal_data))
                        data['salinity_min'] = float(np.nanmin(sal_data))
                        data['salinity_max'] = float(np.nanmax(sal_data))
                except:
                    pass

                try:
                    if 'PRES' in dataset.variables:
                        pres_data = dataset.variables['PRES'][:]
                        data['pressure_mean'] = float(np.nanmean(pres_data))
                        data['pressure_min'] = float(np.nanmin(pres_data))
                        data['pressure_max'] = float(np.nanmax(pres_data))
                except:
                    pass

                return data

        except Exception as e:
            logger.error(f"❌ Error parsing {file_path}: {e}")
            return None

    def save_to_database(self, data: Dict[str, Any]) -> bool:
        """Save parsed data to the database."""
        try:
            session = self.Session()

            # Create a simple record for now (we can expand this later)
            # For now, we'll create a basic float record with the file data
            float_record = ArgoFloat(
                wmo_id=hash(data['file_name']) % 1000000,  # Generate a pseudo WMO ID
                platform_type="ARGO_FLOAT",
                deployment_date=data.get('profile_date'),
                status="ACTIVE",
                deployment_latitude=0.0,  # Will be updated with real coordinates later
                deployment_longitude=0.0
            )

            session.add(float_record)
            session.commit()
            session.close()
            return True

        except Exception as e:
            logger.error(f"❌ Database save error: {e}")
            if 'session' in locals():
                session.rollback()
                session.close()
            return False

    def process_files(self, batch_size: int = 50) -> Dict[str, int]:
        """Process all NetCDF files in batches."""
        files = self.find_netcdf_files()
        total_files = len(files)

        if total_files == 0:
            logger.error("❌ No NetCDF files found to process")
            return {"processed": 0, "errors": 0, "total": 0}

        logger.info(f"🚀 Starting processing of {total_files} files in batches of {batch_size}")

        processed = 0
        errors = 0

        for i in range(0, total_files, batch_size):
            batch_files = files[i:i + batch_size]
            logger.info(f"📊 Processing batch {i//batch_size + 1}/{(total_files + batch_size - 1)//batch_size}")

            for file_path in batch_files:
                try:
                    # Parse NetCDF file
                    data = self.parse_netcdf_file(file_path)
                    if data is None:
                        errors += 1
                        continue

                    # Save to database
                    if self.save_to_database(data):
                        processed += 1
                        if processed % 10 == 0:
                            logger.info(f"✅ Processed {processed}/{total_files} files")
                    else:
                        errors += 1

                except Exception as e:
                    logger.error(f"❌ Error processing {file_path}: {e}")
                    errors += 1

            # Progress update
            elapsed = datetime.now() - self.start_time
            rate = processed / elapsed.total_seconds() if elapsed.total_seconds() > 0 else 0
            logger.info(f"📈 Progress: {processed}/{total_files} processed, {errors} errors, {rate:.2f} files/sec")

        return {"processed": processed, "errors": errors, "total": total_files}

    def get_database_stats(self) -> Dict[str, Any]:
        """Get statistics about the data in the database."""
        try:
            session = self.Session()

            # Count records
            float_count = session.query(ArgoFloat).count()

            # Get date range
            result = session.execute(text("""
                SELECT
                    MIN(deployment_date) as min_date,
                    MAX(deployment_date) as max_date,
                    COUNT(DISTINCT platform_type) as platform_types
                FROM argo_floats
                WHERE deployment_date IS NOT NULL
            """)).fetchone()

            session.close()

            stats = {
                "total_floats": float_count,
                "date_range": {
                    "min_date": str(result[0]) if result[0] else None,
                    "max_date": str(result[1]) if result[1] else None
                },
                "platform_types": result[2] if result[2] else 0
            }

            return stats

        except Exception as e:
            logger.error(f"❌ Error getting database stats: {e}")
            return {"error": str(e)}


def main():
    """Main processing function."""
    logger.info("🌊 FLOATCHAT REAL DATA PROCESSING PIPELINE")
    logger.info("=" * 50)

    try:
        # Initialize processor
        processor = RealArgoDataProcessor()

        # Setup database
        processor.setup_database()

        # Process files
        logger.info("🔄 Starting NetCDF file processing...")
        results = processor.process_files(batch_size=50)

        # Show results
        logger.info("📊 PROCESSING COMPLETE!")
        logger.info(f"✅ Successfully processed: {results['processed']}")
        logger.info(f"❌ Errors: {results['errors']}")
        logger.info(f"📁 Total files: {results['total']}")

        # Show database stats
        logger.info("📈 DATABASE STATISTICS:")
        stats = processor.get_database_stats()
        for key, value in stats.items():
            logger.info(f"   {key}: {value}")

        # Processing time
        elapsed = datetime.now() - processor.start_time
        logger.info(f"⏱️ Total processing time: {elapsed}")

        if results['processed'] > 0:
            logger.info("🎉 REAL DATA SUCCESSFULLY LOADED INTO DATABASE!")
        else:
            logger.error("❌ NO DATA WAS PROCESSED!")

    except Exception as e:
        logger.error(f"💥 CRITICAL ERROR: {e}")
        traceback.print_exc()
        sys.exit(1)


if __name__ == "__main__":
    main()